HighLoad++

Конференция разработчиков
высоконагруженных систем

Пресловутая компонента ранжирования Search Engines

Дмитрий Крюков (Группа Компаний Стек)

Программный комитет еще не принял решения по этому докладу

В битве титанов полнотекстовых поисковых технологий рождались и рождаются сейчас новые компоненты, оказывающие большее или меньшее влияние на результаты их поисковой деятельности. Основатели Google открыл еще одну страницу истории, объявив об использовании в ранжировании Google PageRank. Это было давно и существует масса публикаций на эту тему разного уровня популяризации. Все мы, в большей или меньшей степени, понимаем суть этой метрики.

Но мало кто из нас понимает, а каким же образом реально можно высчитать для каждой страницы набора документов мирового web-пространства степень ее значимости, в сравнении со всеми остальными? Какие существуют "честные" и "не очень честные" способы? Как архитектурное решение поисковой системы может оказать влияние на подобные расчеты?

В рамках общих исследований различных аспектов поисковых технологий мне пришлось на практике воплотить в жизнь вычисления значимости отдельных гипертекстовых страниц на коллекции в 400 млн. документов. Выработанное решение легко масштабируется на большие коллекции. Я не знаю, как на практике это делает Google, Яндекс и другие, уважаемые мной, поисковые системы. Возможно, что также. Вот об этом я бы и хотел рассказать.

По любым вопросам обращайтесь:
Программный комитет : Олег Бунин , +7 (916) 635-95-84
Организационный комитет : , +7 (495) 646-07-68 доб. 2
Бухгалтерия и вопросы оплаты : Анна Громовая , +7 (495) 646-07-68 доб. 1
Пресс-служба : , +7 (495) 646-07-68 доб. 6

Почтовый адрес: 125362, Москва, ул.Водников, дом 2, стр.2, офис 15 (четвертый этаж), ООО «Онтико»

Rambler's Top100
Рейтинг@Mail.ru