HighLoad++

Конференция разработчиков
высоконагруженных систем

Пресловутая компонента ранжирования Search Engines

Дмитрий Крюков (Группа Компаний Стек)

В битве титанов полнотекстовых поисковых технологий рождались и рождаются сейчас новые компоненты, оказывающие большее или меньшее влияние на результаты их поисковой деятельности. Основатели Google открыл еще одну страницу истории, объявив об использовании в ранжировании Google PageRank. Это было давно и существует масса публикаций на эту тему разного уровня популяризации. Все мы, в большей или меньшей степени, понимаем суть этой метрики.

Но мало кто из нас понимает, а каким же образом реально можно высчитать для каждой страницы набора документов мирового web-пространства степень ее значимости, в сравнении со всеми остальными? Какие существуют "честные" и "не очень честные" способы? Как архитектурное решение поисковой системы может оказать влияние на подобные расчеты?

В рамках общих исследований различных аспектов поисковых технологий мне пришлось на практике воплотить в жизнь вычисления значимости отдельных гипертекстовых страниц на коллекции в 400 млн. документов. Выработанное решение легко масштабируется на большие коллекции. Я не знаю, как на практике это делает Google, Яндекс и другие, уважаемые мной, поисковые системы. Возможно, что также. Вот об этом я бы и хотел рассказать.

По любым вопросам обращайтесь:
Олег Бунин (, +7 (916) 635-95-84 , +7 (495) 646-07-68 , icq: 55370856, skype: oleg.bunin, @olegbunin, oleg-bunin.livejournal.com)
Пресс-служба : Джин Колесников (, +7 (917) 596-05-09 )

Почтовый адрес для отправки документов: ООО «Онтико», 115114, Москва, Летниковская ул., 16, офис 402 +7 (495) 646-07-68

Rambler's Top100
Рейтинг@Mail.ru