HighLoad++

Конференция разработчиков
высоконагруженных систем

Извлечение структурированной информации из web-страниц

Виктор Плошихин, Сергей Протасов

Программный комитет еще не принял решения по этому докладу

Тезисы

Большинство сайтов содержит массив страниц, созданных лишь с помощью только одного шаблона. Поэтому при создании вертикального поиска приходится решать задачу выделения и обработки специализированной информации из структурированных страниц различных тематических сайтов.

  • Вертикальный поиск компании Рамблер.
  • Структура тематических сайтов, задача о выделении значимых данных на web-странице.
  • Обзор подходов извлечения структурированных данных. Алгоритмы построения шаблонов.
  • Реализованный подход: алгоритм принимает на вход массив web-страниц, вычисляет классы эквивалентности и автоматически строит регулярное выражение для автоматического извлечения значимых данных web-страницы.
  • Словари значимых данных.
  • Интеллектуальный маппинг областей значимых данных web-страницы.
  • Решение задачи перестройки регулярного выражения при изменении дизайна сайта.
  • Результаты.

О докладчике

Плошихин Виктор, отдел поиска и навигации, руководитель группы

Протасов Сергей, отдел поиска и навигации, ведущий программист

Контакты: v.ploshikhin@rambler-co.ru
По любым вопросам обращайтесь:
Программный комитет : Олег Бунин , +7 (916) 635-95-84
Организационный комитет : , +7 (495) 646-07-68 доб. 2
Бухгалтерия и вопросы оплаты : Анна Громовая , +7 (495) 646-07-68 доб. 1
Пресс-служба : , +7 (495) 646-07-68 доб. 6

Почтовый адрес: 125362, Москва, ул.Водников, дом 2, стр.2, офис 15 (четвертый этаж), ООО «Онтико»

Rambler's Top100
Рейтинг@Mail.ru