Как устроен поиск или Как написать свой простенький движок за вечерок

Доклад принят в Программу конференции
Андрей Аксенов (Авито, Sphinx)Андрей Аксенов

Общая структура поисковой системы: про сбор данных, про индексацию и лингвистическую обработку, про поиск, кратко про масштабирование, про релевантность. Ключевая структура данных (инвертированный файл), почему сжатие индекса — это важно, удивительное про современную науку в области информационного поиска и кучу мест для подвига. Без (!) привязки к Сфинксу, про состояние науки в целом.