Сервис рекомендаций на виртуальном Hadoop кластере

Доклад принят в Программу конференции
Дмитрий Чеканов (Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.)Дмитрий Чеканов

Вначале был SQL сервис еженедельного построения рекомендаций. Сервис выполнял все действия за 5 часов, в 30% случаев вызывал переполнение tempdb и падение сервиса, давал большую нагрузку на хранилище, не позволяя обновлять OLAP кубы и отчеты.

Для разрешения этой ситуации было решено вынести расчет рекомендаций в отдельный сервис на базе виртуального hadoop кластера.

Что было сделано:

Что использовалось:

Итого:

Есть кластер, хорошо зарекомендовавший себя по надежности, на котором идет ежедневный расчет 4 сервисов рекомендаций за 2 часа с более сложной реализацией, чем на SQL сервер. 2 сервиса реализованы на языке PIG, 2 других — на Hive. Технической поддержки за 1 год эксплуатации потребовал только один раз, когда было сделано аварийное отключение namenode.