Вычисления в памяти для Hadoop: используем Spark
Базы данных, системы хранения

Программный комитет ещё не принял решения по этому докладу

Retail Rocket

Сооснователь и директор по аналитике сервиса Retail Rocket. В Retail Rocket отвечает за алгоритмы вычисления рекомендаций, аналитику и обработку данных на кластере Hadoop/Spark. Ранее Роман работал в интернет-проектах Ostrovok.ru, Ozon.ru и Wikimart.ru, где успешно запустил аналитику с нуля, включая найм команды и построение IT-инфраструктуры. Реализовывал запуск проектов по товарным рекомендациям. Роман ведет блог по аналитике KPIs.ru. Окончил Московский Физико-Технический Институт (МФТИ).

Тезисы

Как обрабатывать большой объем данных быстро с наименьшими затратами?
Мы смогли этого добиться в компании RetailRocket. Обработка данных это наш бизнес! У нас много данных: более 100 Тб, в сутки нам поступает более 100 млн событий для обработки.
До недавнего времени у нас все работало на кластере на базе Hadoop относительно устаревшего дистрибутива Cloudera CDH 4.5, программный код был написан на Pig, Hive, Python и Java. Это порождало ряд проблем с архитектурой, производительностью. Тестирование превращалось в настоящую головную боль.

В конце лета RetailRocket перешел на Yarn на базе CDH 5.1.2. Это открыло путь к более совершенным технологиям семейства Spark. Сейчас мы находимся в фазе полного перехода на Spark на функциональном языке Scala. Это позволило нам избавится от зоопарка технологий, упростив архитектуру решений и автоматизировав тестирование. Первые результаты результаты не заставили себя ждать - получен прирост производительности на том же железе в 3-5 раз. А это значит, что мы будем меньше инвестировать в расширение парка серверов кластера.

В докладе будет рассказано о проблемах, с которыми мы столкнулись и как мы их решили. Будут примеры исходного кода для оптимизации производительности и повышения удобства работы, который мы закоммитили в наш публичный GitHub!