Вычисления в памяти для Hadoop: используем Spark Базы данных, системы хранения
Тезисы
Как обрабатывать большой объем данных быстро с наименьшими затратами?
Мы смогли этого добиться в компании RetailRocket. Обработка данных это наш бизнес! У нас много данных: более 100 Тб, в сутки нам поступает более 100 млн событий для обработки.
До недавнего времени у нас все работало на кластере на базе Hadoop относительно устаревшего дистрибутива Cloudera CDH 4.5, программный код был написан на Pig, Hive, Python и Java. Это порождало ряд проблем с архитектурой, производительностью. Тестирование превращалось в настоящую головную боль.
В конце лета RetailRocket перешел на Yarn на базе CDH 5.1.2. Это открыло путь к более совершенным технологиям семейства Spark. Сейчас мы находимся в фазе полного перехода на Spark на функциональном языке Scala. Это позволило нам избавится от зоопарка технологий, упростив архитектуру решений и автоматизировав тестирование. Первые результаты результаты не заставили себя ждать - получен прирост производительности на том же железе в 3-5 раз. А это значит, что мы будем меньше инвестировать в расширение парка серверов кластера.
В докладе будет рассказано о проблемах, с которыми мы столкнулись и как мы их решили. Будут примеры исходного кода для оптимизации производительности и повышения удобства работы, который мы закоммитили в наш публичный GitHub!