HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Near-realtime аналитика событий в высоконагруженном проекте
BigData и машинное обучение

Доклад принят в Программу конференции
Badoo

PHP developer.
Работает в отделе “платформенной” разработки Badoo. Занимается инфраструктурой фотографий, миграцией пользовательских данных, средствами deployment'а. Основной язык разработки - PHP, но с радостью использует так же Java и Python.

Видео

К сожалению, исходники видеозаписи этого доклада оказались битыми. Мы пытаемся исправить ситуацию, но пока видео не доступно.

Тезисы

Типовой задачей аналитики для любого проекта является получение ответов на вопросы: "сколько у нас регистраций за последний день?", "сколько сообщений было отправлено (товаров добавлено в корзину и пр.) в стране N, мужчинами/женщинами из приложения/сайта?". Поиском ответов на эти вопросы в компании обычно занимается отдел BI.

Инструментарием могут служить различные технологии: файлы Excel, старые-добрые РСУБД (MySQL, PosgtreSQL, MS SQL, Oracle etc.), специализированные аналитические базы данных (Vertica, Exasol, etc.), вычисления на Hadoop-кластере. Естественно, любое решение обладает своими достоинствами и недостатками - что-то ограничено по объему обрабатываемой информации, что-то - по скорости, что-то - по realtime.

Перед нами стояла задача сделать систему аналитики:
- Горизонтально масштабируемой - уже не хватает ресурсов SQL.
- Близкой к реальному времени - аналитические базы и Hadoop не дают нам желаемого эффекта.
- Легкой в конфигурировании - любой новый отчет требует минимума затрат от разработчика.

Мы можем рассказать о том, как мы построили систему, которая прямо сейчас обрабатывает 200к событий в секунду, строит 12М метрик и может еще расти и расти.

Под капотом: Apache Spark для near-realtime обработки событий, Hadoop - как фундамент для масштабирования.

Другие доклады секции
BigData и машинное обучение

Rambler's Top100