Профессиональная конференция для разработчиков высоконагруженных систем
7 и 8 ноября 2019 Москва, Сколково

Клиентоориентированный Data Lake в игровой компании Базы данных и системы хранения

Доклад принят в программу конференции
Максим Пчелин
Mail.ru Group

Руководитель разработки BI-DWH в MY.GAMES – игровое направление Mail.ru Group. Руковожу созданием сервисов по работе с данными для бизнеса (портал отчетности) и для аналитиков (инструменты для DS)

Telegram: @PchelinM
Email: m.pchelin@corp.mail.ru
Дина Сафина
Mail.ru Group

Ведущий разработчик DWH в MY.GAMES – игровое направление Mail.ru Group. Один из основателей комьюнити по Airflow в России

Telegram: @aniiid
Email: d.safina@corp.mail.ru
Тезисы

Как быть, если вы строите хранилище и сервисы по работе с данными для крупнейшей в России интернет-компании? При этом надо удовлетворить потребности в статистике множества независимых проектов, у каждого из которых своя уникальная инфраструктура, процессы и потребности.

В докладе мы расскажем о нашем опыте создания единого аналитического Data Lake, обеспечивающего данными все проекты MY.GAMES – игрового направления Mail.ru Group.

Мы обсудим:
- Почему мы реализовали именно Data Lake, а не что-то попроще
- Почему мы выбрали Hadoop и как мы его готовим
- Как мы контролируем огромное количество потоков данных и зачем нам Airflow
- Почему Data Lake должен быть клиентоориентированным
- Проблемы, боли, несчастья и успехи реализации Data Lake
- Стоило ли оно всего этого и как облегчить жизнь команде разработки

Критерии выбора технологий для проекта
,
Проектирование информационных систем
,
Внедрение и поддержка
,
Hadoop
,
ETL

Другие доклады секции Базы данных и системы хранения