Рейтинг@Mail.ru
Highload++ 2017 завершён. Ждем вас на Highload++ 2018!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

BigПочта: как мы строили DataLake в Почте России
BigData и машинное обучение

Доклад принят в Программу конференции
Luxoft

Chief Architect, Luxoft.
Архитектор проекта DataCloud для Почты России, Product Owner, TeamLead
В проекте:
- отвечает за архитектуру, инфраструктуру, выбор технологических решений,
- управляет продуктом корпоративного хранилища (прием, очистка, анализ, построение модели, внешние интеграции, построение ср.слоя данных), RnD.

PhD, диссертация связана с оптимизацией обработки данных в распределенных системах.
Весь опыт, так или иначе, связан с вопросами решения задачи обработки данных в распределенных средах.
В BigData пришел в 2013 году, с тех пор все проекты связаны с BigData.
Участвовал в разработке Магистерской программы по BigData на ВМК МГУ, автор двух курсов.

Тезисы

Мы планируем поделиться с аудиторией примером SuccessStory создания BigData-инфраструктуры (Hadoop) в Почте России. Мы расскажем про выбранные решения, мотивацию их выбора, а также про то, куда развивается продукт в Почте.

Доклад будет интересен всем проектам и компаниям, где только задумываются о развитии BigData-технологий, а также всем, кому интересно узнать, как устроена "внутри" современная Почта.

Почта России - большая организация. К особенностям Почты можно отнести:
- географическое распределение отделений;
- большую сеть отделений (45 тыс.);
- большой объем обрабатываемых отправлений (в пике до 1 млрд. в год);
- большой поток событий, поступающих real-time (200 млн. событий в сутки);
- разнородность поступаемой информации;
- большие потребности бизнеса;
- большие потребности в данных среди других IT-систем организации.

Нашей команде удалось построить одно из самых больших BigData-решений в Enterprise-сегменте в стране.

В докладе планируется отразить следующие темы:
- задачи, решаемые в рамках проекта;
- архитектура решения;
- мотивации выбора тех или иных архитектурных решений;
- инфраструктура проекта.

1. задачи, решаемые в рамках проекта
В рамках проекта решаются (или планируются) следующие задачи:
- получение данных, сохранение данных, очистка, валидация, дедупликация;
- графовые задачи;
- real-time-обработка;
- аналитика и статистика;
- разнообразные задачи бизнеса (разнообразные КПИ + показатели выработки);
- интеллектуальный анализ;
- визуализация (BI);
- интеграция с внешними системами;
- балансировка нагрузки, отказоустойчивость.

2. архитектура решения:
В проекте используются следующие технологии: Hadoop (Hortonworks), Yarn, Spark, Hive, Tez, Oozie, Hue, Sqoop, Flume, Flink, Kafka, Spark Streaming, Cassandra, Vertica, Yandex ClickHouse, Docker, Pentaho, ES, Kibana, etc. Мы расскажем, как подружили весь этот зоопарк.

3. мотивации выбора тех или иных архитектурных решений:
Каждое выбранное решение было проверено и обосновано. Проведен этап RnD. Если возникают вопросы, какой дистрибутив выбрать, какую выбрать SQL-базу или NoSQL и.т.д., то в докладе мы расскажем о нашем выборе и наших решениях (см. архитектура решения).

4. инфраструктура проекта:
Суммарное число узлов в рамках BigData-инфраструктуры Почты России - 150-200 узлов 5000+ ядер, плюс планируется расширение. В докладе мы расскажем, какие типы узлов выбрали и почему, а также как совмещаем разнообразное ПО (см. архитектура решения) на одних и тех же узлах.

Фреймворки
,
Java
,
Scala
,
Базы данных / другое
,
Отказоустойчивость
,
Оптимизация производительности
,
Распределенные системы
,
Архитектура данных, потоки данных, версионирование
,
Архитектуры / другое
,
Логирование и мониторинг
,
Технологии виртуализации и контейнеризации
,
Аппаратное обеспечение
,
Devops / другое
,
Аналитика / другое
,
Big Data и Highload в Enterprise
,
Hadoop
,
Machine Learning
,
ETL

Другие доклады секции
BigData и машинное обучение

Rambler's Top100