Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Потоковая обработка BigData для МТС

BigData и машинное обучение

BigData / ML

Фреймворки
Java
Scala
Big Data и Highload в Enterprise
Hadoop
Knowledge Ops

Доклад принят в программу конференции

Целевая аудитория

Разработчики и архитекторы потоковой обработки данных, BigData. Новички в потоковой обработке смогут почерпнуть для себя необходимый опыт создания подобного инструмента, а опытные коллеги посмотрят на задачи под "другим углом".

Тезисы

В докладе я расскажу, как мы в МТС собрали инструмент для потоковой обработки 10 миллионов событий в секунду, используя Scala(Java), Apache Spark Streaming и PostgreSQL. Почему выбрали Apache Spark Streaming, какие были проблемы на разных этапах разработки. Дам проверенные в бою рекомендации в части тюнинга Spark (concurrentJobs, speculation, memoryOverhead, memory, executors, cores и т.п.). Покажу, как мы подружили этот инструмент с Prometheus, Grafana, ELK, Kibana, и какие характеристики у железа, на котором это все работает.

Техлид и руководитель направления Java-разработки в центре BigData MTS Digital. Занимается разработкой на Scala, Java преимущественно в проектах BigData. Участвовал в разработке DataLake для нескольких крупных компаний. Доцент кафедры "Вычислительная математика и программирование" в ВУЗе. Один из авторов курса для Data Engineer в Яндекс Практикум.

МТС Digital

МТС Digital — это IT-компания внутри крупнейшего телеком-оператора. У нас более 5000 IT-специалистов, есть startup hub и 12 профессиональных гильдий. В МТС Digital разные направления: от обработки больших данных, искусственного интеллекта и облачных сервисов до телемедицины и киберспорта, потому что мы создаем экосистему цифровых сервисов. https://mts-digital.ru.

Видео

Другие доклады секции

BigData и машинное обучение