Возможности Spark Streaming для аналитики данных в потоковом режиме BigData и машинное обучение

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

Современный подход к обработке и аналитике данных требует максимально быстрой реакции. Для этого необходима минимальная задержка в данных. Во многих направлениях потоковая (стриминговая) аналитика данных дает конкурентные преимущества и открывает новые просторы для реализации дополнительного функционала.

Потоковая обработка данных сильно отличается от пакетной обработки по параметрам доступной функциональности, консистентности, стабильности и сложности сопровождения. Поэтому особо остро стоит вопрос выбора платформы и инструментов для реализации подобных приложений.

В докладе мы рассмотрим фреймворк Spark Streaming как инструмент для реализации стриминговых приложений, разберем доступную функциональность фреймворка, а также методы его оптимизации, плюсы и минусы, подходящие и неподходящие бизнес-задачи. Доклад основан на личном опыте использования Spark Streaming в приложениях, построенных на базе Hadoop или Kubernetes.

Артем Гогин

GridDynamics

Артем занимается крупными международными big data-проектами в компании GridDynamics. Также Артем является преподавателем и автором курсов по большим данным в онлайн-школе GeekBrains. Ранее работал руководителем направления в Сбербанке, занимался большими данными и реализовывал проекты в хранилище данных Сбербанка. До Сбербанка работал в МегаФоне, где тоже занимался построением и развитием хранилища данных.

Другие доклады секции BigData и машинное обучение

Дмитрий Кондрашкин

Яндекс

Хранилище фич или какая-то дичь?

Леонид Блохин

Provectus

Даниил Бурлаков

Яндекс

ETL-сервисы и таски для Такси, Еды и Лавки. Как мы разрабатываем платформу управления данными

Владимир Верстов

Яндекс. Такси

ML в промышленности: задачи и проблемы

Андрей Зубков

ЕВРАЗ