Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Spark Structured Streaming и распределенный джойн в реальном времени BigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Тезисы

Spark Structured Streaming – фреймворк для распределенной обработки данных в режиме близком к реальному времени. Его внушительный функционал позволяет строить сложные realtime-pipeline поставки данных для аналитики и машинного обучения.

Как перевести пайплайн обработки логов с ежедневного ETL на полноценный realtime? Как при этом не потратить все свободные ресурсы кластера? Что делать, если микробатч обрабатывается за 4 часа? Все это разберем на примере интеграции реального контура стриминга логов в рекомендательной системе Rambler&Co, с описанием граблей, на которые мы наступили в процессе разработки и интеграции нового решения.

Я расскажу про свой опыт построения realtime контура обработки данных с использованием Spark Structured Streaming. Обсудим с какими подводными камнями можно столкнуться, если использовать его вместе с Kafka и Clickhouse, и как увеличить свои шансы получить надежную шину для передачи данных в реальном времени.

Павел Ашихмин
Rambler&Co

Разработчик платформы рекомендаций.
Специализируюсь на бэкенде, ETL задачах и поддержке инфраструктуры проекта.

@nosp27

Другие доклады секции BigData и машинное обучение