Spark Structured Streaming и распределенный джойн в реальном времени BigData и машинное обучение
Spark Structured Streaming – фреймворк для распределенной обработки данных в режиме близком к реальному времени. Его внушительный функционал позволяет строить сложные realtime-pipeline поставки данных для аналитики и машинного обучения.
Как перевести пайплайн обработки логов с ежедневного ETL на полноценный realtime? Как при этом не потратить все свободные ресурсы кластера? Что делать, если микробатч обрабатывается за 4 часа? Все это разберем на примере интеграции реального контура стриминга логов в рекомендательной системе Rambler&Co, с описанием граблей, на которые мы наступили в процессе разработки и интеграции нового решения.
Я расскажу про свой опыт построения realtime контура обработки данных с использованием Spark Structured Streaming. Обсудим с какими подводными камнями можно столкнуться, если использовать его вместе с Kafka и Clickhouse, и как увеличить свои шансы получить надежную шину для передачи данных в реальном времени.
Разработчик платформы рекомендаций.
Специализируюсь на бэкенде, ETL задачах и поддержке инфраструктуры проекта.