Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Как решить проблемы оркестрации сотен задач по обработке данных с помощью Apache Airflow? BigData и машинное обучение

Доклад принят в программу конференции
Владимир Баев
Grid Dynamics

Senior Big Data Developer в Grid Dynamics. Занимается Data Engineering'ом в контексте построения Machine Learning-платформы, опыт в Big Data и Data Science более 5 лет.

vbaev@griddynamics.com
Тезисы

Apache Airflow широко используется для оркестрации ETL data-пайплайнов.
Давайте более детально взглянем на Airflow с точки зрения разработки и эксплуатации: какие особенности помогут избежать проблем, а какие могут потенциально привести к отказу работы распределенных систем.

Кроме того, обсудим:
- Какие есть альтернативы и почему именно Airflow?
- Как выглядит типичный Airflow pipeline и какую функциональность предоставляет?
- С какими трудностями предстоит столкнуться при разработке?
- Можно ли иметь гибкую оркестрацию as a code, с тестами, CI/CD и документацией?
- Способы мониторинга и восстановления после отказов.
- Как можно упростить процесс поддержки кода?
- Интеграция с облачными сервисами и внешними системами: стоит ли пробовать?

Другие доклады секции BigData и машинное обучение