Как регулярно строить всё больше ML-пулов на MapReduce, а дежурить все меньше

BigData и машинное обучение

Доклад принят в программу конференции

Сore-разработчик Logos

Закончила ШАД, 8 лет в Яндексе, раньше занималась ML, теперь инфраструктурой

Сore-разработчик Logos

Закончил ШАД, 5 лет в Яндексе, занимаюсь ML и инфраструктурой

Тезисы

Видео

Изначально наши пулы строились набором python-скриптов, запускаемых по cron'у. Когда число таких скриптов перевалило за 100, ситуация вышла из-под контроля. Починка прода стала занимать всё рабочее время, а любая выкатка стала подвигом. Мы решили переписать систему, чтоб исправить это, и теперь поделимся опытом.

Мы расскажем:
* как организуем разработку новых MR-задач, чтобы не тратить много сил на ревью;
* как тестируем новые задачи, чтобы (почти) не бояться выкатывать их в production;
* как выстраиваем дежурство, чтобы не чинить пайплайны все рабочее время.

Другие доклады секции

BigData и машинное обучение