Длительный рефакторинг в большом проекте: цели, команда и трюки на примере Data Lake Яндекс.Такси Цифровая культура / CTO-трек

Доклад принят в программу конференции
Федор Лаврентьев
Яндекс.Go

13 лет в IT, из них 10 — в ML и Big Data, из них 8 — на руководящих позициях. Работал в Яндекс.Маркете, Double Data, OneFactor. Возглавлял Front Tier Analytical Boutique.

Сейчас делает Платформу управления данными Яндекс.Go (Такси, Еда, Лавка и Драйв), ворочает петабайтами на огромных кластерах, добывает из данных золото.

Telegram: @fediq
Тезисы

Data Lake в Яндекс.Такси развивается с 2016 года. В то время как наши технологии совершенствуются, зреют фреймворки, растёт скорость и надуваются объёмы, у нас остаются многие сотни процессов, написанных на устаревших решениях, порой откровенно неудачных, и их поддержка иногда сильно отвлекает нас от движения вперёд. Мы запустили постоянный процесс рефакторинга старой кодовой базы. Я расскажу о принципах, которые позволяют балансировать между укрощением техдолга и продуктовым развитием.

Ключевые вопросы:
* Как объяснить себе и другим, зачем тратить силы на рефакторинг.
* Приоритизация рефакторинга — что делать сейчас, а что может гнить дальше.
* Конфигурация команды и её мотивация.
* Специфика рефакторинга Data Lake в сравнении с бэкендом.
* Архитектура кодовой базы и технические трюки, упрощающие рефакторинг.

Другие доклады секции Цифровая культура / CTO-трек