Конференция завершена. Ждем вас на Saint HighLoad++ в следующий раз!

«Get Real»: как я в финтехе машинное обучение растил Менеджмент крупных проектов

Доклад принят в программу конференции
Иван Комаров
ЦФТ

Работает руководителем "Машинного отделения" в ЦФТ с 2016 года. До этого работал в московском "ЕС-лизинге". Любит машинное обучение, но больше — как оно помогает бизнесу. Учился долго эмпирической микроэкономике, есть PhD от Мэрилендского университета.

вК, Tg
Тезисы

Что можно сказать про 5 лет работы в дата-сайенс на одном месте? Там, где подразделение выросло с 1 до 65 и продолжает расти?

Самое главное — разработка. Все очень просто: без нее дата-сайенс — это инсайты, которые в чем-то помогают, но если инсайты не превращать в работающий код, желательно — автоматически работающий, то их ценность ограничена.

Итак, как устроена разработка дата-сайенс? Она отделена от дата-сайентистов. Она встраивает решение в существующий монолит или в сеть микросервисов. Она мониторит, трейсит и даже выносит (noops). Она придумывает протокол общения с дата-сайентистами («ядро» и требования к нему). Она выносит «как можно быстрее».

Что еще нужно разработке? Инфраструктура. Это система, работающая в реальном времени, которая имеет всю нужную информацию для принятия решений (т.н. «профиль»). Это хранилище всего без структуры (Хадуп).

А как же дата-сайентисты? Мы попробовали все, что может быть интересно, и многое не зашло: отток, рекомендашки, супер-точные А/Б-тесты, клавиатурный почерк… Но что-то оказалось критически важным: EDA для проекта «Займы» — т.е. быстрые ответы на вопросы с учетом всех источников данных, CV — чтение доков и распознавание лиц, NLP — речевая аналитика и чат-бот.

Это рассказ о нашем пути, о месте машинного обучения в большой финтех-компании.

Другие доклады секции Менеджмент крупных проектов