Денис Занков на HighLoad++ Foundation 2022

ML для ML в задачах качества данных

BigData и машинное обучение

BigData / ML

14 мая, 18:00, Зал «Трантор / Яндекс.Трек»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Big Data-аналитики и разработчики, data officer, data scientists, Data Driven-менеджмент.

Тезисы

Скачать презентацию Все презентации конференции

Работа с качеством данных актуальна не только для решающих задачи моделирования, но и в целом для тех, кто использует Data Driven-подход. Задача поиска новых решений в этом направлении стала особенно острой для Газпромбанка при работе с оттоком посредством ML-подходов, где был найден значительный бизнес-эффект. Такие модели характеризуют продуктовое поведение человека. Для их вывода в промышленную эксплуатацию необходимо поддерживать витрину с фичами по каждому клиенту. Это тысячи колонок с признаками миллионов клиентов по состоянию на каждый месяц за несколько лет.

Как поддерживать качество данных на приемлемом уровне при таком объеме и при вечном недостатке ресурсов? Ни один алгоритм поиска аномалий не справится с таким объемом данных, а отсматривать каждый признак на тысячах графиков проблематично и трудозатратно.

Основная идея в том, что нужно не рассматривать фичу поклиентно, а представить распределение переменной за каждый временной срез через описательные статистики. Из-за неоднородности этих описательных статистик и других причин мы выбрали ML-метод Isolation Forest в качестве core для самого алгоритма ранжирования аномальностей — в докладе мы поговорим о преимуществах и ограничениях данного метода в качестве core-алгоритма.

Обсудим также, почему Isolation Forest не работает просто на статистиках и зачем требуется дополнительная ранжирующая функция аномальности и алгоритм интерпретации результата.

В финальной части доклада я расскажу, как мы применяем данный алгоритм, о развитии фич нашего решения, об эффекте от его внедрения в прод и почему мы выбрали эту тему для доклада на HighLoad++.

Денис Занков

Газпромбанк

8 лет опыта в анализе данных и разработке. Из них более 5 лет в крупнейших банках России. Занимается разработкой ML-моделей в розничном бизнесе, проведением A/B-тестирования и оценкой бизнес-эффекта в Газпромбанке.

Газпромбанк

Газпромбанк — один из крупнейших банков России. Мы не просто банкиры: мы создаем искусственный интеллект, придумываем новые цифровые продукты и поддерживаем профессиональное комьюнити. Вместе мы станем самым дата-центричным и диджитализированным банком страны.