Конференция завершена. Ждем вас на HighLoad++ в следующий раз!
Park Inn Пулковская, пл. Победы, 1,
Санкт-Петербург, 8 и 9 апреля 2019
* Мы откроем публичный доступ к видеозаписям через ~6 месяцев после конференции

Antispam ML: как и зачем автоматизировать обучение моделейBigData и машинное обучение

Доклад принят в программу конференции
Дмитрий Меркушов
Mail.ru Group

Тимлид в команде машинного обучения антиспама Почты Mail.ru.

d.merkushov@corp.mail.ru
@dmerkushov в телеграме
Тезисы

Внедрение и эксплуатация машинного обучения в антиспаме имеет свои особенности в сравнении с другими доменами. Это связано с непрекращающейся адаптацией спамеров под системы защиты, которая происходит днем, ночью, на выходных и когда вы в отпуске без Интернета. Постоянная гонка вооружений между силами добра и зла порождает много вызовов:
* Как добиться эффективности ML в течение продолжительного времени? А не только первые 30 минут (true story!)
* Как убедиться, что качественные метрики на выборках подтвердятся в проде?
* Как гарантировать, что ночью/на выходных/под Новый Год модель не сойдет с ума после очередного обучения?
* и многие другие...

Эти вопросы становятся все более актуальными и в других бизнесах: adversarial атаки уже характерны для систем face recognition, банковского скоринга, поиска, social медиа. И на горизонте - атаки с использованием машинного обучения. Одно из решений всех этих вызовов лежит в ускорении цикла дообучения всевозможных моделей на новые паттерны, а также в формировании быстрого и эффективного пайплайна их выкатки в продакшн. Все это требует как кастомизации обучения самих моделей, так и построения качественной ML-инфраструктуры.

Как мы прошли этот путь в Почте Mail.ru, я расскажу в рамках своего доклада.

Другие доклады секции BigData и машинное обучение

Rambler's Top100