- Главная
- →
- BigData и машинное обучение
Инфраструктура для машинно-обученных алгоритмов на потоке данных в Avast! BigData и машинное обучение
Работал 5 лет в Яндексе, в отделе качества поиска. Занимался разработкой социального поиска, вопрос-ответного и улучшением сниппетов. Затем провел 2 года в антивирусе Avast!, построил автоматическое разрешение ложных срабатываний. Интересуется проблемами обработки данных в больших объемах и информационного поиска.
Тезисы
На примере классификатора ложных срабатываний в Avast! я расскажу, как мы построили процесс эксплуатации и инфраструктуру для машинно-обученного алгоритма с очень высокими требованиями к качеству. В ходе разработки мы столкнулись с постоянно изменяющимися данными из специализированных БД, долго шли к метрикам качества, а при внедрении мы осознали, что нам нужен механизм контроля за работой классификатора, процедура восстановления в случае большого количества неверных ответов, а также процедура переобучения алгоритма. Этот доклад, по сути, об организации процесса эксплуатации ML-алгоритма для очень ответственной задачи, которая десятки лет выполнялась вручную человеком.
Ложными срабатываниями в антивирусной терминологии называются срабатывания на чистых файлах, не являющихся зловредными. Когда пользователь видит красный поп-ап, запрещающий запуск файла антивирусом, ему предлагается сообщить о ложном срабатывании в лабораторию. С такими заявками будут разбираться вирусные аналитики.
Тема ложных срабатываний очень важна для производителей антивирусов. Любимая игра или браузер, который используется повседневно, после обновления может начать «ловиться» антивирусом. У популярных антивирусов от этого страдают миллионы пользователей. Если системный файл ОС будет заблокирован, то такое срабатывание может закончиться сервисом компьютера пользователя.
Моей задачей было построить и внедрить автоматический классификатор заявок, для того чтобы разгрузить вирусную лабораторию от ручного труда.