Главная
→
BigData и машинное обучение

Инфраструктура для машинно-обученных алгоритмов на потоке данных в Avast!
BigData и машинное обучение

Доклад отклонён

Scrapinghub

Работал 5 лет в Яндексе, в отделе качества поиска. Занимался разработкой социального поиска, вопрос-ответного и улучшением сниппетов. Затем провел 2 года в антивирусе Avast!, построил автоматическое разрешение ложных срабатываний. Интересуется проблемами обработки данных в больших объемах и информационного поиска.

Тезисы

На примере классификатора ложных срабатываний в Avast! я расскажу, как мы построили процесс эксплуатации и инфраструктуру для машинно-обученного алгоритма с очень высокими требованиями к качеству. В ходе разработки мы столкнулись с постоянно изменяющимися данными из специализированных БД, долго шли к метрикам качества, а при внедрении мы осознали, что нам нужен механизм контроля за работой классификатора, процедура восстановления в случае большого количества неверных ответов, а также процедура переобучения алгоритма. Этот доклад, по сути, об организации процесса эксплуатации ML-алгоритма для очень ответственной задачи, которая десятки лет выполнялась вручную человеком.

Ложными срабатываниями в антивирусной терминологии называются срабатывания на чистых файлах, не являющихся зловредными. Когда пользователь видит красный поп-ап, запрещающий запуск файла антивирусом, ему предлагается сообщить о ложном срабатывании в лабораторию. С такими заявками будут разбираться вирусные аналитики.

Тема ложных срабатываний очень важна для производителей антивирусов. Любимая игра или браузер, который используется повседневно, после обновления может начать «ловиться» антивирусом. У популярных антивирусов от этого страдают миллионы пользователей. Если системный файл ОС будет заблокирован, то такое срабатывание может закончиться сервисом компьютера пользователя.

Моей задачей было построить и внедрить автоматический классификатор заявок, для того чтобы разгрузить вирусную лабораторию от ручного труда.

Архитектура данных, потоки данных, версионирование

Проектирование информационных систем

Machine Learning

Другие доклады секции
BigData и машинное обучение

Профессиональная конференция разработчиков высоконагруженных систем

Инфраструктура для машинно-обученных алгоритмов на потоке данных в Avast! BigData и машинное обучение

Тезисы

Другие доклады секции BigData и машинное обучение

Инфраструктура для машинно-обученных алгоритмов на потоке данных в Avast!
BigData и машинное обучение

Другие доклады секции
BigData и машинное обучение