Рейтинг@Mail.ru

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Инфраструктура для машинно-обученных алгоритмов на потоке данных в Avast!
BigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Scrapinghub

Работал 5 лет в Яндексе, в отделе качества поиска. Занимался разработкой социального поиска, вопрос-ответного и улучшением сниппетов. Затем провел 2 года в антивирусе Avast!, построил автоматическое разрешение ложных срабатываний. Интересуется проблемами обработки данных в больших объемах и информационного поиска.

Тезисы

На примере классификатора ложных срабатываний в Avast! я расскажу, как мы построили процесс эксплуатации и инфраструктуру для машинно-обученного алгоритма с очень высокими требованиями к качеству. В ходе разработки мы столкнулись с постоянно изменяющимися данными из специализированных БД, долго шли к метрикам качества, а при внедрении мы осознали, что нам нужен механизм контроля за работой классификатора, процедура восстановления в случае большого количества неверных ответов, а также процедура переобучения алгоритма. Этот доклад, по сути, об организации процесса эксплуатации ML-алгоритма для очень ответственной задачи, которая десятки лет выполнялась вручную человеком.

Ложными срабатываниями в антивирусной терминологии называются срабатывания на чистых файлах, не являющихся зловредными. Когда пользователь видит красный поп-ап, запрещающий запуск файла антивирусом, ему предлагается сообщить о ложном срабатывании в лабораторию. С такими заявками будут разбираться вирусные аналитики.

Тема ложных срабатываний очень важна для производителей антивирусов. Любимая игра или браузер, который используется повседневно, после обновления может начать «ловиться» антивирусом. У популярных антивирусов от этого страдают миллионы пользователей. Если системный файл ОС будет заблокирован, то такое срабатывание может закончиться сервисом компьютера пользователя.

Моей задачей было построить и внедрить автоматический классификатор заявок, для того чтобы разгрузить вирусную лабораторию от ручного труда.

Архитектура данных, потоки данных, версионирование
,
Проектирование информационных систем
,
Machine Learning

Другие доклады секции
BigData и машинное обучение

Rambler's Top100