OCR или тотальный диктант от спамеров Нейронные сети, искусственный интеллект
Программист-исследователь команды компьютерного зрения Computer Vision Mail.ru.
Борьбу спамеров и разработчиков систем защиты от них можно приводить в качестве примера типичной гонки вооружений. Мы изобретаем все более эффективные способы блокировки вредоносных писем, а злоумышленники не устают придумывать все более изощренные способы для их обхода.
Одним из таких способов является рассылка писем с текстом в виде изображений: для получателя сообщение выглядит как обычный текст. Но если не распознать текст с картинки, то остальных признаков сообщения может не хватит для блокировки.
Для решения этой проблемы мы в Почте Mail.ru разработали систему OCR (optical character recognition), которая адаптирована к работе в суровых условиях войны. В докладе в числе прочего дам ответы на следующие вопросы:
* Какие ограничения накладывает необходимость работать на потоке в 100к писем в минуту, и как в них втиснуться?
* Как адаптироваться к злоумышленникам, если они адаптируются к тебе?
* Чем нам помог Гарри Поттер и методы рационального мышления?