Увлекательное в повседневном: как оптимизировать справочные формализмы с помощью машинного обучения и NLP? BigData и машинное обучение

Доклад принят в программу конференции
Артем Просветов
CleverDATA

Окончил МФТИ и аспирантуру МФТИ, кандидат физ.-мат. наук. Развивает свою экспертизу в области Data Science и Deep Machine Learning. Долгое время работал в Институте Космических Исследований, последняя позиция была ведущего математика. Имеет ряд научных публикаций по анализу временных рядов и наблюдательных данных, неоднократный призер научных конкурсов. Дополнительно проводит курс лекций на тему Big Data на площадках «Нетология» и OTUS, а также читает курс лекций по анализу данных в ВШЭ.
В CleverDATA занимается разработкой и настройкой рекомендательных систем, построением предсказательных моделей (отток, LTV, anti-fraud и т.д.), моделей Lookalike, а также работой с текстовыми данными (Natural Language Processing), в том числе для анализа блогосферы.

Анастасия Семенова
CleverDATA

Закончила Институт математики, механики и компьютерных наук им. Воровича ЮФУ с отличием по специальности «Математика» – материалы дипломной работы по теме «Критерий обратимости оператора свёртки с ядром радиального типа на группе Гейзенберга» представлены и опубликованы в тезисах международной конференции «Современные проблемы теории операторов и гармонического анализа и их приложения VI». Магистр математики НИУ ВШЭ (факультет математики). Участник летней школы «Современная математика». В CleverDATA занимается NLP (Natural Language Processing) анализом больших данных биржи данных, через которую проходит более 100 млн профилей в день.

Тезисы

За последнее время в нашей компании появились несколько задач, связанных с таксономией и формализмами. Такие задачи могут показаться обыденными и повседневными, однако благодаря методам машинного обучения их удалось решить интересными и нетривиальными способами, сократив ручной труд.

Одной из задач была многоклассовая классификация коротких текстов чеков покупок в Интернет-магазине. Для применения обучения с учителем необходимо использовать размеченную тренировочную выборку, которую получить для каждой конкретной темы проблематично. Мы нашли приемлемое по качеству решение, позволяющее получить размеченную тренировочную выборку для каждой из наших моделей. В нашем решении модели строятся автоматически, поэтому оказывается важным оценивать их качество, используя не только стандартные метрики. Для решения контроля качества был найден новый подход, позволяющий выявлять наиболее значимые различия между качественными и некачественными моделями классификации.

Другой задачей является сопоставление таксономий, то есть поиск пар фраз, одинаковых по смыслу, однако, возможно, написанных по-разному. Снова для минимизации ручного труда мы решили найти способ применить для нашей задачи машинное обучение. Тексты, которые было необходимо сопоставлять, имеют определенную особенность, поэтому языковые модели, обученные на стандартных корпусах, не решают нашей задачи. Снова основной трудностью было отсутствие разметки.

Третья задача была связана с анализом корпуса текстовых описаний изделий, поиском наиболее важных параметров изделий и перевод текстов описаний в набор интерпретируемых параметров изделий, по которому возможно осуществлять поиск. Здесь мы снова встретили отсутствие разметки и для преодоления этого препятствия мы научились генерировать синтетическую тренировочную выборку, максимально близкую к оригинальной. Для решения этой задачи использовались нейронные сети с элементами сверточных и рекуррентных слоев в архитектуре.

Наши решения были разработаны для условий высоких нагрузок и большого объема данных и на текущий момент активно используются CleverDATA в ежедневной классификации потока информации.

Другие доклады секции BigData и машинное обучение