Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Курс уроков волшебства для обычного кота и другие проблемы текстовой классификации чеков BigData и машинное обучение

Доклад отозван
Артем Просветов
CleverDATA

Окончил МФТИ и аспирантуру МФТИ, кандидат физ.-мат. наук. Развивает свою экспертизу в области Data Science и Deep Machine Learning. Долгое время работал в Институте Космических Исследований, последняя позиция была ведущего математика. Имеет ряд научных публикаций по анализу временных рядов и наблюдательных данных, неоднократный призер научных конкурсов. Дополнительно проводит курс лекций на тему Big Data на площадках «Нетология» и OTUS, а также читает курс лекций по анализу данных в ВШЭ.
В CleverDATA занимается разработкой и настройкой рекомендательных систем, построением предсказательных моделей (отток, LTV, anti-fraud и т.д.), моделей Lookalike, а также работой с текстовыми данными (Natural Language Processing), в том числе для анализа блогосферы.

Анастасия Семенова
CleverDATA

Закончила Институт математики, механики и компьютерных наук им. Воровича ЮФУ с отличием по специальности «Математика» – материалы дипломной работы по теме «Критерий обратимости оператора свёртки с ядром радиального типа на группе Гейзенберга» представлены и опубликованы в тезисах международной конференции «Современные проблемы теории операторов и гармонического анализа и их приложения VI». Магистр математики НИУ ВШЭ (факультет математики). Участник летней школы «Современная математика». В CleverDATA занимается NLP (Natural Language Processing) анализом больших данных биржи данных, через которую проходит более 100 млн профилей в день.

Тезисы

Имеется задача многоклассовой классификации коротких текстов на примере чеков покупок в Интернет-магазине. Такую задачу возможно решить посредством построения большого количества бинарных классификаторов, каждый из которых предсказывает флаг наличия определенных интересов у покупателя. 

Для применения обучения с учителем необходимо использовать размеченную тренировочную выборку, которую получить для каждой конкретной темы проблематично. Мы нашли приемлемое по качеству решение, позволяющее получить размеченную тренировочную выборку для каждой из наших моделей. 

В нашем решении модели строятся автоматически, поэтому оказывается важным оценивать их качество используя не только стандартные метрики (в силу высокой разделимости классов метрики имеют большие значения). Для решения контроля качества была найдена новая метрика, позволяющая выявлять наиболее значимые различия между качественными и некачественными моделями классификации. Полученная мета-модель на основе ряда признаков принимает решение о применимости модели классификации.

Наше решение было разработано для условий высоких нагрузок и большого объема данных и на текущий момент активно используется CleverDATA для классификации ежедневного потока чеков от покупок в Интернет-магазинах.

Аналитика / другое
,
Machine Learning
Rambler's Top100