- Главная
- →
- BigData и машинное обучение
От regexp к Word2Vec - работа с фидами товаров в e-Commerce BigData и машинное обучение
Участвовал в разнообразных типах проектов - от разработки низкоуровневых SDK до создания высоконагруженных web-порталов. В частности, руководил разработкой сервиса My Kaspersky. Основатель и разработчик в компании, работающей в области affiliate marketing.
В настоящее время Data Engineer в компании XING, где занимается системами рекомендаций, поиском и большими данными в команде Data Science. В прошлом основатель и разработчик в проектах Phrask и Boostmate. С последним выиграл Facebook's Global Hackaton 2012.
Тезисы
Простая, как нам поначалу казалось, задача автоматической категоризации товаров в фидах партнеров оказалась черной дырой, в которую уходила львиная доля усилий по развитию сервиса https://moebel.ladendirekt.de/. Сложность задачи заставила нас искать нетривиальные решения и в итоге привела к решению, основанному на алгоритмах машинного обучения.
В докладе мы коротко расскажем об архитектуре сервиса-агрегатора товаров и подробно разберем эволюцию подходов к категоризации товаров - от наивных попыток описать правила категоризации при помощи регулярных выражений до моделей машинного обучения, классифицирующих товары по их текстовым описаниям, построенным при помощи Apache Lucene и Word2Vec.