Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

От regexp к Word2Vec - работа с фидами товаров в e-Commerce
BigData и машинное обучение

Самоотвод
DABY Tech OÜ

Участвовал в разнообразных типах проектов - от разработки низкоуровневых SDK до создания высоконагруженных web-порталов. В частности, руководил разработкой сервиса My Kaspersky. Основатель и разработчик в компании, работающей в области affiliate marketing.

XING

В настоящее время Data Engineer в компании XING, где занимается системами рекомендаций, поиском и большими данными в команде Data Science. В прошлом основатель и разработчик в проектах Phrask и Boostmate. С последним выиграл Facebook's Global Hackaton 2012.

Тезисы

Простая, как нам поначалу казалось, задача автоматической категоризации товаров в фидах партнеров оказалась черной дырой, в которую уходила львиная доля усилий по развитию сервиса https://moebel.ladendirekt.de/. Сложность задачи заставила нас искать нетривиальные решения и в итоге привела к решению, основанному на алгоритмах машинного обучения.

В докладе мы коротко расскажем об архитектуре сервиса-агрегатора товаров и подробно разберем эволюцию подходов к категоризации товаров - от наивных попыток описать правила категоризации при помощи регулярных выражений до моделей машинного обучения, классифицирующих товары по их текстовым описаниям, построенным при помощи Apache Lucene и Word2Vec.

Архитектуры / другое
,
Machine Learning

Другие доклады секции
BigData и машинное обучение

Rambler's Top100