Конференция завершена. Ждем вас на Highload++ в следующий раз!
Москва, СКОЛКОВО
8 и 9 ноября 2018

Векторное представление текстов для задачи классификации и рекомендацийBigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Виталий Зайчук
СберТех

Более 15 лет работаю в ИТ. Прошел путь от разработчика до руководителя кросс функциональной команды. Создаю высокоэффективные команды разработки в условиях постоянных изменений. Занимаюсь построением бизнес процессов.

Smayluk@gmail.com
Тезисы

Обработкой естественного языка (NLP) - активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных. Неважно, кто вы — опытный Data Scientist, или начинающий Python разработчик — вы всегда можете использовать текстовые данные для того, чтобы усовершенствовать продукт над которым работаете и расширить его функциональность.

В докладе, на примере сайта кулинарных рецептов, будут описаны шаги преобразования и очистки данных. Исследованы методы классификации и определения сходства текстов на основе: Mean word2vec, Tf-idf weighted word2vec, Doc2vec, fastText, Word Mover's Distance. Сравнение качества итоговых моделей. Также поговорим про внедрения в проект решения задач классификации и рекомендаций.

Python
,
Machine Learning

Другие доклады секции BigData и машинное обучение

Rambler's Top100