Рейтинг@Mail.ru

Прогнозирование продаж интернет-магазина с помощью градиентного бустинга (lightGBM)BigData и машинное обучение

Доклад принят в программу конференции
Александр Алексейцев
OZON.RU

Ведет проект по разработке автоматизированной системы пополнения склада. В прошлом много занимался анализом данных и машинным обучением в самых разных областях знаний (от поиска утечек в нефтепроводах до автоматизации торговли на бирже). Физтех.

telegram: @AlekseyAlexander
mail: aalekseitsev@ozon.ru
Тезисы

Мы в OZON.ru разработали автоматическую систему пополнения склада.

Мозг системы - ML для прогнозирования продаж.
- Постановка задачи и выбор лосс-функции.
- Feature enginering - около 180 признаков. Расскажу, как сочиняли, а потом отбирали признаки. Как дать "понять" модели сложные сезонные особенности спроса на товары, выход на рынок конкурента, неожиданный хайп и такое же неожиданное забвение.
- Генерация дата-сета - известные и не очень баги Spark, сложные джойны, оконные функции и многое другое.
- Выбор модели - перепробовали все на свете (линейную регрессию все же обыграли).
- Подводные камни процесса обучения lightGBM - выбор гиперпараметров, регуляризация, балансировка выборки.
- Оценка результатов - как убедить весь мир (и себя заодно), что все работает хорошо.

Скелет системы - Spark/Hadoop/.
- Весь код написан на Spark (около 5к строк).
- Ежедневная доставка/валидация данных.
- Решения по повышению надежности системы (если упадем, OZON просто ничего не закупит).

Бизнес-реалии закупок товаров.
- Выбор поставщика.
- Страховые запасы.
- Борьба с уровнем сервиса поставщиков.

БОНУС: использование обученных lightGBM-моделей для оценки эластичности спроса на товары по цене планирования маркетинговых акций и эффекта от них. Разные виды функций зависимости спроса от цены для разных типов товаров и многое другое получили как "побочный" эффект от основной задачи.

Python
,
MSSQL
,
Отказоустойчивость
,
Алгоритмы и их сравнение
,
Работа с Amazon
,
Внедрение и поддержка
,
Теории и техники анализа
,
Hadoop
,
Machine Learning

Другие доклады секции BigData и машинное обучение

Rambler's Top100