Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Process Mining и большие данные. О чем вам не говорят создатели сервисов и библиотек

BigData и машинное обучение

Базы данных / другое
Проектирование информационных систем
Внедрение и поддержка
Теории и техники анализа
Machine Learning
Метрики
Лайфхаки
Методологии

Доклад отклонён

Целевая аудитория

Дата инженеры , ML инженеры , Проектировщики хранилищ сбора данных, Дата аналитики ,

Тезисы

Process mining набирает обороты и специалисты по работе с данными хотят помогать бизнесу находить инсайты из хаотичных действий пользователей.
Инженерно мы хотим собирать так много действий, как это возможно - и это порождает проблемы:
1. множественные вложенные циклы поведения
2. большой объем действий без целевых эффектов
3. обилие нод и ребер в процессах

Ежедневно мы получаем только в одном процессе оплаты пользователей данные от 5 миллионов уникальных пользователей, которые генерируют в среднем более 20 миллионов действий ежедневно. При этом это лишь около 5% всей активности пользователей в геймдеве фритуплей ежедневно.

Без правильного препроцессинга для pm решениям, которые мы исследовали было очень тяжело (от опенсорс библиотек и приложений до платных сервисов).

Расскажу, как мы изучили текущие решения на рынке, сравнили их и, естественно как иначе, построили фреймворк препроцессинга данных и натравливания алгоритма процесс майнинга именно на фокусные задачи и сделали бизнесу хорошо. С примерами ^_^

Директор по машинному обучению и анализу данных Ozon.
Преподаватель курсов по Машинному обучению в ВШЭ
координатор курсов mba , emba в сколково
Автор курсов Яндекс Практикум аналитик данных, инженер данных
Более 5 лет опыта работы в банковском секторе. Тратит все свободное время на всё то, что связано с анализом данных, от классических статистических моделей и мат. моделирования до создания аналитических приложений, BI-отчетности и алгоритмов машинного обучения.

Ozon

Ozon — международный e-comm маркетплейс и it платформа для оказания разных услуг

Видео

Другие доклады секции

BigData и машинное обучение