HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Потоковые алгоритмы в задачах обработки больших данных
BigData и машинное обучение

Доклад принят в Программу конференции
Segmento

Разработчик-аналитик в Segmento. Интересы и сфера профессиональной деятельности - анализ данных, машинное обучение.

Тезисы

Для того чтобы таргетировать рекламу по поведению интернет-пользователей, DMP ежедневно оценивает терабайты данных. В докладе расскажу, как при помощи алгоритмов потоковой обработки данных можно быстро оценить большой объем статистики и формы распределения различных характеристик.

- Что будем оценивать?
Будем оценивать функции распределения различных случайных величин. На практике это может понадобиться, например, как инструмент первичного анализа трафика или как данные, необходимые для принятия решений в RTB.
- Распределения параметров пользователей и их поведения.
- Метод Манро-Патерсона, метод Канна-Гринвальда.
В этой части я расскажу о методе Манро-Патерсона - алгоритме оценки медианы, и о методе Канна-Гринвальда, который позволяет оценить функцию распределения.
- Мотивирующий пример.
Расскажу о том, как применяю описанные методы на наших данных для составления портрета целевой аудитории наших клиентов.

Другие доклады секции
BigData и машинное обучение

Rambler's Top100