Главная
→
BigData и машинное обучение

Поиск паттернов (Data Mining: Pattern Discovery)
BigData и машинное обучение

Доклад принят в Программу конференции

Qrator Labs

Выпускник МГТУ им. Баумана и Высшей Школы Экономики.
Инженер-разработчик в отделе исследований Qrator Labs.
@podshumok

Тезисы

Паттерн — это повторяющаяся структура в данных. Это может быть подмножество, подстрока, подпоследовательность, последовательность или множество подстрок, подграф, элемент изображения или видео-фрагмент.

Чаще всего находят все достаточно часто встречающиеся паттерны в датасете и сортируют их по частоте появления. Так, например, можно найти наиболее встречаемые юзкейсы в логах работы системы.
Но возможны и другие метрики и подходы, использующие, в общем-то, те же самые алгоритмы, но позволяющие находить аномальное поведение, "заблудившихся пользователей", распространённые ошибки ("антипаттерны").

Существует немало реализаций (в основном, FP-Growth и PrefixSpan) для разных типов данных, но, как правило, они не позволяют легко "залезть внутрь" алгоритма, что часто бывает необходимо: например, можно значительно сократить время работы и потребляемые ресурсы, избежать предобработки данных и т.д., если "рано", а не пост-фактум учесть дополнительные критерии, накладываемые на паттерны.

Всё это мы рассмотрим в докладе: какие бывают алгоритмы, на каких данных работают, какие ответы дают, как и зачем "залезать внутрь".

Алгоритмы и их сравнение