Рейтинг@Mail.ru
Highload++ 2017 завершён. Ждем вас на Highload++ 2018! Подать заявку на доклад

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Поиск паттернов (Data Mining: Pattern Discovery)
BigData и машинное обучение

Доклад принят в Программу конференции
Qrator Labs

Выпускник МГТУ им. Баумана и Высшей Школы Экономики.
Инженер-разработчик в отделе исследований Qrator Labs.
@podshumok

Тезисы

Паттерн — это повторяющаяся структура в данных. Это может быть подмножество, подстрока, подпоследовательность, последовательность или множество подстрок, подграф, элемент изображения или видео-фрагмент.

Чаще всего находят все достаточно часто встречающиеся паттерны в датасете и сортируют их по частоте появления. Так, например, можно найти наиболее встречаемые юзкейсы в логах работы системы.
Но возможны и другие метрики и подходы, использующие, в общем-то, те же самые алгоритмы, но позволяющие находить аномальное поведение, "заблудившихся пользователей", распространённые ошибки ("антипаттерны").

Существует немало реализаций (в основном, FP-Growth и PrefixSpan) для разных типов данных, но, как правило, они не позволяют легко "залезть внутрь" алгоритма, что часто бывает необходимо: например, можно значительно сократить время работы и потребляемые ресурсы, избежать предобработки данных и т.д., если "рано", а не пост-фактум учесть дополнительные критерии, накладываемые на паттерны.

Всё это мы рассмотрим в докладе: какие бывают алгоритмы, на каких данных работают, какие ответы дают, как и зачем "залезать внутрь".

Алгоритмы и их сравнение

Другие доклады секции
BigData и машинное обучение

Rambler's Top100