Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

  • Главная
  • 2016
  • Узкотематические секции: видео, поиск, RTB, биллинги

Поиск совпадений и дедупликация в потоке
Узкотематические секции: видео, поиск, RTB, биллинги

Доклад принят в Программу конференции
Positive Technologies

TL;DR
Шаман в белой шляпе.

Тезисы

У вас есть миллиард файлов произвольного или неизвестного формата. Как выявить даже частичные совпадения, если одни файлы могут включать другие полностью или частями? Как делать это, имея доступ только к потоку байтов без начала и конца?

В докладе будет рассказ о разработанном подходе (алгоритме) для решения этой задачи. Принципиальное отличие от других методов в четких результатах с контролируемыми точностью и достоверностью, независимо от содержания и характера данных.

Можно уточнить, что речь пойдет о способе сегментирования произвольного потока данных для последующего шинглирования. При этом основной вопрос в том, как нарезать на вменяемые шинглы произвольную последовательность байтов без привязки к каким-либо абсолютным границам.

Архитектурные паттерны
,
Оптимизация производительности
,
Алгоритмы и их сравнение
,
Другое

Другие доклады секции
Узкотематические секции: видео, поиск, RTB, биллинги

Rambler's Top100