HighLoad++: поиск быстрее Сфинкса, правильная система деплоя и детали индексации в СУБД
Пятая часть билетов на HighLoad++, расширенный в этом году HighLoad++, уже продана! Темпы впечатляют, скоро у нас закончатся билеты и по 15 тысяч рублей - не говорите потом, что мы не предупреждали :)
Пока Программа только формируется, немного о примерах докладов и собрании Программного комитета HL++. Компания Мамба, 250М хитов в сутки, вполне себе хайлоад, представит целую серию докладов:
- специализированный поиск примерно в 100 раз быстрее Сфинкса (привет, shodan@, парируй);
- персистентный производительный брокер очередей;
- правильная система деплоя (заметьте - не просто система деплоя, а правильная!);
- i18n на больших проектах;
- использование comet для реалтайм счетчиков под реально большой нагрузкой.
Другой пример, чтобы Вы представляли уровень того, что будет в этом году - доклад Александра Короткова "Индексный поиск по регулярным выражениям".
Существует два основных подхода к выполнению поиска по регулярным выражениям с помощью индекса: "FREE indexing engine", основанный на выделении из регулярного выражения непрерывных фрагментов текста, и метод разработанный для Google Code Search, осуществляющий рекурсивный анализ составных частей регулярного выражения, с целью выявления его атрибутов. В целом же оба этих подхода используют инвертированные индексы на основе k-грам (подстрок исходной строки длиной k) и различаются методом извлечения k-грам из исходного выражения для последующего сканирования.
Данный доклад представляет новый метод извлечений k-грам из регулярного выражения, основанный не на анализе исходного регулярного выражения, а на преобразовании соответствующего конечного автомата.
Предлагаемый подход позволяет осуществить более полное извлечение k-грам из регулярного выражения, что подтверждается примерами. Разработан патч к модулю pg_trgm СУБД PostgreSQL, реализующий данный подход.
Все из нас используют индексы в СУБД, но редко кто понимает, как они работают. Именно это понимание и отличает highload-разработчика от просто разработчика.
Или доклады от нашего постоянного докладчика Владимира Климонтовича:
- Внутрянка Apache HBase - как она работает внутри. Какие проблемы решает/не решает, с примерами использования (поиск, аналитика и т.д.);
- Google BigQuery & Dremel. BigQuery Google предлагает как SaaS. Это по сути такой большой SQL-сервер, который быстро выполняет аггрегационные запросы. Dremel - это движок BigQuery. Там внутри используются довольно интересные архитектурные и инженерные решения.
Вот о них и поговорим.
Интересно? Нам тоже, поэтому и работаем :)
Да, встреча активистов HighLoad++, традиционнно, прошла очень хорошо. Увидели старых друзей, принесли дары Сысоеву, попили кофе и поели плюшек. Заодно набросали для нас, для организаторов, более сотни рекомендаций о том, кого мы хотим послушать. И рыщут сейчас наши агенты в поиске разработчиков на языке Go и D, да уговаривают Google прислать к нам мега-звезду. Кстати, Google в этом году, как и в прошлом, будет спонсором нашей конференции. Еще кстати - Яндекс, наконец-то (круто! круто!) пришлет к нам в этом году несколько интересных докладчиков. О темах договариваемся.
Вот, собственно, и все!
Покупайте билеты - по 15 тысяч их осталось немного, потом будет дороже.
Удачи и до встречи на конференции!