Архитектура высокопроизводительных распределенных SQL-движков Базы данных и системы хранения

Доклад принят в программу конференции
Владимир Озеров
Querify Labs

Владимир руководит компанией Querify Labs, которая помогает технологическим компаниям создавать высокопроизводитеьлные СУБД и data management продукты. До этого Владимир занимался разработкой распределенных SQL-движков для open-source-продуктов Hazelcast и Apache Ignite.

https://twitter.com/devozerov
https://linkedin.com/in/devozerov
Тезисы

Распределенные SQL-движки должны эффективно обрабатывать данные, расположенные на нескольких серверах. В докладе на примере Apache Flink и Presto я расскажу, как устроены распределенные SQL-движки, и какие подходы они используют для увеличения производительности запросов.

Доклад будет полезен как системным инженерам, создающим собственные распределенные движки, так и практикующим инженерам, которые стремятся более эффективно использовать возможности существующих движков.

В докладе будут рассмотрены следующие вопросы:
- Архитектура распределенных реляционных операторов: aggregate, sort, join.
- Партиционирование данных в кластере для минимизации передачи данных между узлами.
- Использование cost-based-оптимизаторов для поиска оптимальных планов исполнения.
- Разбиение сложных планов на независимые фрагменты и организация передачи данных между ними.
- Продвинутые техники оптимизации: компиляция, векторизация, pruning.

Другие доклады секции Базы данных и системы хранения