Рейтинг@Mail.ru

Концепция логического хранилища данныхБазы данных и системы хранения

Программный комитет ещё не принял решения по этому докладу
Николай Голов
Avito

Руководитель Data Platform в Avito. В область ответственности Data Platform входят системы больших данных (сотни Тб), OLTP-базы (PostgreSQL), NoSQL-базы (MongoDB, Redis, Tarantool, VoltDB), а также системы очередей и потоковой обработки данных (RabbitMQ, NSQ, Spark). Все про данные, их движение и обработку. Построил в Avito хранилище на HP Vertica и продолжает его развивать, сейчас там более 100 Тб данных. До этого строил хранилища в ВТБ Факторинг, Ланит, НСС (на Терадате) и участвовал в ряде более мелких проектов.
Помимо работы в Avito, Николай преподает в НИУ ВШЭ и занимается научными исследованиями в области современных методологий построения хранилищ данных, таких как Data Vault и Anchor Modeling, а также в области технологий BlockChain.

Тезисы

Давайте посмотрим на данные как на актив, на ценность, а не как на бегущие по трубам отходы производства, последствия работы сервисов высоконагруженного приложения.

Речь в докладе пойдет о том, что к системе больших данных предьявляются достаточно жесткие, часто конкурирующие требования. Удовлетворить их все на существующем техническом уровне сложно, и получается монолит - медленно развивающийся, сложный в поддержке. Логическое хранилище данных предполагает три части - поддерживающее SQL основное хранилище (ядро монолита) + допускающие микросервисный подход озера данных (на document store базах) и Agile ODS (быстро разрабатываемые и работающие витрины на in-memory/виртуализируемых базах). В таком виде это будет быстро развиваться и покрывать самые разнообразные хотелки продуктовых команд, что бы они ни захотели - 50ms-отставание, real time-аналитику по живым данным, сложные Machine Learning-алгоритмы, огромные объемы и/или недопустимость потери ни единой копейки. Даже, если эти хотелки противоречат друг другу.

MongoDB
,
Базы данных / другое
,
Аналитика / другое
,
Big Data и Highload в Enterprise
,
ETL

Другие доклады секции Базы данных и системы хранения

Rambler's Top100