Аналитика без серверов - первый год с Snowflake Базы данных и системы хранения
ManyChat - высоконагруженный калифорнийский стартап, обрабатывающий десятки миллиардов сообщений в месяц и живущий в облаках AWS.
Полтора года назад перед ManyChat встал вопрос построения аналитической платформы.
В этом докладе я хочу рассказать, как происходил выбор колоночной аналитической базы и BI системы, кто победил (Snowflake).
Также я хочу описать процесс построение аналитической платформы на Snowflake, как эта база смогла принять потоки данных, какие скорости показала, насколько сбылись годовые прогнозы из этапа выбора базы.
Snowflake - бессерверная база, с некоторыми фундаментальными отличиями от всех предшественников. Но знание этих отличий позволило ManyChat, не смотря на постоянный рост данных, внедрять оптимизации и регулярно снижать расходы на аналитические расчеты.
Chief Data Architect в ManyChat, отвечает за все pipeline и платформу данных для аналитики (хранилище, BI, ETL, интеграционные сервисы), все в AWS.
До этого — руководитель Data Platform в Avito. В область ответственности Data Platform входили системы больших данных (сотни Тб), OLTP-базы (PostgreSQL), NoSQL-базы (MongoDB, Redis, Tarantool, VoltDB), а также системы очередей и потоковой обработки данных (RabbitMQ, NSQ, Spark). Все про данные, их движение и обработку.
Помимо работы в ManyChat, Николай преподает в НИУ ВШЭ и занимается научными исследованиями в области современных методологий построения хранилищ данных, таких как Data Vault и Anchor Modeling, а также в области технологий BlockChain.