Как мы в Tinkoff Data Catalog создавали

Цифровая культура / CTO-трек

Доклад принят в программу конференции

Руководитель группы управления данными. Занимается внедрением Data Governance и Data Quality в Tinkoff.

Старший разработчик Data Detective. Занимается разработкой backend-решений для Data-платформы Tinkoff.

Тезисы

Видео

В чем главная задача аналитика? Думать головой и принимать решения. Правильные решения можно принять только при наличии нужных данных. А как найти данные в большой компании? В этом-то и проблема.

Хранилище данных в Tinkoff существует уже 14 лет и за это время мы накопили гигантский объем данных (2 петабайта данных, ± 120 000 таблиц, ± 30 000 отчетов и еще много чего). А теперь представьте себя на месте любого из 3000+ людей, которые ежедневно ищут в этом море данных нужную им информацию! Традиционно мы решали эту проблему с помощью ручного ведения документации в Confluence, но с ростом объема данных этот подход становился все менее и менее эффективным. Проблема встала ребром, мы поняли, что пришло время что-то менять, и решили внедрять у себя Data Catalog.

Первым делом мы попытались найти решение на рынке, но не нашли ничего подходящего именно нам. Поэтому решили вложиться и сделать свой продукт. В докладе мы подробно расскажем:
1) Как мы искали решения на рынке и почему решили сделать своё.
2) Какой продукт мы в итоге сделали и как применяем его в нашей Data Platform.
3) Про архитектуру продукта и как нам удалось вместить в него столь разношерстную информацию по всем нашим данным.
4) О проблемах, с которым мы столкнулись в процессе разработки, и о решениях, которые приняли.
5) Что мы планируем делать дальше?