Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Как мы переводили ETL процессы в хранилище из ручных загрузок на коробочное решение от Informatica Power Center BigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Тезисы

Несколько лет назад в одном из крупных мобильных операторов переживали рост в части аналитики данных. В компании внедрялись BigData технологии и мы переводили ETL-процессы в хранилище DWH на коробочное решение от Informatica. Изначально у нас были классические ETL-процессы в хранилище DWH на Oracle c ночной загрузкой из источников с помощью настроенных db-link-ов и Oracle Loader.
Объем данных - 10-30 Гб/день. После этого мы начали внедрять большое хранилище с МРР архитектурой (Teradata) размером 150ТБ. А в качестве архитектурного решения для ETL-процессов купили инструмент репликации данных Golden Gate(GG) и Informatica Power Center( IPC ). И настраивали отказоустойчивую систему интеграции данных (High Availability)


В этом докладе хочу поделится:
- причинами внедрения Golde Gate и его преимущества
--специфика промежуточного(STAGE) слоя при загрузке в DWH
- преимущества и недостатки ручных и коробочных ETL решений (на примере Informatica Power Center)
- реальные кейсы ETL процессов загрузки "больших" объемов данных в хранилища. И примеры масштабирования загрузок на IPC.
- с какими сложностями столкнулись при переходе на GG и IPC
- технической архитектурой решения отказоустойчивой системы для IPC.
- архитектура движения потоков данных dataflow от источников к хранилищам
- сформированная методология разработки, отладки и деплоя на IPC и добавления новых источников в Golden Gate

Цель доклада:
--рассказать основные преимущества и недостатки разных ETL-решений и частично помочь зрителю с выбором инструмента интеграции данных.
--Дать представление зрителю с какими вопросами придется столкнутся при переходе на решение IPC
--Показать примеры реальных кейсов загрузки "больших" объемов
--Показать текущий процесс движения потоков данных в хранилище

Михаил Пудеян
Теле2

Аналитик данных. Более 8 лет занимался корпоративными хранилищами данных и ETL-процессами в одном из мобильных операторов большой четверки. Последние 2 года развиваю хранилище в одном из крупнейших микрофинансовых компаний в России.

mkrtich.pudeyan@yandex.ru

Другие доклады секции BigData и машинное обучение