Проксирование данных для Hadoop

BigData и машинное обучение

Доклад принят в программу конференции

Андрей Ильин

Сбербанк

Занимается разработкой продуктов на Java с 2005 года.

Тезисы

Видео

Доклад посвящен продуктам, разработанным в SberData, для прозрачного федеративного доступа пользователей к данным в экосистеме Apache Hadoop. Обсудим основные принципы работы компонентов Apache Hadoop: HDFS, Hive и Sentry/Ranger. Расскажем про особенности проксирования данных, метаданных и привилегий.

Затронем основные проблемы разработки и проектирования распределенных систем, на какие проблемы стоит обратить внимание, аспекты безопасности и нюансы использования Kerberos. Обсудим форматы хранения данных в HDFS, в частности, формат Apache Parquet.

Коснемся особенностей работы с open source библиотеками Apache Hadoop, их доработку и реализация функционала, который нигде не описан, и не понятно с чего начинать.

В финале обсудим нюансы эксплуатации ПО подобного класса: проведение нагрузочного тестирования, взаимодействие со смежными системами, мониторинг, настройка health check-ов, управление конфигурацией и развертыванием.


Другие доклады секции

BigData и машинное обучение