HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Слон желтого цвета и его друзья (эксплуатация Hadoop-стека в федеральном проекте)
Системное администрирование

Доклад принят в Программу конференции
aboveops.com

Однажды Александр шел домой и споткнулся о человека, это был DevOps-инженер. Они обнялись и стали работать вместе. С тех пор Александр многое понял о жизни. Работает консультантом. Умеет делать долго и дорого одновременно.

Тезисы

Налог на добавленную стоимость - важнейшее средство пополнения бюджета страны, а проверка корректности налоговых деклараций - важнейшая задача Федеральной Налоговой Службы. Естественно, в наше время эти задачи не выполняются вручную. На помощь приходит автоматизированная система, работающая на основе стека технологий Hadoop. При разработке и эксплуатации этой системы пришлось столкнуться с огромным количеством трудностей, были перепробованы самые разные варианты, от классических map-reduce задач на базе YARN до Impala, последних версий Spark и технологии долгоживущих исполнителей LLAP, которая пока существует только в версии для разработчиков.

В борьбе за производительность мы выработали и проверили десятки гипотез. Одной из особенностей проекта является отсутствие подключения вычислительных мощностей к сети Интернет, другая особенность - необходимость обслуживать как интерактивные запросы от пользователей на местах, так и аналитические запросы, продолжительность которых - не один час.

Отдельного рассказа заслуживает система сбора метрик кластера и взаимодействие приложений с ней.

Rambler's Top100