HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Слон желтого цвета и его друзья (эксплуатация Hadoop-стека в федеральном проекте)
Системное администрирование

Доклад принят в Программу конференции
vdsina.ru

Начал свой творческий путь еще в прошлом веке с разработки на языках VHDL и C++, долгое время разрабатывал различные приложения на C, C++, Java, PHP, Objective C, procedural SQL, C# и Perl, заработал стойкую ассоциацию с понятием "DevOps", после чего сосредоточился на написании кода. Интересуется большими и сложными проектами.

Тезисы

Налог на добавленную стоимость - важнейшее средство пополнения бюджета страны, а проверка корректности налоговых деклараций - важнейшая задача Федеральной Налоговой Службы. Естественно, в наше время эти задачи не выполняются вручную. На помощь приходит автоматизированная система, работающая на основе стека технологий Hadoop. При разработке и эксплуатации этой системы пришлось столкнуться с огромным количеством трудностей, были перепробованы самые разные варианты, от классических map-reduce задач на базе YARN до Impala, последних версий Spark и технологии долгоживущих исполнителей LLAP, которая пока существует только в версии для разработчиков.

В борьбе за производительность мы выработали и проверили десятки гипотез. Одной из особенностей проекта является отсутствие подключения вычислительных мощностей к сети Интернет, другая особенность - необходимость обслуживать как интерактивные запросы от пользователей на местах, так и аналитические запросы, продолжительность которых - не один час.

Отдельного рассказа заслуживает система сбора метрик кластера и взаимодействие приложений с ней.

Rambler's Top100