Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Как автоматически оптимизировать Spark-расчёты в высоконагруженном кластере

BigData и машинное обучение

Оптимизация производительности
Hadoop
ETL

Доклад отклонён

Целевая аудитория

Разработчики под Spark, работающие с высоконагруженными кластерами Hadoop

Тезисы

Представьте: каждый день по расписанию запускаются сотни ресурсоемких расчётов. Эти расчёты формируются без участия разработчика с помощью гибкого конструктора, могут быть любой сложности, и число их постоянно растёт. В этих условиях разработчику бесполезно оптимизировать каждый отдельный расчёт: это чересчур трудозатратно. Как же при этом сохранить жизнеспособность кластера? Мы будем говорить о том, как гибко оценивать требуемые ресурсы, не прибегая к ручному тюнингу.

В своём докладе я расскажу:
– Как извлечь полезную информацию из логов Spark
– Как подбирать оптимальную память для расчёта на основе истории запусков
– Как полностью автоматизировать этот процесс

Разрабатываю на Scala 7 лет, из них последние три года работаю с BigData и в частности Spark в компании oneFactor, где занимаюсь разработкой высоконагруженных сервисов и расчётов в кластере Hadoop.

oneFactor

oneFactor — единственный на рынке РФ разработчик специализированной платформы безопасной монетизации данных для владельцев традиционных розничных бизнесов (телекомов, банков, ритейлеров, платежных систем и т.д.), которая позволяет быстро запускать AI сервисы для автоматизации бизнес-процессов в различных секторах экономики. Платформа oneFactor работает на основе данных о нагрузке на сети мобильных операторов, а также других источников – данных интернет-компаний, Wi-Fi провайдеров, ритейлеров, банков, что позволяет достичь максимального качества рекомендательных сервисов.

Видео

Другие доклады секции

BigData и машинное обучение