Как автоматически оптимизировать Spark-расчёты в высоконагруженном кластере BigData и машинное обучение

Программный комитет ещё не принял решения по этому докладу
Валерия Дымбицкая
oneFactor

Разрабатываю на Scala 7 лет, из них последние три года работаю с BigData и в частности Spark в компании oneFactor, где занимаюсь разработкой высоконагруженных сервисов и расчётов в кластере Hadoop.

Тезисы

Представьте: каждый день по расписанию запускаются сотни ресурсоемких расчётов. Эти расчёты формируются без участия разработчика с помощью гибкого конструктора, могут быть любой сложности, и число их постоянно растёт. В этих условиях разработчику бесполезно оптимизировать каждый отдельный расчёт: это чересчур трудозатратно. Как же при этом сохранить жизнеспособность кластера? Мы будем говорить о том, как гибко оценивать требуемые ресурсы, не прибегая к ручному тюнингу.

В своём докладе я расскажу:
– Как извлечь полезную информацию из логов Spark
– Как подбирать оптимальную память для расчёта на основе истории запусков
– Как полностью автоматизировать этот процесс

Другие доклады секции BigData и машинное обучение