Алексей Климов на HighLoad++ Foundation 2022

Распределенная тренировка моделей машинного обучения

BigData и машинное обучение

Python

Доклад отклонён

Целевая аудитория

Data Scientists, MLOps

Тезисы

Обучение нейронных сетей требует большого количества ресурсов. Зачастую, обучение даже нейронных сетей среднего размера на небольшом объеме данных может занимать дни и недели, а результат эксперимента хотелось бы увидеть сразу.
В докладе я расскажу какие есть способы ускорить обучение нейронных сетей с помощью распределенного обучения (когда задействуется несколько GPU), что необходимо сделать чтобы обучение шло не только в пределах одного сервера, но и на нескольких нодах.
Мы рассмотрим организацию распределенное обучение на GPU с использованием PyTorch Lightning и ускорение обучения на CPU c помощью PyTorch и инструментов Intel® oneAPI

Алексей Климов

Cloud

Алексей непосредственно участвовал в разработке DS-части платформ ML Space, проектировал систему запуска распределенных вычислений на суперкомпьютерах Christofari. Может рассказать про то, как нейронку на PyTorch / TensorFlow запустить на большом количестве железа. А также какие еще инструменты ML Ops могут быть полезны для работы больших команд Data Science.

Cloud