Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Распределенная тренировка моделей машинного обучения

BigData и машинное обучение

Python
ML

Доклад отклонён

Целевая аудитория

Data Scientists, MLOps

Тезисы

Обучение нейронных сетей требует большого количества ресурсов. Зачастую, обучение даже нейронных сетей среднего размера на небольшом объеме данных может занимать дни и недели, а результат эксперимента хотелось бы увидеть сразу.
В докладе я расскажу какие есть способы ускорить обучение нейронных сетей с помощью распределенного обучения (когда задействуется несколько GPU), что необходимо сделать чтобы обучение шло не только в пределах одного сервера, но и на нескольких нодах.
Мы рассмотрим организацию распределенное обучение на GPU с использованием PyTorch Lightning и ускорение обучения на CPU c помощью PyTorch и инструментов Intel® oneAPI

Алексей непосредственно участвовал в разработке DS-части платформ ML Space, проектировал систему запуска распределенных вычислений на суперкомпьютерах Christofari. Может рассказать про то, как нейронку на PyTorch / TensorFlow запустить на большом количестве железа. А также какие еще инструменты ML Ops могут быть полезны для работы больших команд Data Science.

Cloud

Cloud

Видео

Другие доклады секции

BigData и машинное обучение