Распределенная тренировка моделей машинного обучения
Доклад отклонён
Целевая аудитория
Тезисы
Обучение нейронных сетей требует большого количества ресурсов. Зачастую, обучение даже нейронных сетей среднего размера на небольшом объеме данных может занимать дни и недели, а результат эксперимента хотелось бы увидеть сразу.
В докладе я расскажу какие есть способы ускорить обучение нейронных сетей с помощью распределенного обучения (когда задействуется несколько GPU), что необходимо сделать чтобы обучение шло не только в пределах одного сервера, но и на нескольких нодах.
Мы рассмотрим организацию распределенное обучение на GPU с использованием PyTorch Lightning и ускорение обучения на CPU c помощью PyTorch и инструментов Intel® oneAPI
Алексей непосредственно участвовал в разработке DS-части платформ ML Space, проектировал систему запуска распределенных вычислений на суперкомпьютерах Christofari. Может рассказать про то, как нейронку на PyTorch / TensorFlow запустить на большом количестве железа. А также какие еще инструменты ML Ops могут быть полезны для работы больших команд Data Science.
Cloud
Видео
Другие доклады секции
BigData и машинное обучение