Распределенная тренировка моделей машинного обучения

BigData и машинное обучение

Доклад отклонён

Подключился к dial-up-интернету в первом классе в далеких 90-х и решил остаться.
Во время обучения в аспирантуре Высшей Школы Экономики активно использовал R (хотя Python и был моим первым языком программирования).
После университета поработал в нескольких стартапах и энтерпрайзе. Сейчас в SberCloud занимает позицию Lead DS и развивает там ML Space — платформу полного цикла для командной разработки моделей машинного обучения.
Активно участвует в хакатоновском движении.

Тезисы

Видео

Обучение нейронных сетей требует большого количества ресурсов. Зачастую, обучение даже нейронных сетей среднего размера на небольшом объеме данных может занимать дни и недели, а результат эксперимента хотелось бы увидеть сразу.
В докладе я расскажу какие есть способы ускорить обучение нейронных сетей с помощью распределенного обучения (когда задействуется несколько GPU), что необходимо сделать чтобы обучение шло не только в пределах одного сервера, но и на нескольких нодах.
Мы рассмотрим организацию распределенное обучение на GPU с использованием PyTorch Lightning и ускорение обучения на CPU c помощью PyTorch и инструментов Intel® oneAPI

Другие доклады секции

BigData и машинное обучение