Построение HPC/GPU-кластеров для машинного обучения

Нейронные сети, искусственный интеллект

Доклад принят в программу конференции

Специалист по Ядру Линукс, основная область интересов: FS,RDMA, Infiniband.

Тезисы

Видео

Яндекс в 2021 году запустил три HPC/GPU-кластера для машинного обучения, которые стали самыми мощными суперкомпьютерами в России. Мой рассказ будет о том, с какими сложностями и неожиданностями мы столкнулись на этом пути.

Из этого доклада вы узнаете:
* о революции трансформеров;
* о том, что такое современный HPC/GPU-кластер, зачем коммерческим компаниям понадобились суперкомпьютеры;
* на каком стеке технологий они строятся и почему;
* почему HPC — это сложно, а традиционные подходы часто не работают;
* как вообще устроен процесс попадания в топ-500, и как, оптимизируя
производительность для попадания в рейтинг, мы нашли проблемы, решив которые, мы ускорили наше машинное обучение.