Fast, deep and high. Как строить Low Latency-рекомендательный трансформер на миллион RPS

Нейронные сети, искусственный интеллект

Доклад принят в программу конференции

Руководитель группы нейросетевой персонализации в Яндексе, долгое время занимался DL'ем в области видео и текстов, последние 2 года занимаюсь исследованиями нейросетевых подходов к задачам рекомендаций.

Тезисы

Видео

Я хочу рассказать о нашей модели пользовательских рекомендаций в рекламной сети яндекса и некоторых проблемах, которые могут возникнуть при внедрении тяжелых нейросетевых моделей в высоконагруженный продакшн. Примерный план доклада:
* высокоуровневое описание модели, для чего она нужна и как она работает
* зачем мы разделяли полноценный рекомендательный трансформера с early fusion подходом на независимые части
* какие сложности возникают в обеспечении консистентных данных в рантайме и в обучении
* почему вашу рекомендательную модель нужно регулярно дообучать
* почему батчевание gpu вычислений критически важно
* как разделение cpu и gpu частей модели может помочь выиграть еще несколь тысяч рпс на GPU