CatBoost - градиентный бустинг для больших данныхBigData и машинное обучение
Руководитель группы разработки систем машинного обучения.
Окончила факультет ВМК Московского государственного университета и Школу анализа данных (ШАД). Работала в компаниях ABBYY, Microsoft, Bing, Google. В Яндексе с 2015 года. Занимается задачами, связанными с развитием алгоритмов машинного обучения.
CatBoost - библиотека градиентного бустинга, выложенная в открытый доступ компанией Яндекс. Главные особенности этой библиотеки - она позволяет эффективно работать с категориальными данными, дает повышенную точность за счет методов борьбы с переобучением, реализует возможность быстро считать значения модели для time-critical-сервисов, а также дает возможность обучать модели на больших объемах данных.
В докладе мы кратко расскажем про то, что такое градиентный бустинг и зачем он нужен, осветим главные особенности библиотеки и подробно остановимся на обучении бустинга на больших данных.