Главная
→
BigData и машинное обучение

Тестируем библиотеки машинного обучения на больших данных
BigData и машинное обучение

Доклад отклонён

Rambler&Co

Начинал с веб-разработки высоконагруженных систем. Несколько лет назад занялся машинным обучением и работой с большими данными. Сейчас руководит отделом машинного обучения.

Тезисы

На сегодняшний день созданы и активно развиваются очень много библиотек машинного обучения. Но при выборе инструмента решения очередной задачи возникают одни и те же вопросы. И если сам алгоритм машинного обучения можно выбрать теоретически на основе знаний о задаче и данных, то конкретную реализацию "градиентного бустинга" выбрать не всегда тривиально. Особенно, если речь идет об обучении на очень больших выборках. Найти какой-нибудь более или менее стандартный открытый бенчмарк библиотек машинного обучения в Интернете представляется непростой задачей. И, хотя они есть, например, https://github.com/szilard/benchm-ml, но методология тестирования часто не до конца понятна, а объем данных, взятых для теста, назвать "big data" не всегда язык поворачивается.

Чтобы раз и навсегда поставить точку в муках выбора, мы разработали методологию и провели бенчмарк библиотек машинного обучения для решения задачи предсказания вероятности клика. Это довольно популярная задача, про которую известно, что чем больше данных, тем лучше результат. Мы взяли открытый датасет Criteo 1TB и провели тест на нем. В тесте поучаствовали все самые известные библиотеки машинного обучения Vowpal Wabbit, XGBoost, LightGBM, CatBoost, Spark ML, TensorFlow.

В своем докладе я подробно разберу методологию, особенности подготовки данных и почему это не надо делать на Python. Покажу подробные графики времени сходимости, потребляемых ресурсов и кривых качества модели. Обсудим особенности реализаций библиотек, которые приводят к тем или иным особенностям. Ну и, конечно, выберем победителя!

Python

Scala

Распределенные системы

Алгоритмы и их сравнение

Web-scale IT / другое

Другие доклады секции
BigData и машинное обучение

Профессиональная конференция разработчиков высоконагруженных систем

Тестируем библиотеки машинного обучения на больших данных BigData и машинное обучение

Тезисы

Другие доклады секции BigData и машинное обучение

Тестируем библиотеки машинного обучения на больших данных
BigData и машинное обучение

Другие доклады секции
BigData и машинное обучение