Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

Тестируем библиотеки машинного обучения на больших данных
BigData и машинное обучение

Доклад отклонён
Rambler&Co

Начинал с веб-разработки высоконагруженных систем. Несколько лет назад занялся машинным обучением и работой с большими данными. Сейчас руководит отделом машинного обучения.

Тезисы

На сегодняшний день созданы и активно развиваются очень много библиотек машинного обучения. Но при выборе инструмента решения очередной задачи возникают одни и те же вопросы. И если сам алгоритм машинного обучения можно выбрать теоретически на основе знаний о задаче и данных, то конкретную реализацию "градиентного бустинга" выбрать не всегда тривиально. Особенно, если речь идет об обучении на очень больших выборках. Найти какой-нибудь более или менее стандартный открытый бенчмарк библиотек машинного обучения в Интернете представляется непростой задачей. И, хотя они есть, например, https://github.com/szilard/benchm-ml, но методология тестирования часто не до конца понятна, а объем данных, взятых для теста, назвать "big data" не всегда язык поворачивается.

Чтобы раз и навсегда поставить точку в муках выбора, мы разработали методологию и провели бенчмарк библиотек машинного обучения для решения задачи предсказания вероятности клика. Это довольно популярная задача, про которую известно, что чем больше данных, тем лучше результат. Мы взяли открытый датасет Criteo 1TB и провели тест на нем. В тесте поучаствовали все самые известные библиотеки машинного обучения Vowpal Wabbit, XGBoost, LightGBM, CatBoost, Spark ML, TensorFlow.

В своем докладе я подробно разберу методологию, особенности подготовки данных и почему это не надо делать на Python. Покажу подробные графики времени сходимости, потребляемых ресурсов и кривых качества модели. Обсудим особенности реализаций библиотек, которые приводят к тем или иным особенностям. Ну и, конечно, выберем победителя!

Python
,
Scala
,
Распределенные системы
,
Алгоритмы и их сравнение
,
Web-scale IT / другое

Другие доклады секции
BigData и машинное обучение

Rambler's Top100