HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

О конкурсах по BigData на HighLoad++

BigData и машинное обучение

Новая секция на HighLoad++ получила 12 заявок, в целом мы о них уже рассказывали в новостях конференции и нашем блоге на ХабрХабре. Пара заявок вызвала наше особенное внимание, они были о... конкурсах!

О конкурсах по машинному обучению

Мы задали вопрос Ивану Гузу (Avito), автору доклада "Ускорение исследований за счет организации конкурсов: как их готовить и использовать результаты" и вот, что он рассказал.

Задачи машинного обучения (о которых мой доклад) имеют несколько другую специфику нежели инженерные задачи построения высоконагруженных систем.

Многие из ML задач можно решить быстро и на коленке. Хрестоматийный пример — хотим построить спамфильтр и берем наивного байеса. Хороший масштабирумый алгоритм. Но на реальных данных оказывается, что качество низкое. Возникает вопрос — что делать?

Сдаваться и давать волю спамерам или перепробовать миллион модных современных методов текстовой аналитики за бесконечное время? Даже коллективу сделать это сложно. На выход и приходят конкурсы, где сотни команд за ограниченное время перебирают все возможные способы решения и вы получаете лучшее. Важно даже не само решение а сам факт того, что вы понимаете, какое предельное качество достижимо.

Так вот проблема в том, что подготавливать задачу к конкурсам намного сложнее, чем искать ее решение. Поэтому конкурсы так не распростанены, а специализированные компании берут за подготовку конкурсов десятки тысяч долларов. Мой доклад — как раз про то, как это делать — как ставить на поток исследования с практическими примерами.

Rambler's Top100