Мы в ответе за то, на чем обучились: как организация разметки данных в больших масштабах становится критически важной экспертизой для ML-специалиста BigData и машинное обучение
Иронично, что большинство масштабных ML-проектов невозможны без ручного труда: разметки данных человеком. Для того чтобы создать качественный ML-алгоритм, сначала нужны размеченные данные, чтобы его обучить, а потом — размеченные данные, чтобы оценить его качество. В больших промышленных ML-решениях, будь то поиск, компьютерное зрение, речевые технологии, качественная ручная разметка требуется постоянно и в больших объемах.
И как сегодня сложно представить технологическую компанию, у которой нет собственной экспертизы в ML, скоро будет сложно представить специалистов, которые не понимают и не контролируют разметку, на которой они обучают и оценивают свои алгоритмы.
В докладе мы расскажем о том, как на примере открытой краудсорсинговой платформы Яндекс.Толока выстраиваются сложные пайплайны разметки данных, устойчивые к ошибкам отдельных исполнителей. А еще о том, как сегодня развивается и в каких задачах востребована новая специальность в ML: специалист по работе с краудом.
Руководитель управления краудсорсинга и платформизации Яндекса; руководитель Яндекс.Толоки.