Как работают разметчики данных — люди, которые объясняют наш мир искусственному интеллекту

22 декабря 2020 в 20:45
Около 74% россиян считают, что автоматизация приведет к исчезновению многих рабочих мест. Однако внедрение машин создаст и новые профессии для людей с разной квалификацией. Одна из них — разметка данных — набирает популярность и создает целую индустрию. Рассказываем, что это за профессия и почему ее актуальность будет только расти.

«Я выгляжу в основном как код на языке программирования», — отвечает голосовая помощница Алиса на вопрос о ее внешности. Она включает музыку, ставит будильник, но, кроме того, поддерживает отвлеченную беседу почти как человек. Сценарии диалогов для нее прописали разработчики, но еще машину нужно научить верно выбирать ответы, которые будут восприниматься естественно и логично. Эту работу в том числе помогают выполнять специальные люди — разметчики данных.

Все как в школе: чем больше помощница узнает верных ответов, тем лучше она поддерживает беседу. Если ответом на обезличенный фрагмент вопроса «Как ты выглядишь?» были слова «Да, зеленый», то разметчик отметит этот диалог как неестественный, ведь реплика логически не связана с предшествующим вопросом. А ответ «Беседы на такие темы — не мое» признает нейтральным — такой фразой можно ответить практически на любой вопрос.

Два года назад сооснователь Dbrain и R-Sept Алексей Хахунов в материале «Афиши Daily» говорил о разметчиках данных как о представителях новой профессии, которая появится с развитием искусственного интеллекта. Сегодня эти люди работают в сервисах «Яндекс.Толока», Handl или Labelbox, а для некоторых разметка уже стала источником регулярного заработка.

Ольга Мегорская

Руководитель сервиса «Яндекс.Толока»

«Потребность в разметке данных людьми возникла, когда началось индустриальное применение технологий машинного обучения: алгоритмам нужно обучаться на данных, и зачастую их невозможно получить, пока их не создаст человек.

Первые разметчики данных, которые изучали случайную анонимизированную пару «поисковый запрос — нашедшийся документ» и оценивали, насколько найденный документ релевантен запросу пользователя, появились [в «Яндексе»] еще в 2008–2009 годах.

Пример размеченной картинки с объектами на городской улице, например, отдельно на ней размечены люди и велосипеды, дорога и знаки.

Десять лет назад ручная разметка данных в «Яндексе» начиналась с нескольких людей, которые заполняли таблицы в Excel. А в 2014 году появилась платформа «Яндекс.Толока», где каждый может выступить и в роли заказчика, и в роли исполнителя. Сейчас каждый день там размечают десятки миллионов единиц данных для сотен разных проектов. И мы ожидаем, что до конца 2020 года в выполнении заданий поучаствуют более 6 млн человек».

Кто работает в разметке

Пенсионерка Марина Степанова из Сочи выбрала работу разметчицы данных три года назад. «Я искала подработку. Перепробовала много разных сайтов, копирайтинг, где вроде работаешь, вкладываешься, а получаешь копейки. В итоге остановилась на «Толоке», — говорит она. — Сначала работа не пошла: было неинтересно, тяжеловато с первой попытки, так что я это дело оставила. Вернулась спустя примерно год, и в этот раз получилось. Чем больше я работала, тем более понятной становилась система».

Разметчики на «Толоке» составляют собственный график подработки. Кто‑то, как Степанова, занимается этим каждый день. «Утром встаю иногда в 8.00, иногда — в 10.30, кофе попила и включаю компьютер, — рассказывает она. — Но это не значит, что в это время для меня уже есть любимые задания. Я провожу в «Толоке» не все время — занимаюсь своими делами и периодически захожу туда. И так до 9 часов вечера. Заработки очень маленькие, буквально по центу цепляешь, и чтобы что‑то заработать, [надо работать целый день]».

Студент IT-направления Кирилл рассказал «Афише Daily», что уже два года каждый день подрабатывает на разметке. «Сначала уделял заданиям порядка двух-трех часов по три-четыре дня в неделю, — говорит он. — Сейчас же в условиях удаленного обучения могу уделять по четыре-пять часов пять дней в неделю».

Разметчик Алексей Дубровин из Улан-Удэ заходит на сайт время от времени. «Весной, когда был период самоизоляции и все сидели на удаленке, работы стало меньше, а свободного времени — больше. Я случайно наткнулся на «Толоку» и попробовал, что из этого получится, — говорит он. — Времени на выполнение заданий уделяю иногда час, иногда два, иногда 10–15 минут».

Все эти разметчики — фрилансеры. Они не занимаются разметкой ни в штате «Яндекса», ни в какой‑либо другой компании. Заказчики публикуют на платформе задания, описывают условия и устанавливают стоимость. Многие разметчики не имеют специальных знаний, но иногда для обучения машинного интеллекта требуются квалифицированные специалисты, например, чтобы отметить место перелома на снимках и проанализировать решения суда.

Чем занимаются разметчики

«Типов разметки очень много, и обычно цель каждого задания — это сбор обучающих примеров или проверка работы алгоритмов машинного обучения, — объясняет руководитель «Яндекс.Толоки». — Например, задачи по классификации объектов часто используют для модерации контента, лингвистические задачи вроде выделения сущностей в тексте — для обучения чат-ботов и голосовых помощников, разметку объектов на изображениях — для систем компьютерного зрения».

Чтобы натренировать систему, потребуется от нескольких тысяч примеров до нескольких десятков тысяч, и все они должны быть обработаны разметчиками вручную.

Это настолько объемная работа, что на сбор, очистку и маркировку данных уходит около 80% времени всего процесса машинного обучения. «Большинство заданий связано с обработкой небольших объектов: например, посмотреть на картинку и указать, что на ней изображено, — продолжает Мегорская. — Или из двух вариантов перевода выбрать лучший. Выделить в тексте все числительные или обвести на картинке определенный объект — например, дорожный знак или автомобиль».

Говоря о любимых заданиях, Степанова вспоминает то, в котором надо было высказать мнение об отрывках из мультфильмов, документальных и художественных фильмов: написать, нравится ли он, готовы ли добавить его в коллекцию. Дубровин отмечает задания, связанные с переводом. «По образованию я филолог, но работаю не по специальности, — объясняет он. — А выполнение таких заданий позволяет освежать знания». Кириллу же нравятся задания по модерации контента и обучению Алисы. Причина та же: интерес к теме и расширение кругозора.

Сколько получают на разметке

Разметчики рассказывают, что с некоторыми заданиями возникают вопросы. «Бывает, открываю задание и понимаю: надо зайти, открыть сайт, посмотреть, правильно ли он сделан, оценить по критериям, — говорит Степанова. — А оплату предлагают — 1 цент. Эта работа не стоит того. Или просят собрать информацию о малоизвестном актере, указать, в каких фильмах он участвовал. Это гигантская работа, а платят за нее так же — цент».

У Кирилла бывают проблемные «пешеходные» задания, в которых нужно собирать информацию об организациях. «Исходные данные о них могут оказаться устаревшими, поэтому, отправляясь на задание, вы можете и не найти эту организацию вовсе, — жалуется он. — Компенсацию, конечно, заплатят, но это не очень приятно, когда ожидаешь 0,15 доллара, а получаешь 0,07 доллара».

Даже при регулярном выполнении заданий доход не будет постоянным, отмечают разметчики. В неделю можно заработать от пары долларов до сотни. «Мой самый большой заработок [за сутки] составил 15–16 долларов, — делится Степанова. — С 8 часов вечера до 9 часов утра я выполняла задания, где нужно было определить, относится ли документ к научной статье. Приводились записи лекций, методички, просто художественная литература. За одно задание давали цент, но именно на нем я заработала больше всего. К утру уже не могла, засыпала, в глазах рябило, было сложно сидеть. Но когда у тебя девять минут на задание, не отойдешь даже кофе попить».

Будущее профессии

Ольга Мегорская

Руководитель сервиса «Яндекс.Толока»

«Мы видим, что потребность в разметке данных для искусственного интеллекта стремительно растет, причем не только в России, но и во всем мире. Высокий спрос на услуги «Толоки» есть как среди крупнейших технологических компаний в России, так и за ее пределами (на сайте «Толоки» указано, что услугами платформы, помимо сервисов «Яндекса», пользуются Ozon, Samsung Research Russia, AliExpress, «Авито», «Рамблер», «Тинькофф Банк» и другие компании. — Прим. ред.). В «Толоке» появляется все больше и иностранных заказчиков, и толокеров из разных уголков мира: Азии, Африки, Северной и Южной Америки.

Нет, пожалуй, ни одного сервиса и продукта «Яндекса», который бы не использовал «Толоку» для своих задач. Поиску она нужна для обучения алгоритмов ранжирования, Алисе — для тестирования моделей синтеза речи, «Такси» — для контроля чистоты автомобилей, «Дзену» — для классификации контента, беспилотникам — для обучения алгоритмов навигации и так далее».

Есть все основания полагать, что разметка данных войдет в список профессий будущего. Она относится к сфере обслуживания высоких технологий, которая, по мнению Брукингского института, со временем будет только расти, а не сокращаться, как профессии из сферы логистики и администрирования. В США на разметку данных уже переходят люди из сельского хозяйства или промышленности, которые потеряли работу из‑за автоматизации.

Разметчики работают удаленно, чтобы зарабатывать, им нужны только ноутбук или телефон и выход в интернет. Это удобно не только для исполнителей, но и для заказчиков. Около 64% миллениалов предпочли бы иногда работать из дома, ведь это сокращает время на дорогу до офиса, на которую в среднем тратят 54 часа в год. Число работодателей, готовых перевести часть сотрудников на удаленку, достигло в России 20%, в то время как в США их уже больше 75%.

Стоит ожидать появления больших международных бирж по разметке данных, на которых заказчики из более развитых стран смогут найти исполнителей из развивающихся, где курс доллара высок по отношению к национальной валюте. За разметку данных в США компаниям приходится платить 7–15 долларов в час, но если делать ее в Малайзии, то цена снизится до 2,5 доллара в час. В итоге разработчики смогут сэкономить на разметке, а люди — получить высокую по местным меркам оплату за простые задания.