«Обонять лесбиячество»: почему нейросеть-переводчик придумывает новые слова

30 ноября 2017 в 19:14
Если вы последние полгода использовали онлайн-переводчики, то могли заметить, что иногда они предлагают странные несуществующие слова. Это результат неудачной работы нейросетей. «Афиша Daily» узнала, почему это происходит, а также собрала самые нелепые переводы и нашла им применение.
Антон Дворкович
Разработчик «Яндекс.Переводчика»

«Раньше в больших онлайн-переводчиках вроде «Яндекс.Переводчика» или Google Translate работала статистическая модель перевода, но с недавних пор ее заменили гибридом на основе нейросетей (как в случае «Яндекс.Переводчика») или просто нейросетями (как у коллег из Google), которые в целом показывают лучшие результаты (Google Translate начал переводить с помощью нейросетей с осени 2016 года, на русский язык — с весны 2017-го, «Яндекс.Переводчик» начал пользоваться нейросетями с сентября 2017-го. — Прим. ред.). Это привело к новой категории ошибок переводчика, когда нейросеть, по сути, пытается «придумать» во время перевода новые слова, вместо того чтобы использовать реально существующие. Вот и получается «обонять» вместо «нюхать», «дзюдоки» вместо «дзюдоистов» и так далее.

Причина таких ошибок кроется в самом принципе работы нейросетей с языком. Для них слова не являются единым неприкосновенным целым, как для статистической модели. Вместо этого каждое слово разбивается на несколько составных частей: нейросеть получает таким образом возможность сочинять из кусочков такие слова, которых во время обучения она могла и не видеть. В большинстве случаев это как раз очень хорошо и полезно, ведь позволяет ей учитывать морфологические связи и правильно склонять даже редкие слова, с чем у статистического перевода большие проблемы. Но изредка именно это и приводит к сочинению бессмыслицы».

Какие ошибки делают онлайн-переводчики

Антон Дворкович: «Обратимся к моему любимому примеру, который мы «поймали» в выдаче «Яндекс.Переводчика» еще на этапе тестирования новой технологии: нейросеть решила перевести слово croatians как «хорватаны» вместо «хорватов». Не сложно понять логику такого решения: нейросеть знает, что Croatia переводится как «Хорватия» и примерно понимает, как в русском языке формируются названия национальностей, но здесь система дала сбой — и получилось смешное, хоть и близкое к правильному слово.

Если бы нейросеть не смогла разбить слово на более-менее логичные части, она пошла бы еще дальше и просто применила бы транслитерацию — отсюда большое количество ошибок в нейросетевом переводе, когда незнакомые системе слова превращаются в итоге в своеобразные англицизмы (например, «консалтанты» вместо «консультантов»).

Отдельная тема — когда нейросеть «сходит с ума» и начинает писать полную чушь. Это может произойти, когда сеть получает на вход что‑то необычное: слово, написанное с опечатками, или слово, полностью написанное заглавными буквами. Подобные искажения могут помешать нейросети «узнать» знакомое слово и правильно его обработать».

Как борются с ошибками в машинном переводе

Антон Дворкович: «Во многом поэтому мы в «Яндекс.Переводчике» не бросились сразу применять нейросети для всего перевода, а сделали гибрид из статистической модели и нейросетей, когда перевод выполняют обе модели, а лучший вариант выбирает наш алгоритм CatBoost. Этот подход помогает нам отсеять такие выдуманные слова еще до того, как мы покажем перевод пользователю. Кроме того, работает проверка перевода по языковой модели — это такая большая память из слов и примеров их использования, которая собрана по большому корпусу текстов из всего интернета и которая тоже снижает вероятность таких вот нейросетевых ошибок.

В нашей первой версии новой технологии такие ошибки, которые мы называем стьюпидами, встречались в 7% запросов, сейчас нам удалось уменьшить их количество в восемь раз, то есть осталось около процента. Борьба продолжается, но уже в основном благодаря фидбэку от пользователей. Недавно, например, нейросеть почему‑то решила всегда писать «(Алексей Алексеевич)» (именно в скобках!) перед фамилией определенного человека, нам пришла жалоба, мы все быстро исправили».

Примеры странных и забавных ошибок нейросетей-переводчиков

Агаст

(сущ., от англ. aghast) Жуть, ужас

Как можно применить

«Идешь на Фейса? Вот агаст!»

Аграрник

(сущ., от англ. agrarians) Аграрий, специалист по сельскому хозяйству

Как можно применить

«Добро пожаловать на Всероссийский съезд аграрников»

Биопия

(сущ., от англ. biopic) Байопик, биографический фильм

Как можно применять

«В следующем месяце в прокат выйдет биопия о жизни режиссера Сатоси Кона»

Блотировать

(глаг., от англ. blot out) Закрывать что‑либо

Как можно применять

«Она блотировала нападающую, отняла мяч и перехватила инициативу»

Дзюдок

(сущ., от англ. judokas) Дзюдоист

Как можно применять

«Он сильный дзюдок, недавно получил кандидата в мастера спорта»

Дискордировать

(глаг., от англ. discord) Разойтись во взглядах

Как можно применять

«Мы с ним вчера так сильно подискордировали»

Задушка

(сущ., от англ. stranglehold) Мертвая хватка

Как можно применять

«Новый бригадир держит нас в задушке»

Зигзагировать

(глаг., от англ. zigzags) Двигаться зигзагами

Как можно применять

«Клиент что‑то начал зигзагировать»

Зонтичный

(прил., от англ. umbrella) Общий, обобщающий

Как можно применять

«Давайте соберем все эти таблицы в одну большую зонтичную таблицу»

Ламбастировать

(глаг., от англ. lambasted) Критиковать, ругать

Как можно применять

«Она разламбастировала новую игру Ubisoft»

Лесбиячество

(сущ., от англ. lesbianism) Лесбиянство

Как можно применять

«Вечером будет лекция о лесбиячестве в современном мире»

Ломбардист

(сущ., от англ. pawnbroker) Ломбард, сотрудник ломбарда

Как можно применять

«Мой друг-ломбардист говорит, что это серебро стоит дороже»

Майна

(сущ. от англ. lane) Полоса на дороге

Как можно применять

«Мне кажется, крайняя правая майна едет быстрее»

Морники

(фраз., от англ. good morning) Доброе утро

Как можно применять

«Всем морники!»

Обонять

(глаг., от англ. to sniff) Нюхать

Как можно применять

«Пообоняй, пожалуйста, это еще не прокисло?»

Обскурить

(фраз., от англ. skimmed the cream) Снять сливки

Как можно применять

«Обскурила это интервью — вот лучшие моменты»

Постерный

(прил. от англ. poster) То, что было опубликовано в социальной сети

Как можно применять

«А эти видео уже постерные? Или еще нет?»

Ретортировать

(глаг., от англ. retort) Парировать, возражать

Как можно применять

«Ретортирую, нельзя так делать, иначе мы не уложимся в срок»

Сахариться

(глаг., от англ. sugarcoat) Приукрашать

Как можно применять

«Хватит сахариться, мы же не укладываемся в дедлайн!»

Сторонировать

(глаг. от англ. reversal) Развернуть

Как можно применять

«Сторонируйся — едем обратно»

Тайма

(сущ. от англ time) Время

Как можно применять

«Давай быстрее, у нас уже совсем нет таймы»

Ушибистость

(сущ., от англ. brutishness) Грубость, брутальность

Как можно применять

«Этот парень какой‑то слишком ушибистый»

Травянин

(сущ., от англ. herbalist) Травник

Как можно применять

«В следующей передаче — интервью с сибирским травянином Олегом Шишкой»

Хокке

(прил. от англ. hokey) Фальшивый

Как можно применять

«Мне не нравится этот актер, он — хокке»

Расскажите друзьям
Теги: