«Раньше в больших онлайн-переводчиках вроде «Яндекс.Переводчика» или Google Translate работала статистическая модель перевода, но с недавних пор ее заменили гибридом на основе нейросетей (как в случае «Яндекс.Переводчика») или просто нейросетями (как у коллег из Google), которые в целом показывают лучшие результаты (Google Translate начал переводить с помощью нейросетей с осени 2016 года, на русский язык — с весны 2017-го, «Яндекс.Переводчик» начал пользоваться нейросетями с сентября 2017-го. — Прим. ред.). Это привело к новой категории ошибок переводчика, когда нейросеть, по сути, пытается «придумать» во время перевода новые слова, вместо того чтобы использовать реально существующие. Вот и получается «обонять» вместо «нюхать», «дзюдоки» вместо «дзюдоистов» и так далее.
Причина таких ошибок кроется в самом принципе работы нейросетей с языком. Для них слова не являются единым неприкосновенным целым, как для статистической модели. Вместо этого каждое слово разбивается на несколько составных частей: нейросеть получает таким образом возможность сочинять из кусочков такие слова, которых во время обучения она могла и не видеть. В большинстве случаев это как раз очень хорошо и полезно, ведь позволяет ей учитывать морфологические связи и правильно склонять даже редкие слова, с чем у статистического перевода большие проблемы. Но изредка именно это и приводит к сочинению бессмыслицы».
Какие ошибки делают онлайн-переводчики
Антон Дворкович: «Обратимся к моему любимому примеру, который мы «поймали» в выдаче «Яндекс.Переводчика» еще на этапе тестирования новой технологии: нейросеть решила перевести слово croatians как «хорватаны» вместо «хорватов». Не сложно понять логику такого решения: нейросеть знает, что Croatia переводится как «Хорватия» и примерно понимает, как в русском языке формируются названия национальностей, но здесь система дала сбой — и получилось смешное, хоть и близкое к правильному слово.
Если бы нейросеть не смогла разбить слово на более-менее логичные части, она пошла бы еще дальше и просто применила бы транслитерацию — отсюда большое количество ошибок в нейросетевом переводе, когда незнакомые системе слова превращаются в итоге в своеобразные англицизмы (например, «консалтанты» вместо «консультантов»).
Отдельная тема — когда нейросеть «сходит с ума» и начинает писать полную чушь. Это может произойти, когда сеть получает на вход что‑то необычное: слово, написанное с опечатками, или слово, полностью написанное заглавными буквами. Подобные искажения могут помешать нейросети «узнать» знакомое слово и правильно его обработать».
Как борются с ошибками в машинном переводе
Антон Дворкович: «Во многом поэтому мы в «Яндекс.Переводчике» не бросились сразу применять нейросети для всего перевода, а сделали гибрид из статистической модели и нейросетей, когда перевод выполняют обе модели, а лучший вариант выбирает наш алгоритм CatBoost. Этот подход помогает нам отсеять такие выдуманные слова еще до того, как мы покажем перевод пользователю. Кроме того, работает проверка перевода по языковой модели — это такая большая память из слов и примеров их использования, которая собрана по большому корпусу текстов из всего интернета и которая тоже снижает вероятность таких вот нейросетевых ошибок.
В нашей первой версии новой технологии такие ошибки, которые мы называем стьюпидами, встречались в 7% запросов, сейчас нам удалось уменьшить их количество в восемь раз, то есть осталось около процента. Борьба продолжается, но уже в основном благодаря фидбэку от пользователей. Недавно, например, нейросеть почему‑то решила всегда писать «(Алексей Алексеевич)» (именно в скобках!) перед фамилией определенного человека, нам пришла жалоба, мы все быстро исправили».
Примеры странных и забавных ошибок нейросетей-переводчиков
Агаст
(сущ., от англ. aghast) Жуть, ужас
Аграрник
(сущ., от англ. agrarians) Аграрий, специалист по сельскому хозяйству
Биопия
(сущ., от англ. biopic) Байопик, биографический фильм
Блотировать
(глаг., от англ. blot out) Закрывать что‑либо
Дзюдок
(сущ., от англ. judokas) Дзюдоист
Дискордировать
(глаг., от англ. discord) Разойтись во взглядах
Задушка
(сущ., от англ. stranglehold) Мертвая хватка
Зигзагировать
(глаг., от англ. zigzags) Двигаться зигзагами
Зонтичный
(прил., от англ. umbrella) Общий, обобщающий
Ламбастировать
(глаг., от англ. lambasted) Критиковать, ругать
Лесбиячество
(сущ., от англ. lesbianism) Лесбиянство
Ломбардист
(сущ., от англ. pawnbroker) Ломбард, сотрудник ломбарда
Майна
(сущ. от англ. lane) Полоса на дороге
Морники
(фраз., от англ. good morning) Доброе утро
Обонять
(глаг., от англ. to sniff) Нюхать
Обскурить
(фраз., от англ. skimmed the cream) Снять сливки
Постерный
(прил. от англ. poster) То, что было опубликовано в социальной сети
Ретортировать
(глаг., от англ. retort) Парировать, возражать
Сахариться
(глаг., от англ. sugarcoat) Приукрашать
Сторонировать
(глаг. от англ. reversal) Развернуть
Тайма
(сущ. от англ time) Время
Ушибистость
(сущ., от англ. brutishness) Грубость, брутальность
Травянин
(сущ., от англ. herbalist) Травник
Хокке
(прил. от англ. hokey) Фальшивый