«Тавтапуç» и «Махтанабын»: как делают онлайн-переводчики на чувашский и якутский

20 июля 2020 в 20:21
Если чего‑то нет в интернете, оно умирает. Это относится и к языкам малых народов, которые живут в России. Для таких языков цифровизация, например, присутствие в онлайн-переводчиках, становится одним из способов выжить. Поговорили с языковыми энтузиастами и разработчиком из «Яндекса» о создании машинного перевода для чувашского и якутского.

Энтузиаст и инициатор поддержки якутского языка в машинных переводчиках Алексей Иванов рассказывает, что после запуска якутского языка в «Яндекс.Переводчике» в социальных сетях стали писать: «Наконец-то мы с Юлей сможем общаться», «Вот теперь мои коллеги не будут меня теребить: «Помогите, пожалуйста, по якутскому языку сыну, дочке». Кроме якутского в переводчик добавили и другие языки, например, чувашский, татарский, марийский, горномарийский и башкирский и удмуртский.

Как устроены переводчики в интернете

Машинный переводчик — это технологически сложный продукт, разработку которого могут позволить себе только крупные компании. Современная технология машинного перевода основана на параллельных корпусах текста, то есть наборе одинаковых предложений, написанных на разных языках. С подбором пар для двух распространенных языков проблем не возникает — позаимствовать их можно из художественной литературы, научных статей, публицистики.

У редких национальных языков часто нет готовых пар одинаковых предложений, поэтому разработчикам приходится привлекать энтузиастов. По словам разработчика «Яндекс.Переводчика» Антона Дворковича, в случаях с самыми редкими языками энтузиасты собирают больше половины всех текстов.

«Пожалуй, меньше всего данных было по якутскому языку. — говорит Дворкович. — Большую помощь здесь оказали энтузиасты, которые собрали необходимый массив текстов, после чего мы смогли сделать переводчик. Но и с другими языками хватало вызовов».

В зависимости от языка в разработке могут возникнуть индивидуальные проблемы. Дворкович рассказывает, что, например, в чувашском языке есть специфические кириллические буквы, но поскольку их нет на большинстве клавиатур, поэтому вместо них при письме часто употребляют другие буквы.

«Возьмем для примера слово «тавтапуç» («спасибо») — оно оканчивается на букву Ҫ, которая звучит как Щ. — говорит он. — Так вот, написание «тавтапущ» в интернете встречается чаще, чем «тавтапуç». Это пришлось учитывать при создании переводчика».

Такой труд оправдывается. «Мы можем с уверенностью сказать, что ими [переводчиками на национальные языки] активно пользуются. Например, в «Яндекс.Переводчике» татарский язык входит в топ-10 по популярности, а количество переводов с якутского или обратно исчисляется сотнями тысяч в день», — говорит Дворкович. Энтузиасты, которые принимали участие в разработке переводчика на чувашский и якутский, добавляют, что его появление внесло огромный вклад в сохранение национальных языков и упростило общение для русскоговорящего населения этих регионов.

Чувашский

Николай Плотников

Руководитель чувашской группы, главный редактор «Чувашского народного сайта»

К сожалению, использование чувашского в настоящее время все сильнее сужается: нет возможности использовать родной язык. Если раньше Чувашию называли самым читающим регионом, газеты и журналы на чувашском выходили с огромными тиражами, то теперь информационное поле полностью принадлежит русскому языку, в том числе и в интернете. Поэтому и родители не видят необходимости обучать детей родному языку.

По моему мнению, машинный переводчик поможет им увидеть, что изучение родного языка не лишит ребенка доступа к информации на других языках.

Как работают над переводом малых языков

Идея создать машинный переводчик на чувашский возникла в 2016 году, я задумался о том, как можно сделать язык более популярным в интернете. Тогда не существовало корпуса этого языка, поэтому я решил создать объединенный корпус, который бы включал в себя как сам корпус чувашского языка, так и параллельный.

Самая тяжелая часть работы — сбор пар. Во всяком случае для таких языков, как наш, чувашский. Мы создали сайт, который сделан так, чтобы каждый желающий мог принять участие и переводить тексты с чувашского на русский. Для хорошего перевода условно нужен миллион пар — после этого работу могут завершить специалисты проектов по машинному переводу.

На данный момент мы передали команде «Яндекс.Переводчика» 250 тысяч пар. Также уже имеется своя обученная модель. Как показывает практика, результаты перевода двух моделей разнятся: лучший перевод показывает то один, то другой.

Как устроено двуязычие в Чувашии

Сам я, конечно же, владею чувашским. И по мере возможностей стараюсь им пользоваться — в магазинах, при общении с людьми. Но, к сожалению, носителей языка становится все меньше. Даже в сельской местности, по моим наблюдениям, детей больше обучают русскому.

В Чувашии указатели по большей части есть на обоих языках, хотя в этом отношении до Татарстана далеко. В столице, Чебоксарах, остановки транспорта объявляются на обоих языках, но дублируется еще не все названия, и работать в этом направлении крайне необходимо. Хороший пример подают и некоторые федеральные торговые сети, например, «Пятерочка» (в ее магазинах ценники переведены на чувашский. — Прим. ред.).

Двуязычные (и даже многоязычные) указатели повышают толерантность в обществе, обогащают знания даже того человека, который языком не владеет.

По данным нашего сайта-переводчика, большинство пользователей пока составляют школьники, выполняющие домашнее задание. По мере того, как о его существовании станет известно большему кругу людей, по-моему, им чаще начнут пользоваться журналисты, переводчики и обычные люди. Ведь наличие такого переводчика открывает доступ чувашам не только к информационному полю на других языках, но и к материалам на чувашском. Ранее для этого нужен был человек, который их переведет, а теперь на это способна машина.

Якутский

Алексей Иванов

Энтузиаст, инициатор поддержки якутского языка в машинных переводчиках, отличник культуры Якутии, научный сотрудник Национальной библиотеки РС (Я)

Кто пользуется переводчиком на якутский

Носители якутского для работы с большими текстами

Они пользуются переводчиком для работы с большими объемами текста, например, при переводе статей с русского на якутский язык с последующим редактированием.

Те, кто не знает якутского, но общается с его носителями

Якутия — многонациональная республика, поэтому круг друзей часто интернациональный. Бывает, не знающие якутский язык переспрашивают, о чем говорили на якутском. Сейчас они могут пользоваться переводчиком, чтобы узнать, о чем пишут их друзья или пообщаться на якутском языке.

Носители якутского, теряющие знания

Они могут терять свои знания: начинают хуже говорить, писать, читать. К этой группе людей можно отнести и меня.

Как устроено двуязычие в Якутии

В условиях глобализации происходит утрата национальных языков, эту тенденцию я ощутил на себе. У меня два родных языка — русский и якутский. В последнее время заметил, что мой якутский не столь востребован, и из‑за нехватки практики знания словно теряются. Со временем я убедился, что это не только моя проблема. Я пришел к выводу, что якутскому языку необходимо полноправное представление в машинных переводчиках, социальных сетях, распознавании устной речи, синтезе речи и так далее. Это сложно, но я верю, что все достижимо.

И хотя сейчас якутский в интернете практически не представлен, в повседневной жизни его используют достаточно широко: работают радиостанции, выпускают телепередачи, издают периодические издания, пишут песни, работают национальные театры, часто якутский язык можно услышать в общественных местах.

В Якутске есть надписи на русском и на якутском языках — у входа в государственные учреждения, в отделениях Сбербанка, — автоинформаторы в городских общественных транспортах оповещают об остановках на двух языках. Триязычие (английский, русский, якутский. — Прим. ред.) присутствует в аэропорту, на туристических информационных указателях. Будь моя воля, я бы максимально внедрил двуязычие в инфраструктуре города и в повседневную жизнь горожан.

Я говорю на якутском, понимаю, читаю, но, к сожалению все знания родного языка с годами утрачиваются. В повседневной жизни якутский язык использую редко. Но из‑за «Яндекс.Переводчика» и общения в мессенджерах я начал использовать его чаще. Например, в сообщениях употребляю незнакомые мне ранее слова и так пополняю свой словарный запас.