Нейросеть ElevenLabs запустила автоперевод роликов на русский. Результат похож на дубляж из 90-х

12 октября 2023 в 19:46
Фото: Will Francis/Unsplash.com

Разработчик продуктов для синтеза речи ElevenLabs запустила нейросетевой инструмент для автоматического дубляжа роликов. Он поддерживает 29 языков, включая русский, английский и китайский.

Как и набравший виральную популярность продукт от HeyGen, их продукт также распознает речь, переводит ее, озвучивает с помощью оригинальной звуковой дорожки и стремится сохранить исходный тон и произношение. К тому же нейросеть может распознавать нескольких говорящих. Еще она позволяет дублировать на разные языки ролики с YouTube, TikTok, Vimeo или X (он же твиттер). Для длительного использования понадобится Google-аккаунт.

Конечно, пока это происходит не без ограничений. Например, создатели автопереводчика не позволяют обрабатывать ролики длиной больше 5 минут. Авторы пишут о лимите в 10 тыс. символов — в такой объем текста должны укладываться спикеры на видео, этого должно хватить примерно на 5–6 минут разговора.

Также нейросеть может легко запутаться в большом числе спикеров и не умеет синхронизировать речь с губами людей, а музыка и другие звуковые эффекты могут вызвать артефакты и перепады громкости, что делает ее не очень подходящей для переозвучки трейлеров. Впрочем, с присланным тиктоком и смешным роликом она отлично справится.

В сети инструмент используют для перевода. Например, автор канала «Джимми Нейрон» Женя Мацкевич заставил Сергея Дружко произнести на английском мемную реплику про сильное заявление — от оригинала даже и не отличить.

Автор канала «Кабачковая икра по акции» заметил, что в полученных видео могут появиться проблемы с ударениями, а качество автоматического перевода не всегда на высшем уровне.

В его пробном ролике Сэмюэль Л.Джексон произносит монолог из «Змеиного полета» и жалуется на «черто́вых змей на этом черто́вом самолете» (конечно же, в оригинале актер называет их motherfucking snakes).

Похоже, что нейросети пока сложно угнаться за человеческими эмоциями. Если спикер на видео часто меняет интонацию, инструмент этого может не распознать и в полученном дубляже будет либо кричать до самого конца, либо говорить спокойным голосом.

Например, в легендарной речи «Just Do It» Шайя ЛаБаф главным образом кричит и говорит на русском с небольшим акцентом.

А как нейросеть справилась с диалогом Ви и Джонни Сильверхенда, героем Киану Ривза, в Cyberpunk 2077. Автору ролика результат напомнил пиратские дубляжи фильмов из девяностых.