перейти на мобильную версию сайта
да
нет

Почему роботы разговаривают с нами только в кино

На днях «Яндекс» запустил сервис голосового распознавания SpeechKit Cloud. В связи с этим «Воздух» спросил у руководителей компании, когда уже можно будет по-настоящему поговорить с машиной, и узнал, что рассчитывать на это не стоит.

Технологии
Почему роботы разговаривают с нами только в кино

Команды голосом — самый, казалось бы, очевидный и неизбежный в скором будущем способ управлять компьютером. Веру в то, что тачскрин, мышку и клавиатуру скоро заменит универсальный речевой интерфейс, уже лет сорок подпитывает кинематограф, начиная с кубриковской «Одиссеи», где главный злодей HAL 9000 представлен преимущественно анестезирующе вежливым голосом, и заканчивая многословным романом Хоакина Феникса с операционной системой в фильме «Она». На то же намекают десятки вышедших за последние годы мобильных голосовых помощников у Apple, Google, Microsoft и проч. Но попробуйте конвертировать аудиозапись в текст с помощью приложения Dragon или поговорить с Siri — все сразу станет понятно. Не говоря уже о том, что слушать сообщения робота вообще невозможно — быстрее прочитать.

Анонсированный «Яндексом» без особого шума сервис SpeechKit Cloud — хорошая иллюстрация того, как обстоят дела в области голосовых интерфейсов в действительности и насколько реалистично их применение в быту. Над распознаванием речи (на русском и турецком языках; в примерных планах — английский, украинский, белорусский) в компании работают уже пару лет. В основе технологии собственные акустическая и языковая модели: первая включает в себя 400 часов вручную собранных фонем; вторая модель развивается на основе колоссальных текстовых данных поисковика и учитывает сейчас порядка четырех миллиардов русских слов и их производных. С прошлого года «Яндекс» использует эту технологию в своих приложениях «Навигатор», «Карты», в мобильном поиске и браузере. В принципе, SpeechKit Cloud это та же самая штука — только теперь компания решила раздавать ее из облака (и за деньги) сторонним разработчикам. И круг этих разработчиков почти исчерпывающе описывает реальную область использования голосовых интерфейсов на ближайшее будущее: производители софта для интерактивных меню в телефонии, документирования хирургических операций, управления бытовой техникой и вообще системами умного дома (вот, скажем, пример такого российского домашнего ассистента Cubic).

Преимущества «Яндекса», как водится, проявляются тут в лучшей адаптации технологии к местным условиям. Например, SpeechKit различает в том числе и разные акценты русского языка, при этом способен бесконечно самосовершенствоваться и принимать во внимание изменение языковой ситуации. Как говорит Денис Филиппов, руководитель отдела голосовых технологий и продуктов: «Водитель такси в Москве может с трудом понимать вас по-русски, но для уточнения он может воспользоваться «Яндекс.Навигатором», и велика вероятность, что навигатор поймет его лучше». Если верить менеджерам «Яндекса», точность их системы в распознавании устной русской речи выше, чем у конкурентов, — во время диктовки она составляет 82%, у человека тот же показатель — 96%. Еще точнее «Яндекс» обрабатывает короткие, в несколько слов, запросы, географические названия и адреса. Под конкурентами имеются в виду Google, питерский «Центр речевых технологий» и компания Nuance, крупнейший в мире разработчик в этой области (частично ответственный за эппловский Siri и самсунговский S-Voice).

Судя по опыту «Яндекса», пока наиболее реалистичным сценарием использования голосового контроллера остается навигация для водителей. «У нас есть любимая история про Турцию, — рассказывает Григорий Бакунов, директор по распространению технологий компании. — Одно из самых популярных наших приложений в Стамбуле — это «Навигатор», и турки используют в нем голосовые команды на порядок чаще, чем в России, чего мы совершенно не ожидали. Есть много теорий почему. Может быть, потому что они очень экспрессивные люди: если турок будет набирать текст, то не сможет жестикулировать. А может быть, дело в том, что там очень узкие дороги, убрать руки с руля почти невозможно». В целом пользователи «Навигатора» вводят голосом половину запросов (а в Турции около 70%). Для сравнения: в мобильном яндексовском поиске доля таких запросов около десяти процентов.

То есть когда руки свободны, людям проще набирать текст, чем диктовать, даже если у них мобильный. Отчасти поэтому на сайте «Яндекса» в поисковой строке нет микрофона: в компании не планируют работать над вещами, которые не будут пользоваться спросом. Бакунов, например, считает, что универсального средства для голосового ввода вообще не будет никогда: «Речь — сравнительно медленный процесс. Если перед вами десктоп, то гораздо быстрее набрать текст руками. Голосовой ввод скорее нужен там, где нет экрана и нормальной клавиатуры или где печатать на ней небезопасно. Если говорить о будущем и думать про какой-то универсальный интерфейс, то, наверно, надо ждать технологии чтения мыслей». Голосовой контроллер для всего, надо думать, так и останется фантастическим допущением киносценаристов. Иначе никак: если позволить роботу из будущего читать мысли, фильм вряд ли получится захватывающим, ведь это просто убьет всю драму.
Ошибка в тексте
Отправить