OpenAI представила генеративную модель GPT-4o, к которой сможет получить доступ любой пользователь ChatGPT. Разработчик провел презентацию, на которой рассказал обо всех обновлениях.
GPT-4o (o — omni) улучшит возможности работы с аудио, текстом и изображениями, пообещала техдиректор OpenAI Мира Мурати. С новой моделью пользователи могут взаимодействовать «больше как с помощником» — у нее появился человеческий голос, который умеет передавать смех, запинки и смущение. На одном из примеров ведущие презентации просили GPT-4o рассказывать сказку все драматичнее, сымитировать голос робота и спеть.
Сам бот «улавливает» эмоции говорящего и может ответить с разной интонацией, если его попросить.
Данная модель поддерживается более чем на 50 языках, в том числе на русском, казахском, грузинском, китайском, арабском, турецком. Она также умеет моментально переводить сказанное: во время презентации двое собеседников общались на английском и итальянском, а GPT-4o помогала им понимать друг друга.
GPT-4o также умеет обрабатывать текст, аудио и видео с фронтальной камеры. Новинку OpenAI в соцсетях сравнивают с операционной системой на базе ИИ из фильма «Она».
OpenAI внедрит возможности GPT-4o, касающиеся текста и изображений, в ChatGPT с 13 мая. Для зарегистрированных пользователей без платной подписки по умолчанию будет использоваться GPT-4o с ограничением на число сообщений, которое будет зависеть от текущей нагрузки на модель. Если спрос будет слишком велик, бесплатных пользователей переведут обратно на GPT-3,5.
Доступ к голосовым функциям GPT-4o в ближайшие недели появится лишь у «небольшой группы доверенных партнеров», а у платных подписчиков — предположительно в июне.
Также с 13 мая подписчикам Plus станет доступно приложение ChatGPT для MacOS, которое позволяет пользователям задавать вопросы с помощью сочетания клавиш. Версия для Windows появится позже в 2024 году.