Инструмент порномести или будущее видео? Чего ждать от Sora — новой нейросети OpenAI

20 февраля 2024 в 12:32
Фото: OpenAI
На прошлой неделе компания OpenAI представила Sora — нейросеть, позволяющую создавать очень реалистичные минутные ролики с нуля. Вместе со специалистом по разработке ИИ-систем и видеокреатором разбираемся, чего ждать от новой нейросети, чем может быть опасна такая технология и как она может изменить индустрию в будущем.

Что такое Sora

Sora («небо» на японском) — генеративная модель для создания видео по текстовому описанию от компании OpenAI, которая пытается создавать безопасный и полезный искусственный интеллект. Другие продукты OpenAI вы уже видели: нейросеть для генерации изображений DALL-E и большая языковая модель ChatGPT. Sora генерирует ролики длиной до минуты, основываясь, как и другие продукты OpenAI, на открытых данных. Также Sora может анимировать готовые изображения.

Ролики, представленные самой компанией, действительно впечатляют: например, по запросу «маленький пушистый монстр сидит около тлеющей красной свечи» получается такая же детализированная анимация, как у Pixar. А «приближенный глаз 24-летней женщины» по реалистичности не уступает настоящему видео.

Пока модель доступна для тестирования только ограниченному кругу разработчиков, дизайнеров и креаторов, а дата релиза для остальных неизвестна. Но Сэм Альтман, основатель OpenAI, в своем твиттере бодро реагирует на запросы пользователей и генерирует видео по их промтамЗапрос для нейросети. . Некоторые ролики не обходятся без багов: например, по запросу «группа археологов достает стул» этот самый стул забавно сворачивается.

Тем не менее кажется, что Sora может стать такой же новой вехой в развитии нейросетей, как в свое время DALL-E, Midjorney и ChatGPT.

Продвинутые нейросети давно вызывают беспокойство: первые разговоры о том, что искусственный интеллект нас поработит и оставит без работы, в российском инфополе начались еще с развитием голосового помощника «Алиса», а с релизом Chat GPT только усилились. В обсуждениях Sora звучат те же вопросы: это что, теперь вокруг будут одни дипфейки? Как теперь отличить реальное видео от сгенерированного? Всех креаторов заменят нейросети, а мы останемся без работы?

Владимир Борисов

Основатель и CEO FringeTech, сооснователь и CTO FlexiTech

Правда ли, что Sora — революционная разработка?

«Сейчас Sora является моделью state-of-the-art„Самой современной“: качество ее рендеров в плане реалистичности на порядок выше, чем у предшественников. Плюс она может создавать видео до минуты длиной — альтернативные модели предлагают генерации в 5–15 секунд».

«В плане качества финального результата Sora действительно совершила большой скачок вперед».

«Технически создать ролик гораздо сложнее, чем изображение, поскольку нейросети требуется больше знаний об окружающем мире. Например, задача сгенерировать реалистичное яблоко простая: яблоки зеленые, а не оранжевые. Оранжевые апельсины. В случае видео нужно понимать форму, ракурсы камеры и самое сложное — помнить все кадры, которые уже были сгенерированы до этого. Это называется консистентностью видео. Именно по этой причине более ранние модели могли делать только короткие ролики, а их искусственность бросалась в глаза: формы и свет в кадре менялись.

OpenAI — закрытая компания, поэтому доступа к модели у сообщества нет. Но по скудному техническому описанию можно сделать вывод, что их техническое решение скорее эволюционное, нежели революционное. Есть небольшие улучшения с точки зрения подхода по сравнению с предыдущими решениями, но основной акцент — сбор большего количества данных для обучения, правильная его обработка и огромные вычислительные ресурсы, необходимые для такой модели. Поэтому громкие релизы типа Sora и другие продукты OpenAI, Meta и Google скорее результат гонки ресурсов, в которой пока очень мало участников».

Как Sora может изменить индустрию?

«Без сомнений, Sora станет таким же помощником, как ChatGPT и MidJourney, и даст толчок индустриям, где есть видеопродакшн. Но инструмент — это всего лишь инструмент. Многие креативные и бизнес-задачи уникальны, и для них Sora будет недостаточно. Поскольку модель закрытая, ее нельзя адаптировать под нужды бизнеса и построить вокруг нее рабочие процессы, а open-source-альтернативы пока намного хуже по качеству».

«Ждать погружения мира в хаос, разрушения этических норм и увольнений с выходом Sora не стоит: технология находится под контролем OpenAI, которая сильно цензурирует свои продукты и замедляет их развитие».

Что стоит ждать вслед за Sora?

«На мой взгляд, основная ценность релиза Sora — это прецедент: показать, что видео можно генерировать качественно уже сейчас, и известные архитектуры нейронных сетей могут с этой технологией справиться. Вместе с этим появится и рынок. А дальше все в руках разработчиков — уже сейчас публикуются сотни статей в сутки о новых подходах, и, используя их, можно добиться схожего качества видео и построить целые продакшн-студии, которые автоматизируют видеомейкинг с использованием AI. Ровно так было и с ChatGPT: сейчас существуют модели, способные качественнее и небольшими ресурсами решать уникальные креативные и бизнес-задачи, которые обычному ChatGPT недоступны».

Юлия Киселева

Креативный режиссер @kiselevatut, основатель агентства Fine

Как нейросети уже используются в создании видео?

«Я владею видеопродакшном, и мы используем нейросети практически в каждом проекте. Где‑то пишем мозговой штурм с помощью ChatGPT, где‑то подбираем дополнительные кадры или модернизируем их с помощью нейросетей».

«Я не считаю, что за AI будущее видеомейкинга. Но я вижу, что нейросети станут таким же инструментом в руках креатора, какими сейчас являются программы и приложения».

«Раньше мы склеивали кинопленку, это называлось монтажом. Потом пришли компьютерные программы, помогающие склеивать отснятый материал, который сначала был оцифрован. Потом этот материал снимался на цифру. Точно так же нас ждет полноценная интеграция нейросетей в процесс производства видео.

AI сильно упрощают и ускоряют работу. Например, сборка и разводка подкаста по камерам могла занимать несколько часов, а нейросеть AutoPod делает это за три минуты. Или Adobe Firefly — с помощью нее можно заменять объекты на изображении в Photoshop. Мы уже пользуемся нейросетями, которые генерируют видео по текстовому запросу или анимируют статичный кадр, — Gen2 и Pika. Предшественники Sora отлично работали с пейзажами или неодушевленными объектами, но очень плохо с лицами и статичными предметами, которые могли произвольно менять положение в кадре, переворачиваться или исчезать, нарушая режиссерскую концепцию».

Пример, как работает Adobe Firefly

Может ли Sora вытеснить настоящих креаторов?

«Я думаю, когда еще появился Midjourney, были опасения, что нейросети заменят дизайнеров, контент-мейкеров и прочих. Да, Sora может создавать видео с нуля, но она не может выступать заказчиком. Поэтому если какие‑то компетенции креаторов Sora может заменить, то самих креаторов — нет. Просто их компетенции со временем будут меняться. Больше времени нужно будет уделять написанию болеее точного запроса, чтобы получить классный результат».

«Те, кто не хочет быть вытеснен, будут осваивать новые технологии».

«Sora не сможет заменить и полноценную съемочную команду. Технология генерации видео по тексту не гарантирует, что вы можете получить одну и ту же девушку два раза. Нельзя показать ее крупным планом, а потом издалека: скорее всего, у вас будут просто очень две похожие девушки, и получится киноляп. Это лишает возможности создавать единый сюжет и раскадровку.

Рендеры Sora очень похожи на стоковые видео — и если кого она и сможет заменить, так это стокеров, которые снимают и продают свои работы для видеобанков. Вместо того чтобы платить сотни долларов за использование кадров, можно сгенерировать такой же и разбавить свой видеоряд или создать безликую коммерческую историю».

А может ли технология Sora использоваться во вред? И что там с дипфейками?

«Я выступаю за то, что технологии — это благо. Но, естественно, всякие скам-проекты могут использовать их со злым умыслом — для дипфейков или порноместиРазмещение в публичном поле интимных фото или видео без согласия лица, изображенного на них, в целях мести. . Но, по опыту других нейросетей, сами разработчики внедряют в код цензор, и с большой вероятностью вы не сможете сгенерировать что‑то сексуальное. Даже если вы напишете такой промт, нейросеть выдаст ошибку.

Технология дипфейков — photo-to-video, когда на готовое видео накладывается чужое лицо. А Sora работает по принципу text-to-video и создает ролик с нуля и, как заявляли создатели, не предусмотрена для создания дипфейков. Плюс дипфейки с политиками делать легче, нежели с обычными людьми: нейросеть компонует изображения из интернета, а фотографий политиков очень много. Midjorney, например, закрыла доступ к бесплатному использованию, после того как очень много людей стало генерировать очень реалистичные изображения с Дональдом Трампом.

За счет таких фейков технология может повлиять на политику. Уже сейчас мы используем Digital Avatar, которому можно написать текст, а он воспроизведет его с вашим лицом за вас. Я думаю, что, для того чтобы не погрузиться в хаос в ближайшее время, страны будут продумывать регулирование, может, введут уникальные цифровые токены, которые будут маркировать реальные и сгенерированные видео. Например, в тиктоке ролики, созданные при участии нейросетей, уже помечаются как „AI-generated content“. Нам просто нужно научиться с этим жить — как с частью цифровой гигиены нового поколения».

Расскажите друзьям