Вышла новая версия Midjourney. Картинки (и наконец человеческие пальцы на них) стали реалистичнее

16 марта 2023 в 18:14
charismactivist/Reddit

Разработчики нейросети Midjourney, переводящей текст в изображения, представили ее новую версию — V5. Сообщение об этом появилось в социальных сетях проекта.

Для активации версии необходимо перейти в настройки (опция Settings) и выбрать пункт MJ, затем — MJ version 5. Второй вариант — указывать «--v5» в конце текстового запроса. По умолчанию все еще работает предыдущая версия.

Среди нововведений указаны более отзывчивый промтинг (нейросеть теперь более внимательна к вводимым словам и их сочетаниям), более тщательная работа с загруженными в качестве образца картинками, вдвое большее разрешение изображений, увеличенная детализация и «более широкий стилистический диапазон».

«Это альфа-тест, все поменяется. Не полагайтесь на то, что именно эта модель будет доступна в дальнейшем. Мы значительно изменим ее, когда доведем V5 до полной версии», — указывают разработчики.

Как результаты выглядят на практике? Пользователи отмечают, что в данный момент при одинаковых запросах к V4 и V5 вторая генерирует более фотореалистичные изображения — повседневные, не художественные.

Midjourney V4 (слева) против V5 в альфа-версии

Сама компания говорит, что такой визуал останется базовым и после финального релиза V5, но у пользователей появится возможность переключиться на более «сырой», как описывают его разработчики, вариант.

Ряд юзеров отмечает, что если у V4 стилистика аналоговая, теплая, то у V5 кадры зачастую безжизненные — при этом более детализированные, точные, четкие.

Ниже пример запроса к обоим алгоритмам, который звучит так: «Full body shot, princess Leia as a fierce and powerful pirate, realistic» (в переводе — «Запечатленная во весь рост принцесса Лея, показанная как сильный и жестокий пират, реалистично).

«Особенность здесь в том, что она [новая версия нейросети] может оказаться сложнее в использовании. Короткие запросы могут не сработать. Стоит написать более длинный и конкретный текст о том, что вы хотите увидеть», — говорят в Midjourney.

Один из важных моментов: к пятой версии Midjourney научилась более адекватно изображать человеческие пальцы — ранее люди на сгенерированных изображениях могли быть шести- и четырехпалыми, сами фаланги были неестественно искривлены или вообще плохо прорисованы.

Сроки релиза V5 в окончательной версии пока не оглашаются. Предыдущие итерации Midjourney, помимо прочего, успели перенести героев «Игры престолов» в американский ситком 1990-х, сделать Чебурашку Джокером, нарисовать вселенную «Гарри Поттера» в стиле Миядзаки, а советские агитплакаты перепридумать в ретрофутуристичном ключе.