Пользователь твиттера Дэниел Хэнли показал нейронной сети StyleGAN комиксы про унывающего кота Гарфилда, чтобы та сгенерировала собственный комикс. Вот что у него получилось.
Хэнли использовал генеративно-состязательную сеть (GAN, generative adversarial network) Nvidia: одна ее часть — «генератор» — пытается угадать, какие картинки есть у другой части — «дискриминатора», — а «дискриминатор» оценивает работу. Работа StyleGAN отличается от других GAN: во-первых, сначала она создает картинки в очень маленьком разрешении, но постепенно увеличивает его до 1024×1024, во-вторых, с увеличением разрешения GAN добавляет новые детали. Например, в малом разрешении создается поза, а в крупном добавляются локальные цвета. Таким образом, у StyleGAN появляется больше опций влиять на генерируемые картинки: она может поменять ее целиком или в деталях.
Автор считает, что «перетренировал сеть», потому что в итоге почти на всех кадрах у кота одно и то же выражение лица. Он сделал это специально, чтобы картинки на панелях были более читаемыми, иначе получилось бы что‑то вроде этого.
Yes, I may have overtrained the model. Unlike other #stylegan models I've trained, this synthesis model doesn't produce much variation if random noise is disabled (video). If noise is enabled, we get much more interesting panels, but the interpolations aren't smooth. pic.twitter.com/mEEYOjFDtt
— Daniel Hanley 🌹 (@calamardh) July 9, 2019