Генеративная музыка
Что это такое и когда она появилась
Это музыкальная последовательность, которая теоретически должна играть очень долго, без участия человека, но на основе заранее созданных или запрограммированных правил. Определение придумал музыкант Брайан Ино в 1995 году. Он с начала 1970-х размышлял об экспериментах минималистов с автономным звучанием, например, ему нравилось произведение «It’s Gonna Rain» 1965 года Стива Райха. В нем записан звук с двух магнитных пленок, на которых один и тот же фрагмент — проповедник сообщает о том, что скоро пойдет дождь. Поскольку пленки вращались с разной скоростью, то со временем они проигрывали этот фрагмент, но с разрывом, что создавало 17-минутное произведение, которое постоянно менялось. Если сложно слушать «It’s Gonna Rain», то у Райха есть другая композиция, которая работает по похожему принципу, но уже записанная нотами.
Ино нравилась идея, что генеративная музыка предоставляет слушателю постоянно меняющееся произведение, но также избавляет от обязанности постоянно выпускать альбомы. Из его выступления можно вывести три простых принципа.
Во-первых, композиция должна постоянно меняться. Даже в случае «It’s Gonna Rain», где всего одна фраза, композиция чуть-чуть меняется каждую секунду.
Во-вторых, она не должна повторяться. Ну или хотя бы повторяться так, чтобы слушатель это не заметил.
В-третьих, она должна длиться вечно. Ну или длиться столько времени, чтобы наблюдатель просто перестал слушать и ушел.
Сложно определить, каких музыкантов можно назвать представителями генеративной музыки. Например, у Ино есть целые генеративные альбомы, написанные на компьютере, но также есть композиция «2/1» с альбома «Ambient: Music for Airports». Она тоже является генеративной. «2/1» постоянно меняется и записана с помощью семи магнитных лент, которые вращаются с разной скоростью и воспроизводят каждый свою ноту.
Есть произведения, которые только используют генеративные методы, но сами такими не являются. Например, «In C» 1965 года Терри Райли. Это инструкция для 53 коротких отрывков, которые музыканты могут играть сколько угодно раз. Такой подход создаст произведение, которое никогда не повторится, но вряд ли создаст композицию, которая будет играть очень долго и без участия человека. Янис Ксенакис использовал алгоритмические вычисления, чтобы получить интересную мелодию, но ее дальнейшим воспроизведением занимались люди.
Некоторых современных музыкантов, к которым употребляют тег «генеративный», тоже нельзя назвать полным соответствием жанру. Например, итальянка Катерина Барбьери, использует огромную библиотеку паттернов в секвенсоре. Она проигрывает и заменяет их на ходу, чтобы записанные произведения во многом получались случайным образом и отличались от тех, которые потом исполнят на концертах. Но очевидно, что без ее участия новая музыка не будет проигрываться.
Настоящая генеративная музыка на данный момент выглядит так: это набор алгоритмов и сетей глубокого обучения, которые когда‑то получили большое количество коротких и связанных звуков в каком‑то жанре. Во время машинного обучения система пыталась предположить, какой звук должен идти дальше. Если она угадывала, то между этими звуками формировалась связь. На основе этих связей между отдельными элементами мелодии система позже собирает свой трек.
Стриминг будущего
Как генеративную музыку создают в России
Генеративная музыка будущего будет жить в приложениях, потому что она идеально вписывается в эпоху потоковых сервисов, рекомендательных систем и популярного круглосуточного стрима с чилл-хопом Lo-Fi Hip Hop Radio. Алексей Кочетков, сооснователь приложения Mubert (доступно для iOS и Android) с генеративной музыкой, рассказывает, что придумал его, когда бегал с другом и подумал, что хорошо бы иметь музыку для спорта, которую не нужно переключать и ставить на паузу. Сейчас Mubert вместе с Endel, который недавно заключил сделку с Warner Music Group на 20 эмбиент-альбомов, стал одним из главных генеративных сервисов в мире.
Разработка генеративного приложения
В 6 шагах
Команда Mubert собрала первый прототип приложения за 6–8 месяцев. Его основная часть работает до сих пор и почти без изменений, но у разработчиков ушло много времени на доработку алгоритмов, инфраструктуры и скорости работы приложения.
С прототипом команда получила инвестиции американского фонда GVA Capital и японского IT-Farm. В какой‑то момент Mubert стал приложением дня в японском App Store. «Японцы говорят, это потому что они секут фишку, потому что модные».
В первой команде было 5 человек. Кочетков занимался идеологией, дизайном и фронтендом, с ним были бэкенд-программист, музыкальный директор, который общался с артистами, администратор инфраструктуры и специалист по маркетингу.
За время доработок улучшали звук, аранжировки, наращивали инфраструктуру, базу данных, в которой сейчас до миллиона звуков. Приложение, которое в первой версии пропускало не больше 10 тысяч пользователей, после всех улучшений потянет несколько миллионов месячной аудитории.
Mubert пользуются 200 тыс. человек, к лету, после того как начнется маркетинговая компания, разработчики рассчитывают вырасти до миллиона пользователей.
«Мы негласно называем Mubert „радио для поколения Z“, потому что 70% слушателей рождены после 1995 года». Разработчики сфокусировались на том, чтобы добавить в приложение другие актуальные жанры, например фьюче-бейс, хардкор и жесткий трэп.
Mubert собирает треки почти так же, как это делает музыкант: выбирает семплы и биты из библиотеки, миксует их и добавляет аранжировки. Можно подумать, что в мире машинного обучения всю работу в приложении делает нейронная сеть. Это не так. «Нейронная сеть — это один из помощников, — объясняет Кочетков. — В моем понимании это просто один из инструментов, то же самое, что сделать сайт на Tilda». Она работает на фоне и по метатэгам выбирает из базы данных сэмплы, которые подойдут для продолжения потока.
Остальную работу выполняют алгоритмы — они смотрят на параметры сэмплов и назначают им аранжировки, тембр и другие свойства. «Чем больше этих факторов учтено, тем более живо звучит музыка», — говорит он. В распоряжении алгоритмов могут быть тысячи звуков, а могут быть и три. Генеративный трек все равно получится, правда, звучать он будет не слишком богато.
Семплы покупают у музыкантов или делают вместе с ними. Те же музыканты подсказывают, как именно должны звучать генерируемые жанры. «Где‑то музыка должна залипать, где‑то должна меняться редко, где‑то — часто, — говорит он. — Если общаемся с EDM-музыкантом, то он предлагает, чтобы тема сменяла тему, без каких‑то возвратов назад, как у Marshmello. Если это техно-продюсер, то советует делать протяжные аранжировки, где мало что происходит, но важен саунд-дизайн».
Сложнее всего сгенерировать драм-н-бейс. «Для него очень важна работа саунд-дизайнера на выходе, работа с мастер-треками, — говорит Кочетков. — Мы до сих пор его не выпустили, хотя в тестовых версиях он есть». Если совсем просто: в сгенерированном драм-н-бейсе гораздо сложнее сразу получить «плотный» и «жирный» звук.
6 мест, чтобы слушать генеративную музыку
Endel. Для тех, кому нужно расслабиться. Четыре потока практически целиком состоят из эмбиента и спокойной электроники. Названия соответствующие: релакс, фокус, сон и для ходьбы с настройкой под темп. Самое главное, что в Endel задают таймер на отключение музыки — идеально для тех, кто не любит засыпать в тишине.
Holon. Для тех, кто хочет, чтобы было почти как в том эпизоде «Гриффинов», когда Питера постоянно сопровождала музыка, или для тех, кто просто любит, когда ритм музыки попадает в темп ходьбы. Holon подстраивает стрим, учитывая темп шагов, тряску телефона, геопозицию и пульс (это если купить платную интеграцию с Apple Watch). Ощущения забавные, как минимум стоит попробовать.
Generative.fm. Для тех, кто не хочет электронной, а хочет классической музыки. На сайте разработчика Алекса Бейнтера 27 генеративных потоков, но почти все играют тихие фортепианные этюды. И это его большое преимущество — в других приложениях такого нет.
Mubert. Для тех, кому нужна бодрая музыка для работы. Есть несколько потоков: хаус, техно, что‑то в стиле Lo-Fi Hip Hop Radio, эмбиент, IDM. В Mubert самые активные потоки из всех приложений.
Ossia. Для тех, кто хочет посмотреть на будущее интерактивности. Музыканты загружают в приложение свои треки, Ossia делает из них три ремикса — тренировочный, расслабленный и вечериночный, а пользователи переключаются между ними на лету. Приложение пока дорабатывается, но идея интересная.
Brain.fm. Примерно то же самое, что и Endel, только пободрее и за 7 долларов в месяц. Разработчики уверяют, что приложение работает не просто как фоновая музыка, а как инструмент, чтобы повысить продуктивность или расслабиться за 15 минут (на сайте даже приводятся какие‑то исследования об этом в разделе Science). Забавно взглянуть, насколько оно способно улучшить продуктивность.
4 примера того, как генерации изменят индустрию
В последнем обновлении Mubert начал корректировать поток под предпочтения слушателя. Поскольку в нем нет треков, чтобы лайкать, человек будет отмечать лайком или дизлайком какой‑то момент в потоке, который ему понравился. Система запомнит, какие именно семплы и аранжировки проигрывались в этот момент, и учтет это для дальнейшей генерации. Кажется, что это мало отличается от личного плейлиста в Apple Music. Но он все же собирается из существующих треков, а генеративный поток будет создаваться для одного человека. Современные игры стремятся, чтобы у каждого сложилась уникальная история, а генеративная музыка, получается, создаст уникальный трек, которого больше ни у кого не будет.
Стриминги тоже могут пойти по этому пути. Например, сначала человек лайкнет несколько песен Адель и Джона Ледженда, а потом алгоритмы создадут для него бесконечный поток песен. Они будут похожи на Адель и Ледженда, вот только музыканты их никогда не писали. С развитием носимых технологий, например умных часов, этот поток начнет подстраиваться под частоту пульса, данные об активности с акселерометра.
Когда‑нибудь генеративный поток подключится мозгу, считает глава компании Equalum Нир Ливне, и через нейроинтерфейс научится менять музыку в зависимости от уровня дофамина и других нейромедиаторов.
А она очень нужна игровым стримерам, у которых из видео удаляют звук, если они слушали музыку, ютьюб-блогерам, которые ищут треки на SoundCloud с лицензией Creative Commons, социальным сетям брендов и вообще всей индустрии развлечений. «Как мне сказал в Америке один инвестор: „У каждого крутого чувака на районе должен быть свой бумбокс“, — рассказывает Кочетков. — Mubert это такой вот обалдевший бумбокс». Чтобы выкупить авторские права на семплы, команда сервиса покупает их у авторов, а потом добавляет в свои потоки. На данный момент что‑нибудь купить можно у 1500 музыкантов, 200 из них выкладывают новые семплы регулярно.
«Компьютерная музыка дает больший простор, — объясняет звукорежиссер и преподаватель Moscow Music School Александр Сенько. — Она снимает некоторые ограничения, например, может сыграть партитуру, которую человек не сможет исполнить физически. Или, наоборот, создать эту партитуру. Если мы пишем музыку для рояля, то не будем делать так, чтобы исполнителю пришлось одновременно нажать 20 клавиш. Это нереально. Но 20 генераторов запросто могут». Генеративный поток снимает с произведения ограничения, которые зависят от исполнителя, и оставляет автора только со своим композиторским замыслом.
Пока она им еще не является, потому что записи остаются в музыкальных сервисах, к ним всегда можно вернуться и послушать в том же виде, в котором слушали их полгода назад (конечно, если это не альбом Канье Уэста). Это больше похоже на список видео на ютьюб-канале, а не на стрим в ютьюбе. В Mubert есть инструменты, чтобы загружать свои семплы и делать из них кастомные потоки. Скорее всего, другие генеративные сервисы должны сделать что‑то похожее в будущем. Тогда музыканты станут постоянно вносить правки в свои потоки, добавлять и убирать звуки, изменять их минимально или переписывать целиком. Ничего больше не будет постоянным и финальным. Другой вопрос — хорошо это или плохо.
Казалось бы, нам должны быть неприятны генерации (но это не так)
В мире существует не только генеративная музыка, но также генеративная живопись и алгоритмическая скульптура. Иногда нам некомфортно смотреть на сгенерированное изображение, например, потому что испытываем тревогу и не понимаем, что нам показывают, или неприязнь к неестественным формам. С натяжкой это ощущение можно сравнить с теорией о том, что людям неприятно смотреть на кого‑то, кто сильно похож на человека, но на самом деле не является человеком. То есть это буквально синдромом зловещей долины, но в искусстве. Правда, с современной генеративной музыкой отвращения не чувствуется.
Возможно, дело в том, что музыка подчиняется математическим законам, считает Сенько. «Любой инструмент и любой звук в природе — это набор простейших синусоид, это физика и математика, — говорит он. — Если заложить эти физические законы на устройстве, то можно в какой‑то мере приблизиться к интересному результату». В итоге отличие генеративной музыки от генеративной живописи только в том, что визуальные образы сложнее разложить на математические понятия и законы.
Возможно, неприятным прослушивание сделают повторяющиеся элементы, например, в какой‑то момент становится некомфортно слушать стрим, где механическим голосом повторяется слово «попкорн». Но Кочетков уверяет, что и среди слушателей, и в его команде много поклонников репетативных треков, просто повторяющих один и тот же фрагмент, почти как музыка на домашнем экране PlayStation 4. Чтобы сделать такой стрим, музыканту нужно всего лишь загрузить несколько длинных семплов, которые в генерации сольются в один вечный трек.
Получается, музыканты больше не нужны?
Когда узнаешь о генеративной музыке, первая мысль, которая приходит в голову: «Сначала она заменит музыку в торговых центрах, потом оставит без работы диджеев, а затем и всех музыкантов?!» На самом деле все немного сложнее, и, скорее всего, в ближайшее время музыканты без работы не останутся.
Во-первых, это просто инструмент
К генеративному потоку стоит относится как к новому музыкальному инструменту. Кочетков предполагает, что однажды в Mubert придется придумать устройство, чтобы играть поток во время концертов. «Если создаешь музыкальный формат, то должен придумать метод, как его проигрывать: для винила уже есть микшерный пульт, для лайвов — Ableton», — говорит он. Музыкант и генеративный поток могут играть сет вместе, например, последний возьмет на себя какую‑то ритмическую структуру или одну партию. Самое важное, что это не будет статичной последовательностью звуков, потому что поток начнет подстраиваться под музыку человека, а он, в свою очередь, учтет то, что прямо сейчас делает его поток.
Это относится и к диджеям. С генерациями у них появится огромная база семплов, а они на основе вкуса, предпочтений и поисковой системы начнут составлять селекции. Для их работы как раз понадобится нейронная сеть, которая занимается категоризацией звуков. «Как человек описывает музыку? Ну например, „жирный ломаный бит“. То же самое должна делать нейросеть, — добавляет Кочетков. — Чтобы он составлял трек и такой: „Где бы найти ломаный бит?“ Чтобы он нашел что‑то в системе, нужно дать критерии».
Во-вторых, музыканты (пока) главные
И Кочетков, и Сенько сходятся на мнении, что алгоритмы пока не могут существовать автономно от музыкантов. «Музыка — это не алгоритмы, а люди, — говорит Кочетков. — Брайан Ино — отец генеративной музыки, но он звучит так круто, потому что талантливый музыкант, а не потому что он занимается генеративной музыкой». Это мнение поддерживают многие современные артисты. «Spawn не написала бы «Frontier», — говорит в интервью The Fader Холли Херндон, экспериментаторка, записавшая последний альбом «Frontier» с участием машинного интеллекта Spawn, — потому что я раньше никогда не писала что‑то вроде «Frontier».
«Генеративная музыка претерпела значительные изменения, — объясняет Сенько. — Когда ей только начали заниматься, то собирались отдать все машине. Но результат получался не очень интересный». Чтобы генерация выходила лучше, считает он, музыкант должен оставить себе свободу, чтобы вмешиваться в работу алгоритма и менять процесс проигрывания на ходу. Если послушать поток любого генеративного артиста на Mubert, станет понятно, что его не получится просто так включить и уйти со сцены на час — трек звучит слишком однообразно. И не стоит думать, что тренировка нейронной сети занимает считанные часы. Например, обучение Spawn заняло у Херндон и ее команды полгода, и это время они получали довольно скучные результаты. Но важно уточнить, что у них с самого начала не было большого набора данных — Spawn обучалась буквально вручную.
В-третьих, генеративной музыке и не нужно ничего заменять
Генерации не приведут к тому, что живые концерты со временем станут редкостью и развлечением для богатых, считает Сенько. «Думаю, они будут развиваться параллельно, — говорит он. — Компьютерные системы снимают много ограничений, но не могут полностью повторить работу музыкантов». В качестве примера он вспоминает про семплеры, которые имитировали звуки рояля, других настоящих инструментов и были популярны двадцать лет назад. Но музыкальная индустрия все же не пошла по пути имитации звуков, потому что она все равно не сможет звучать лучше обычных инструментов.
Сейчас в генеративной музыке нет вокала (если не брать в расчет этот стрим, который сутками генерирует дет-метал). Но, возможно, его имеет смысл имитировать? Генерировать голос с нуля не стоит, считает Кочетков, потому что будет звучать неинтересно. Лучше использовать семплы вокалистов. «Когда‑нибудь будет генерация голоса, тембров, инструментов, звуков, которые неотличимы от живых инструментов, — говорит он. — Но только в тот момент появится новый пласт музыки, который станет классным, а все это будет казаться синтетикой».
Но это не значит, что не будет музыкантов, которые не попробуют сгенерировать голос и заменить людей. «Моя гипотеза в том, что певцы станут лишними, — говорит The Fader Ашкан Кушанеджад, музыкант, который придумал виртуальную певицу Йону с искусственным голосом, — потому что машина сможет передать любой диапазон человеческого голоса».
В 2015 году десятилетние американцы удивлялись, как может качество изображения на VHS-кассете ухудшаться после каждого просмотра фильма. В 2018 году некоторые произведения постоянно меняются и со временем перестают быть похожими на то, чем они были несколько лет назад, например, патчи и дополнения меняют видеоигры так, что отсутствующим подолгу игрокам придется разбираться во всем заново. Брайан Ино считает, что что‑то похожее произойдет и с записанной музыкой: «Возможно, что наши правнуки с удивлением посмотрят на нас и скажут: «То есть вы имеете в виду, что вы слушали одно и то же снова и снова?»