Использование нейросетевых технологий в работе звукорежиссера с музыкальной фонограммой, Часть 1

Статьи

27 февраля 2026

Автор: Алексей Быстрых

От редакции. Использование в индустрии звукозаписи нейросетевых технологий, часто именуемых в прессе «Искусственным интеллектом», стало быстро растущей практикой в самые последние годы. Вокруг темы идет много разговоров, множатся слухи, мифы и досужие рассуждения. При этом мало кто достоверно представляет себе на техническом уровне, что собой представляют эти технологии на деле, каковы их возможности и особенности, как их можно использовать, какие возникают проблемы с их применением. И, что особенно важно – каковы требования к специалистам, планирующим работать с нейросетью в звуке.

Наш журнал уже публиковал интервью с практикующим коммерческим пользователем нейросетевых технологий автором песен Александром Елиным, но настало время для фундаментального взгляда на тему.

Технологические предпосылки использования нейросетей в работе звукорежиссера с музыкальной фонограммой

Работа звукорежиссера с музыкальной фонограммой всеобъемлюща и охватывает множество этапов, от записи материала до его микширования. Современные технологические условия предъявляют новые требования к работе с музыкальной фонограммой.

Чтобы понять, какими задачами руководствуется звукорежиссер в применении современных технологий, необходимо понимание изменений в потреблении информации слушателем. Потребительские привычки претерпели значительные изменения – начиная от изменения бытовых устройств прослушивания до трансформации культуры восприятия музыкальной фонограммы: громкостей, изменения формы реализации единиц творческого контента. Изменение потребительских привычек существенно повлияло на работу звукорежиссеров: эта трансформация проявляется в ряде ключевых аспектов, напрямую затрагивающих как художественные, так и технические стороны звукового производства. Во-первых, диверсификация систем домашнего прослушивания ставит новые задачи для звукорежиссера, заключающиеся в обеспечении адаптивности и целостности звучания на всех возможных платформах, в том числе внедрение техники кроссплатформенного мониторинга в процесс перезаписи для стриминговых платформ.

Еще одной, не менее важной проблемой стало внедрение нормализации уровня громкости стриминговыми сервисами, которая предопределяет необходимость точного соблюдения норм площадки во время перезаписи материала для платформ. Игнорирование этих норм может привести к нежелательной обработке звука автоматическими алгоритмами платформы, что отрицательно сказывается на художественном восприятии фонограммы. Так, в случае сдачи фонограммы на платформу YouTube, рекомендуемая громкость составляет -14 LUFS с ограниченным динамическим диапазоном, поскольку платформа активно внедряет технологию Stable Volume для обеспечения равномерной громкости программы. Процесс приемки фонограммы сервисами усложнился, поэтому звукорежиссеру необходимо эффективно использовать имеющийся инструментарий для реализации технических требований онлайн-сервисов.

Также влияет изменение культуры восприятия громкостей. Феномен «войны громкостей» – тенденции в музыкальной индустрии, направленной на постепенное увеличение громкости музыкальных записей, уменьшение динамического диапазона и, по заявлениям экспертов, изменение качества звучания – повлиял на восприятие музыкальной фонограммы в кинематографе и в итоге стал одним из факторов, напрямую влияющих на работу современного музыкального звукорежиссера. На радио принято считать, что более громкие фонограммы привлекают больше внимания слушателей и кажутся более качественными вследствие влияния кривых равной громкости. При прослушивании одной музыкальной фонограммы с одной громкостью, а затем другой музыкальной фонограммы того же жанра на 3 LUFS громче, слушатель чаще считает вторую фонограмму более «качественной», в отличие от первой. В связи с этим, существует закономерность постепенного увеличения громкости музыкальных фонограмм, особенно эта тенденция заметна в разных версиях одного и того же трека, мастеринг которых сделан в разные годы. Так, история песни группы Rolling Stones «Rocks Off» 1972 года является одним из примеров постепенного увеличения громкостей. Интегрированная громкость записи 1972 года составляет -13.9 LUFS с динамическим диапазоном 6.2 LU, версия 2010-го года – -7.5 LUFS с динамическим диапазоном 5.8 LU.

Рисунок 1 – Форма волны музыкальной фонограммы «Rocks Off». Снизу – версия 1972 года, сверху – 2010 года

Существует множество негативных последствий войны громкостей. Снижение динамического диапазона делает фонограмму менее контрастной и выразительной. Избыточная компрессия произведения может привести к искажениям и снижению общей чистоты звучания. Так произошло с музыкой группы Red Hot Chili Peppers в 2000-х годах с релизом альбома «Californication» – звукорежиссер Джим Скотт участвовал в войне громкостей, и в одноименном треке слышатся искажения нехудожественного характера, произошедшие в результате применения динамических приборов обработки. Постоянная высокая громкость контента также приводит к «слуховой усталости», перегружая слуховую систему и приводя к утомлению и снижению удовольствия от прослушивания музыки. Таким образом, культура восприятия видоизменяется: слушатели привыкают к музыке с уменьшающимся динамическим диапазоном, вследствие чего появляется необходимость согласовывания ожидания слушателя с музыкальной фонограммой.

Затронем еще один параметр, также необходимый для понимания современных методик работы с музыкальной фонограммой – спектральный баланс (в общепринятой терминологии «тональный баланс» – прим. ред.). Характер звучания музыки изменился со временем. С помощью цифровых инструментов можно увидеть и проанализировать спектральный баланс некоторых произведений, которые были популярны в разные годы. Спектральный баланс – это параметр, описывающий, насколько равномерно распределяется количество энергии по частотному спектру. Фонограмма, имеющая ровное распределение воспринимаемой громкости по частотам, как правило, более приятна для нашей слуховой системы. Современные инструменты, о которых пойдет речь далее, помогают точно анализировать баланс музыкальной фонограммы и определить, как менялась популярная музыка с течением времени. В частности, в 1960-х годах в записях на магнитофонах ощущался явный недостаток высоких частот – так это воспринимает современный слушатель в связи с изменением потребительских привычек. Со временем сохраняется больше высоких частот благодаря улучшению записывающих устройств и появлению новых жанров. После фестиваля в Вудстоке в конце 60-х началось новое десятилетие музыки: наблюдаются некоторые тенденции в спектральном балансе записей 1970-х, которые являются прямым ответом на продукцию предыдущей эпохи, в частности, увеличение количества высоких частот для компенсации ограничений в звукозаписи. Используя эквалайзер, инженеры попытались сделать звучание записей более открытым и четким, выделив область 7 кГц и выше, что можно увидеть, например, в песне «Superstition» Стиви Уандера. В треке, удостоенном премии Грэмми, видны заметные изменения в этой области. Если обратить внимание на современные тенденции, явно прослеживается акцент на низкие частоты, ввиду популярности хип-хопа и его разновидностей – заметна тенденция к увеличению низких частот в спектре современной музыки. Однако частоты выше 7 кГц также претерпели значительные изменения в сравнении с фонограммами конца ХХ века. В современных треках частотный диапазон 5…12 кГц преобладает, что сильно влияет на потребительскую привычку распознавания современной музыки.

Самое главное для понимания работы звукорежиссера с музыкой сейчас – это быть открытым и адаптироваться к изменениям вкусов аудитории и современных инструментов для работы с музыкальной фонограммой.

Звукорежиссер студии звукозаписи Мосфильма Анатолий Рясов как-то сказал, что «музыкальная звукорежиссура – это перевод музыкального произведения на технический язык». Этот перевод в современном мире невозможен без знания технологических тенденций и вкусов слушателя. Звукорежиссер, не обладающий знаниями о потребительских привычках и культуре слушательского опыта, не адаптируется к существующим реалиям рынка. Тенденция к ускорению производства подталкивает развитие технологий, позволяющих звукорежиссеру быстрее работать и детально управлять звуковым сигналом, что ранее было затруднительно или невозможно.

Традиционные подходы в области звукорежиссуры не всегда позволяют оперативно адаптировать музыку под различные форматы вещания или внести драматургически необходимые изменения в музыкальный материал без потери качества – в то время, как нейросетевые технологии предлагают эффективные решения для работы с музыкальной фонограммой. Нейросетевые инструменты позволяют автоматизировать отдельные этапы производства, повысить точность обработки и главное, расширить творческий потенциал звукорежиссера, что подробно рассмотрено в следующем разделе.

Характеристика и области применения нейронных сетей

Развитие нейронных сетей и применение в различных областях знания

Нейронная сеть – это иерархически организованная вычислительно‑математическая структура, представляющая собой упорядоченное множество взаимосвязанных искусственных нейронов, каждый из которых реализует нелинейное преобразование входной информации. Данные проходят через сеть взаимосвязей, устроенную подобно нейронам человеческого мозга. Каждое соединение имеет «вес» – число, показывающее, насколько сильно один искусственный нейрон влияет на другой. Во время обучения эти «веса» постепенно корректируются: если два нейрона активируются одновременно, их связь усиливается; такой механизм повторяет принцип работы синапсов (место контакта между парой нейронов в биологии – прим. ред.) и позволяет сети шаг за шагом точнее решать поставленные задачи.

В случае, если модель корректно идентифицирует объект, ее параметры остаются без изменений. Однако при ошибочной классификации алгоритм вносит корректировки в весовые коэффициенты – внутренние параметры, определяющие характер отклика нейрона на входной сигнал. Этот процесс повторяется многократно, пока модель не достигнет устойчивого уровня точности на обучающей выборке и не перестанет систематически ошибаться.

На следующем этапе осуществляется тестирование модели с использованием новых, ранее не встречавшихся данных. Это позволяет оценить обобщающую способность модели, то есть ее умение корректно классифицировать данные, не входящие в обучающую выборку.

На практике процесс существенно более сложен: он включает в себя работу с многомерными признаковыми пространствами, настройку гиперпараметров, использование функций активации, алгоритмов оптимизации и других элементов, обеспечивающих устойчивость и точность нейросетевой модели.

Метод обратного распространения ошибки заключается в следующем: представим, что системе необходимо научиться различать рукописные цифры от 0 до 9. Вначале она получает набор образцов‑эталонов: по ним сеть выстраивает внутренние правила, а затем, опираясь на них, формулирует собственные догадки. Каждое предположение сопоставляется с истинным значением, а разница между ними – ошибка – служит ориентиром для точной подстройки весовых коэффициентов, управляющих работой нейронов. Этот цикл повторяется многократно, пока точность распознавания не достигнет предела возможного.

До введения алгоритма обратного распространения ошибки подобная настройка была едва ли осуществима: корректировать веса вручную или эвристически оказывалось практически нерешаемой задачей. В свою очередь, появление нелинейных функций активации позволило сети отражать гораздо более сложные зависимости между входными и выходными данными, положив фундамент тому, что сегодня называется «deep learning» или глубокое обучение.

Освоив эти методы, исследователи смогли обучать значительно более обширные и многоуровневые архитектуры. В результате нейронные сети совершили рывок в точности компьютерного зрения, автоматического распознавания речи и обработки естественного языка.

В начале двухтысячных годов появились мощные графические процессоры, – а вместе с ними к исследователям пришли огромные массивы цифровых данных. Это стечение обстоятельств породило современную эпоху глубокого обучения. По‑настоящему крылатым термин «Deep Learning» стал лишь в 10‑е годы нашего века: тогда первые публикации и демонстрации показали, насколько впечатляющую точность можно получить, обучая многослойные сети на больших объемах информации.

Искусственная нейронная сеть (ИНС) представляет собой математическую модель, построенную по аналогии с организацией и принципами функционирования биологических нейронных структур. Основная цель данной модели направлена на решение задач, требующих анализа, обобщения и классификации информации, в том числе в контексте обработки аудиовизуальных и музыкальных данных.

Характеристика нейронных сетей, принцип работы, отличие от иных программных методов анализа информации

Структурно нейросеть состоит из совокупности формальных нейронов, вычислительных единиц, объединенных в иерархические уровни, называемые слоями. Наиболее простая архитектура включает три типа слоев.

— Входной слой, на который подаются исходные данные, например, числовые представления аудиосигнала, изображения, текстовые запросы и прочее;

— Выходной слой, формирующий итоговый результат обработки;

— Скрытые слои, располагающиеся между входным и выходным, и осуществляющие нелинейное преобразование входной информации. Они служат для выделения признаков различной степени абстракции и сложности. Чем больше число таких слоев, тем выше потенциал модели к представлению сложных закономерностей и зависимостей. Если в архитектуре присутствует более одного скрытого слоя, такая нейронная сеть квалифицируется как «глубокая», при наличии только одного скрытого слоя модель считается неглубокой.

Существует множество различных моделей нейронных сетей, однако рассмотрим наиболее часто используемые алгоритмы в контексте аудиопроизводства.

Сверточные нейронные сети (CNN)

Сверточные нейронные сети, или Convolutional Neural Networks, представляют собой класс глубоких нейросетевых архитектур, специально разработанных для обработки данных, обладающих локальной структурой, в частности двумерных матриц, например, изображений или спектрограмм аудиосигналов. Их ключевая особенность заключается в способности эффективно извлекать иерархически организованные признаки из входных данных путем применения сверточных фильтров, выявляющих устойчивые связи в локальных участках сигнала.

Такие нейронные сети могут анализировать в графических файлах пиксели, которые находятся близко друг к другу и содержат непрерывную информацию, например, яркость или оттенок. Так, если в спектрограмме нейросеть видит непрерывный тон, то и в стоящих рядом пикселях она сможет отличить его от другой звуковой информации.

В области аудиопроизводства CNN используются для анализа спектральных представлений звука, где вертикальная ось соответствует частотному распределению, а горизонтальная – временной шкале. Особенно эффективно CNN справляются с задачами, где критично различение тембровых, ритмических или интонационных особенностей, например, в контексте анализа музыкальной фонограммы, распознавания вокальных паттернов, определения шумов, а также в задачах разделения аудиосигнала на составляющие, благодаря своей способности к устойчивости и вариативности входных данных.

Рекуррентные нейронные сети (RNN)

Рекуррентные нейронные сети или Recurrent Neural Networks – это класс нейросетевых архитектур, специально разработанный для обработки последовательной информации, в которой имеет значение порядок поступления элементов. Их ключевая особенность заключается в наличии внутреннего механизма «памяти», позволяющего сохранять информацию о предыдущих входах и использовать ее при обработке текущего элемента последовательности.

Если сверточную нейронную сеть можно представить в виде калькулятора, обрабатывающего данные и представляющего ответ, однако не запоминающего примеры до и после заданного, то рекуррентная нейросеть схожа со слухом и памятью, обрабатывающей информацию последовательно. Допустим, нейросеть должна распознать композицию в виде партитуры. Если показать сверточной нейронной сети одну ноту, она не сможет понять, относится эта нота к части песни или это все произведение целиком. Рекуррентная нейросеть обрабатывает данные по порядку, как человек читает текст, вследствие чего такой тип архитектуры позволяет эффективно обучать модели на длинных последовательностях без потери контекстной информации.

Трансформеры

Архитектура трансформеров, изначально разработанная в рамках обработки естественного языка, или Natural Language Processing, в последние годы была успешно адаптирована для решения широкого спектра задач, связанных с анализом и генерацией аудиосигналов. Ключевым компонентом трансформеров является механизм «внимания», позволяющий учитывать контекст всей входной последовательности при формировании отклика на каждом ее элементе.

Главной отличительной особенностью такого типа архитектуры является более глубокое понимание связей. В отличие от рекуррентных нейронных сетей, трансформеры могут анализировать контекст целиком, вне зависимости от порядка. Представим себе предложение: «Катя дала Саше яблоко, потому что она не голодна». Трансформер использует механизм внимания и определяет, к кому относится слово «она», взвешивая, какие слова важны, и определяя, что «она» относится именно к Кате, поскольку та была не голодна.

Иными словами, главное отличие от рекуррентных и сверточных моделей – способность обрабатывать длинные и неоднородные последовательности без необходимости в пошаговой передаче состояния, что важно в контексте аудиоанализа, где структура сигнала может охватывать значительные промежутки времени. Это свойство делает трансформеры особенно эффективными при работе с музыкальными и речевыми структурами, характеризующимися сложными зависимостями и высокой вариативностью. Так, например, трансформеры эффективно формируют музыкальный материал с учетом стиля, структуры и жанровых особенностей.

Автокодировщики (Autoencoders) и вариационные автокодировщики (VAE)

Автокодировщики, или «Autoencoders», и их вероятностные расширения, «Variational Autoencoders», представляют собой архитектуры, предназначенные для создания компактных представлений входных данных путем их реконструкции. Эти модели обучаются воспроизводить входной сигнал после прохождения через узкое «бутылочное горлышко» — слой с пониженной размерностью, принуждающий сеть извлекать наиболее значимые характеристики сигнала. В контексте обработки аудиовизуальной информации, данная особенность позволяет эффективно представлять аудиосигналы в сжатом, но информативном виде, а применение автокодировщиков в музыкальных задачах охватывает как анализ аудиоданных, так и синтез новых звуков.

Иными словами, автокодировщик – это алгоритм, позволяющий запоминать суть той или иной информации, а после воссоздавать ее по компактному представлению. Процесс состоит из двух этапов – кодирования и декодирования.

Вариационный автокодировщик позволяет «распределять» информацию. Если автокодировщик может представить объект в виде набора данных, вариационный кодировщик добавляет к данным поле допусков для возможности генерации нового материала на основе входных данных. К примеру, автокодировщик запоминает, как рисовать кота, и способен воспроизвести рисунок. Вариационный автокодировщик запоминает, как выглядят коты, и может нарисовать новых, несуществующих котов.

Генеративно-состязательные сети (GAN)

Генеративные состязательные сети, или Generative Adversarial Networks представляют собой класс архитектур, ориентированный на синтез высокореалистичных данных, например, аудиосигналы различной природы. Методика GAN базируется на двухуровневом обучении, в рамках которого взаимодействуют две модели – генератор и дискриминатор, обучающиеся в состязательном режиме.

Генератор отвечает за создание синтетического аудиоматериала, стремясь сформировать такие выходные данные, которые по своим характеристикам максимально приближены к реальным аудиосигналам из обучающего набора. В свою очередь, дискриминатор выполняет задачу классификации, пытаясь отличить реальные аудиоданные от сгенерированных. Обе сети обучаются одновременно: генератор совершенствуется для того, чтобы «обмануть» дискриминатор, тогда как дискриминатор обучается все точнее различать искусственные и реальные сигналы. Этот процесс реализует двустороннюю оптимизацию, которая приводит к прогрессивному повышению качества синтезируемого материала.

Использование нейросетевых технологий в работе звукорежиссера с музыкальной фонограммой

Характеристики музыкальной фонограммы

Какие же характеристики музыкальной фонограммы подвержены изменению? EBU – Европейский Вещательный Союз – разработал документ «EBU Tech 3286-E», в котором перечислил и описал «Методы субъективной оценки качества звукового программного материала». (Рекомендация EBU Tech адресована только к телерадиовещателям и не распространяется на звукозаписывающие компании и другие области аудиопроизводства – прим. ред.). В частности, в нем раскрываются требования к выбору тестовых произведений, регламентируются акустические условия прослушивания, а также определяются критерии и шкалы для оценки качества звучания. Он используется вещателями для оценки и обеспечения качества звукового контента. Документ разработан специально для оценки многоканального звука. Приводятся определения основных параметров, таких, как акустический баланс, акустический шум, искажения и другие.

Однако, помимо параметров, традиционно применяемых для субъективной оценки качества звукового программного материала, существуют и иные представления о параметрах музыки, о ее форме и содержании, известных из учебников теории музыки: высота, длительность, громкость и тембр.

К другим немаловажным характеристикам музыкальной фонограммы относятся ритм, темп, мелодия, гармония, фактура, регистр и размер. С этими и другими вышеперечисленными параметрами музыки звукорежиссер имеет возможность работать с применением нейронных сетей. Для работы с современными технологиями необходимо учитывать форму, ритм, темп, гармонию и структуру произведения. Современные технологии работы с музыкальной фонограммой позволяют не только быстро и эффективно манипулировать техническими аспектами музыкального произведения, но и видоизменять произведение до неузнаваемости.

Анализ музыкального произведения возможен не только эмпирически, но и технологически. Так, при сравнении двух записей посредством изучения их спектрограммы, можно найти их сходства и различия, а благодаря измерителям уровня возможно определить, какая музыкальная фонограмма громче или тише. Такой вид анализа позволяет улавливать математические закономерности, которые впоследствии лягут в основу теоретического знания нейронных моделей.

Инструменты, использующие нейросети при работе и их категоризация

Прежде, чем рассмотреть актуальные инструменты на основе нейронных сетей, необходимо структурировать такие инструменты для удобства восприятия информации. Так как на сегодняшний день не существует общепризнанных категорий таких приборов обработки в области звука, предлагаю использовать систему, категории которой будут основаны на назначении (задаче) таких инструментов, а подкатегории – на архитектуре (строении) нейронной сети, лежащей в основе разработки инструмента. Предлагаю использовать следующие категории инструментов с использованием нейросетей:

Генеративные – нейросетевые модели, использующие принципы создания нового звукового сигнала.

Транскрипционные – инструменты, позволяющие преобразовывать звуковой сигнал в MIDI-партитуру.

Сепарационные – инструменты, позволяющие разделять музыкальную фонограмму на составляющие (например, на вокал, барабанную установку, бас, прочие инструменты)

Реставрационные – пространственные, динамические, тембральные приборы обработки звукового сигнала на основе нейронных сетей, а также инструменты, направленные на реставрацию звукового сигнала.

Гибридные – инструменты смешанного типа.

Предлагаю использовать следующие подкатегории инструментов на основе архитектуры (строения) нейронной сети, использованной для их создания:

CNN/RNN – нейронные сети, использующие спектрограммы (STFT, Mel и другие) аудиосигнала, а также сверточные или рекурректные слои (LSTM/GRU) для извлечения схожих и/или различающихся признаков.

Transformer – нейронные сети, использующие архитектуру с механизмом self-attention для генерации аудиосигнала.

GAN/Диффузионные модели – нейронные сети, использующие алгоритмы для обработки и/или генерации аудиосигнала.

Raw Audio – модели, работающие с формой волны напрямую.

Гибридные модели – смешанный тип архитектуры

VAE Автокодировщики – архитектура, использующаяся для обучения латентных представлений, морфинга между инструментами.

Звукорежиссеру важно постоянно отслеживать, какие актуальные инструменты для работы с музыкальной фонограммой существуют на данный момент, так как они могут быть не только эффективной заменой устаревшим инструментам, но и привнести новые концептуальные изменения в работе звукорежиссера. Такой подход поможет ближе познакомиться с современными тенденциями в области инструментов на базе нейронных сетей, и необходим для изложения методики и практики работы с этими инструментами и множеством других.

Инструменты на базе нейронных сетей сгруппированы по категории их применения, в начале каждого из блоков дана общая информация о возможностях таких инструментов, их отличительных особенностях, а, главное, об их практической пользе для звукорежиссера, работающего с параметрами музыки.

Генеративные нейросети

Генеративные нейросети разработаны для автоматического синтеза звукового материала. Их основная задача заключается в создании новых музыкальных или звуковых фрагментов, не просто копируя уже существующие референсы, а генерируя оригинальные комбинации на основе выявленных в процессе обучения закономерностей. Модель анализирует музыкальные произведения, аудиотреки, MIDI-файлы и необработанные многоканальные записи. На этом этапе она «изучает» закономерности: ритмические, гармонические, тембровые, структурные и другие. Затем нейросеть вырабатывает внутренние правила и логические связи между звуковыми событиями – аккордами, мелодиями, гармониями, динамикой, пространством, пользователь задает начальные условия (стиль музыки, структуру, текст песни и множество других параметров), а модель синтезирует оригинальный музыкальный фрагмент. Одним из примеров развития в области создания генеративных нейронных сетей является сервис Mubert, первая в мире платформа для генерации музыки.

Создатель сервиса Mubert Павел Згордан описал текущие тенденции развития нейронных сетей в области генерации музыки:

«Цель [создания генеративного искусственного интеллекта] заключалась в том, чтобы сделать взаимодействие с ИИ максимально естественным для человека. Даже если пользователь не знает музыкальной теории и не может отличить дабстеп от регги, он все равно должен иметь возможность сказать: «Хочу такой трек». И система должна понять, что имеется в виду.

Ключом к этому является промпт (запрос) – описание, на основе которого ИИ создает музыку. Чем подробнее и осмысленнее описание, тем лучше результат. Промпт может включать жанр, настроение, используемые инструменты, ноты, громкость, эмоциональный посыл, культурный контекст и даже сюжет — вплоть до драматургической структуры трека.

Сейчас много внимания уделяется генерации музыкальных стемов. Обычно это четыре дорожки: ударные, бас, инструменты и вокал. Такой формат гораздо удобнее для редактирования. Использование стемов позволяет добиться лучшего баланса между контролем и консистентностью. Можно, например, заменить только один элемент композиции, не нарушая общее звучание. Это важно, потому что при полной перегенерации мастер-трека возможны нежелательные изменения в остальных частях трека. Работа с генеративным ИИ всегда сопровождается эффектом неожиданности. Даже если задать тот же промпт, результат может быть совершенно иным. Такие колебания можно уменьшить, но полностью устранить сложно».

Однако в использовании генеративного искусственного интеллекта в области музыки существуют нерешенные вопросы, связанные с авторским правом. Павел Згордан упоминает о проблеме похожести сгенерированных треков и алгоритмов Content ID: «Данные все равно ограничены. И из-за этой похожести могут быть конфликты с платными треками. Они будут на Youtube в Content ID определяться как коммерческие».

Другими словами, платформы, использующие алгоритмы распознавания (например, YouTube Content ID), могут ошибочно определять сгенерированные треки как нарушающие авторские права. Это создает правовую неопределенность даже при работе с роялти-фри контентом.

«Люди каждый день спрашивают, когда можно будет продавать треки, которые сгенерировали… Пока что мы не разрешаем продажу сгенерированной на платформе Mubert музыки», объясняет Павел.

Из-за отсутствия прав на редистрибуцию и ограничения по лицензиям моделей, использование сгенерированной музыки в коммерческих целях (а именно продажи на площадках и лицензирования с помощью лейблов) пока ограничено.

Проблема продажи музыки касается только размещения на стриминговых площадках, например, платформе Яндекс Музыка или Spotify. В остальных случаях использование сгенерированной на платформе Mubert музыки не ограничено. На вопрос, можно ли использовать генеративную музыку в фильмах, сериалах и других аудиовизуальных произведениях, Павел отвечает уверенно: «Да, это… роялти-фри музыка. Если говорить про кино, сериалы и прочее – да, потому что этично собранный датасет для тренировки нейросетей принадлежит нам». (роялти-фри, royalty free – контент, за который не надо платить авторские отчисления – прим. ред.)

В контексте профессиональной звукорежиссуры и аудиопроизводства генеративные нейросети представляют собой уникальный инструмент для автоматизации и ускорения отдельных этапов творческого и технологического процесса. Область применения генеративных нейросетей ограничена только фантазией звукорежиссера. Например, генеративные нейросети способны генерировать атмосферы, текстуры и пэды впечатляющего качества, которые в дальнейшем могут быть использованы в фонограмме. Такие модели нередко способны имитировать стиль конкретного композитора или группы.

Нельзя не упомянуть про интерактивность таких моделей – количество параметров в запросе для нейронной сети ограничено словарным запасом звукорежиссера, формирующего запрос для конкретной генеративной модели, однако даже отсутствие словарного запаса не может стать препятствием, поскольку некоторые из моделей способны понимать аудиофрагменты, напетые или сыгранные человеком, а после преобразовать в готовую мелодию или целую композицию. Масштабируемость нейронных сетей способствует их успешному использованию – можно генерировать как короткие звуковые фрагменты, так и длинные композиции на несколько минут или часов.

Если рассмотреть не менее важный юридический вопрос об авторских правах на использование музыки, сгенерированной нейронной сетью, в аудиовизуальном произведении, то ситуация варьируется от производителя к производителю. На сегодняшний день генерируемая музыка не считается объектом авторского права, поэтому такие композиции успешно проходят проверку на копирайт и приемку на различных онлайн-платформах и киносетях.

Основные представители алгоритмов нейронных сетей для создания генеративной музыки на текущий момент – Suno AI и Udio, специализирующиеся на генерации высокореалистичных вокальных и инструментальных записей. Сервисы Riffusion, Mubert и Loudly также предоставляют функционал по генерации музыки, однако уступают предыдущим алгоритмам ввиду недостаточного датасета или текущего улучшения технологической базы нейронных сетей. Krotos Studio, наиболее актуальная разработка генерационных инструментов, позволяет оперировать созданием музыки в реальном времени в рабочей станции для аудио, что выделяет разработку среди конкурентов, работающих в веб- или графическом интерфейсе.

Транскрипционные нейросети

Транскрипционные нейросетевые модели, направлены на автоматическое извлечение музыкальной информации из аудиосигнала. Эти технологии обеспечивают расшифровку звукового материала в нотную (MIDI) форму, включающую информацию о высоте, длительности, ритмической структуре и динамике звуковых событий. Современные нейросетевые модели обеспечивают высокую степень точности даже в полифонических и акустически сложных контекстах.

Современные транскрипционные модели основаны на глубоком обучении и, как правило, реализуются с использованием сверточных нейронных сетей (CNN), рекуррентных архитектур (RNN, LSTM), а также трансформеров. На вход системы обычно подается спектрограмма аудиофайла, преобразованная из временного сигнала с помощью быстрого преобразования Фурье (FFT) или мел-спектрального анализа. Нейросеть обучается выделять устойчивые паттерны, соответствующие музыкальным событиям, и классифицировать их в соответствии с обучающими метками.

Во время записи инструментальной музыки часто можно увидеть партитуру на пульте звукорежиссера для взаимодействия с дирижером и музыкантами. Но в современной практике часто встречаются случаи, когда записывающиеся не имеют музыкального образования, и звукорежиссер (при наличии музыкального образования – прим. ред.) может прибегнуть к преобразованию музыкального материала в формате цифрового сигнала в MIDI или нотную партитуру для удобства работы с записываемой композицией.

Транскрипционные нейросети также могут помочь в редактировании вокальных партий. Хотя на сегодняшний день и существует ряд инструментов для работы с интонационной коррекцией вокальных и инструментальных партий, чрезмерное использование таких приборов обработки улавливается слухом и воспринимается неестественно. Однако в скором времени разработка транскрипционных нейронных сетей поможет в кропотливой монтажной работе с высотностью вокала.

Сепарационные нейросети

Этот раздел посвящен одному из недавних прорывов в области работы с индивидуальными инструментами, а именно нейросетям, предназначенным для разделения смикшированного музыкального материала на группы, или стемы, то есть выделении отдельных источников звука (инструментов, вокальных партий, ударных, баса и т. д.) из многоканального микса. Подобные нейросети дают возможность получить раздельные аудиодорожки, что впоследствии упрощает обработку, ремикширование и анализ музыкальных произведений. То, что казалось трудной или вовсе не реализуемой на сложных композициях задачей, требующей большого количества времени, стало эффективным инструментам звукорежиссера, занимающегося монтажом, микшированием или реставрацией музыкальной фонограммы.

Для реализации музыкальной фонограммы на отдельные инструменты, современные системы полагаются на глубокое обучение и архитектуры сверточных (CNN) и рекуррентных сетей (RNN) или их комбинации. Музыкальная фонограмма анализируется как спектрограмма, где визуализируются изменения амплитуды на разных частотах во времени, затем нейросеть проходит обучение на большом наборе сэмплов «чистых» инструментальных партий и их миксов. На этом этапе формируются шаблоны частотно-временных характеристик, свойственные вокалу, басу, барабанам и другим инструментам. После выделения отдельных спектральных масок происходит обратное преобразование в аудиосигнал, и пользователь получает отдельные аудиодорожки.

При работе с архивными или низкокачественными записями данные нейросети упрощают процесс реставрации и ремастеринга, позволяя отдельным дорожкам проходить независимую обработку. Развитие такого метода, в частности, вновь открывает дорогу реставрации старых музыкальных фонограмм.

Реставрационные нейросети

С внедрением цифровой записи и редактирования музыки в виртуальных звуковых станциях, появились новые возможности для оперирования звуковыми сигналами: щелчки стало просто убрать при помощи различных приборов обработки и работе со звуковым файлам в режиме отображения спектрограммы, а большое количество появившихся разновидностей приборов обработки позволяют решать новые художественные задачи, стоящие перед многоканальным звуком и объектно-ориентированным технологическим сдвигом Dolby Atmos.

Современные технологические решения на базе нейронных сетей предлагают новые возможности: так, в традиционные приборы обработки, эквалайзеры, компрессоры и ревербераторы, производители добавляют алгоритмы, направленные на улучшение уже существующих технологий. Во многие инструменты внедряются алгоритмы искусственного интеллекта для подбора параметров, например, threshold, attack, release для компрессора, или фильтры эквализации, а также «умные» фильтры сигнала для ревербераторов, позволяющие облегчить звучащее пространство. Такие технологические внедрения воспринимаются сейчас скорее как удобные помощники звукорежиссера, и кажутся излишними в существующей практике традиционной работы с тембром, пространством и динамикой, однако тенденция внедрения нейронных сетей в различных областях применения уже привела к развитию некоторых технологических аспектов производства, в частности, дереверберационных приборов обработки, позволяющих уменьшить или избавиться от отражений в уже записанном сигнале, а также приборов, работающих с эмуляцией акустического отклика необходимого помещения. Для удобства классификации, разделим реставрационные сети на подкатегории пространственных, динамических и частотных нейронных сетей.

Пространственные реставрационные сети, в частности, позволяют оперировать отражениями звукового сигнала. Недавние разработки в области дереверберационных приборов, в частности, Acon Digital Deverberate 3, а также Waves Clarity VX Deverberate, позволяют более эффективно взаимодействовать с уровнем поздних отражений. Нейронные сети также позволяют более эффективно эмулировать реверберацию сигнала, например, известная разработка Accentize Chameleon направлена на изучение акустического отклика того или иного помещения, создавая правдоподобный пресет, а прибор обработки sonible smart:reverb имеет нейросетевую технологию фильтров реверберационного сигнала для устранения диссонансов, возникающих при наложении отраженных сигналов друг на друга.

Динамические реставрационные сети позволяют более эффективно оперировать громкостью того или иного звукового файла. Одним из наиболее известных приборов обработки, использующемся повсеместно в практике звукорежиссеров, является Black Salt Audio Silencer, использующий нейросетевые алгоритмы для гейтирования инструментов барабанной установки. Ранее, для уменьшения взаимопроникновения инструментов барабанной установки друг в друга, использовался гейт с ручной настройкой частотной области работы, значений attack и release. Однако с появлением прибора обработки, в основе которого алгоритмы машинного обучения, звукорежиссер может более точно оперировать гейтом для изолирования индивидуальных микрофонов.

Частотные реставрационные сети позволяют более точно оперировать спектром того или иного звукового файла. Так, например, инструмент Silk Vocal стал одним частых приборов обработки в практике live-звукорежиссера: Silk Vocal позволяет в режиме реального времени уменьшать резонансы звукового сигнала, что ранее в цифровой среде достигалось только инструментами, вносящими задержку. Также нейросетевые алгоритмы задействованы в эквалайзерах Gullfoss, smart:eq и других.

Гибридные нейросети

Гибридные нейросети представляют собой класс инструментов, сочетающих различные методы обработки звуковой информации в едином приборе обработки. Такие модели интегрируют принципы работы нейросетей, описанных в предыдущих разделах, для решения комплексных задач, возникающих в процессе работы над художественным образом музыкальной фонограммы посредством синтеза или генерации новых параметров музыки на доступном звуковом материале.

Одним из наиболее актуальных примеров является недавняя разработка в области изменения вокального тембра Voice.AI, основной задачей которого является преобразование тембровых характеристик в режиме реального времени. Платформа использует комбинацию генеративных алгоритмов, благодаря чему достигается высокий уровень реалистичности и естественности преобразованного тембра голоса. Neutone Morpho – еще один представитель класса гибридных нейросетей, позволяет модифицировать и создавать новые тембровые оттенки, основываясь на существующем звуковом материале, а iZotope LABS, экспериментальная платформа компании iZotope, реализует инновационные модели, способные генерировать новые тембры различных инструментов с помощью взаимодействия с уже существующими звуковыми дорожками.

Назад в Статьи