Главная/ Статьи/ Нейросеть – инструмент или конкурент?
Нейросеть – инструмент или конкурент?

Нейросеть – инструмент или конкурент?

Интервью с Александром Елиным

Александр Елин широкой публике известен прежде всего как автор текстов группы «Ария» (достаточно вспомнить хотя бы «Воля и разум»), а также концертный поэт (то, что теперь называют «стендапер»). Но он также был создателем и таких проектов, как группы «Примадонна», «Харизма», «Поющие вместе», «Рабфак», «Крем Марго» и ряда других.

Последнее время Александр активно занялся совершенно другим делом – созданием песен с использованием искусственного интеллекта. Пока за образец стиля он взял свой же старый проект «Рабфак», но предполагает и работы с другими стилями. На своем канале в YouTube он разместил уже не один десяток песен, и надо признать, что даже искушенная публика часто принимает работу автора с нейросетью за живое пение и игру. Но задачи Александра Елина далеки от развлечения слушателей музыкальными мистификациями – свой творческий метод он считает перспективным и продуктивным.

О применении искусственного интеллекта в музыке сейчас много говорят, и мне показалось познавательным поговорить о нем с человеком, чей опыт в такой работе – один из самых успешных и обширных.

Анатолий Вейценфельд:

— Мы давно знакомы, так что будем сразу на «ты». Когда ты занялся «изготовлением песен» с помощью ИИ, это удивило и меня, и наших общих знакомых. Но меня этот опыт интересует еще и с технологической стороны, ведь звукорежиссура – тоже музыкальная технология, а «машинное обучение» – давно часть компьютерных программ для звукорежиссеров. Расскажи, на чем и как ты работаешь?

Александр Елин:

— Я работаю с программой Suno. Уже больше года каждый день посвящаю ей несколько часов, она мне очень нравится и у меня с ней полное взаимопонимание. Есть еще много программ для генерации музыки, но те нацелены скорее на прикладную музыку. На сопровождение видео, презентаций, роликов с рекламой и т.п. С ней не возникают вопросы авторских, потому что кто будет отслеживать эту музыку? Это делают только те, у кого платные профессиональные аккаунты.

— Речь именно о прикладной музыке или о, так сказать, «творческой»?

— Самая большая часть пользователей программы (а их по миру несколько миллионов) – это те, кто ожидает простенького чуда. Кто-то делает песенки или рэпчики на свои стихи, а кто-то просто задаëт тему и нейросеть генерит набор примитивно рифмованных фраз, впрочем часто не более примитивных, чем используется в попсе. На всех главных языках. Причем за «факт поэзии» может быть принята случайность, ошибка, необычный оборот, что производит впечатление живого авторства. Поскольку мы все привыкли к вторичности текста во многих жанрах, а музыку нейросеть выдаéт качественную, то результат поражает воображение новоиспеченного «сонграйтера». Но если текст песни написан профессионально – то содружество с ИИ  может восхитить самую широкую публику. Секрет в том, что музыка – родная сестра математики. При этом люди, которые заявляют, что «вашу музыку сочиняет компьютер», вообще не понимают, что делает нейросеть. По сути, я работаю с «Всемирным союзом композиторов», который превосходит среднестатистического профессионального композитора, поскольку его музыкальный кругозор намного шире, а мелодии и аранжировки он составляет почти мгновенно. Даже если мне что-то не нравится в очередном сгенерированном фрагменте, я понимаю, что в другой задаче это было очень неплохо.

При этом я могу честно сказать, что нейросеть отлично справляется с песенками, с мотивчиками, но с более серьëзной музыкой, с музыкой не развлекательной, а интеллектуальной – совсем не справляется.

— Тут ведь еще дело в том, что песня – малая форма, цикличная, «квадратная», она проще генерируется, нежели сложная разработочная форма…

— Но форму я задаю, я могу играть с формой, у меня есть несколько пока неопубликованных произведений… хотя «у меня» и «произведений» возьмем в кавычки, правильнее сказать – в моем взаимодействии с нейросетью создано несколько опусов сложной неквадратной формы, со сложными размерами, то, что я мог позаимствовать в старом прогрессив-роке, например. SUNO эту музыку знает, но она, конечно, слишком уж проста и вторична в ее имитации. Тексты хорошие – да, могут спасти дело, привлечь слушателя.

— Часто говорят, что нейромузыка не может вызвать эмоций…

— Было много случаев, когда люди слушали мои песни, и не только мои, и не зная, как они сделаны, говорили, что были растроганы, чуть ли не плакали… Все эти «золотые последовательности» аккордов, бьющие по чувствам, давно просчитаны.

— А вот это пресловутое «машинное обучение», о котором все говорят – это ты обучаешь машину, вкладываешь какие-то паттерны, или это в ней уже есть, в ее багаже, «библиотеках» каких-то?

— И то и другое. Я вижу по результатам работы, что сеть учится – учится у меня и у всех пользователей. Когда я делал электросвинговый проект, я видел, что она вносит в него всякие интересные штуки, в партию трубы, фортепиано, она воспроизводит сама себя. Там даже есть такая функция – «персона». То есть проект персонализируется, и следующая песня звучит похоже на предыдущую, обретает стиль, узнаваемость.

— Под узнаваемым стилем понимается музыкальный материал, или звукорежиссерский аспект тоже? Появляется ли уникальный саунд?

— Да, именно так, характер звука, фактура, тембр, именно звукорежиссура – это тоже воссоздается сетью. Включая имитацию звучания инструмента знаменитого музыканта. Причем каждая следующая песня проекта еще сильнее подкрепляет единство звучания. Например, духовые во всем проекте звучат единым звуком и манерой.

— Но есть ли в этом индивидуальность?

— Конечно, это не звучит как труба Армстронга, но звучит как труба нормального коммерческого профессионала, нашедшего свой звук.

— А как с вокалом?

— Программа может петь любым голосом, включая ушедших из жизни артистов. Кроме может быть, самых раскрученных, потому что тут вступают в силу законы, авторское право, борьба артистов против использования их голоса. В программе есть встроенный Shazam, и в тот момент, когда я попробую загрузить в нее голос Фредди Меркюри, она сразу это заблокирует. Но когда я загружаю голос покойного Саши Семенова (бывший солист группы Рабфак» — прим. авт.) из вокальных сессий десятилетней давности, то он спокойно грузится, потому что его ни в каких базах, разумеется, нет. И дальше я работаю с этим голосом, сначала звучит не очень похоже, потом все лучше и лучше, это и есть машинное обучение. Но это не такое простое дело – нужно многократное обращение, запросы, постановка все новых задач. Это время, и это деньги, которые тратятся на подписку на программу, но в итоге я научил ее петь голосом Саши Семенова.

— Насколько творческим ты считаешь это занятие лично для себя?

— Очень творческим! Я в сотрудничестве с нейросетью создаю именно тот результат, которого хочу. Если не очень получается, переделываю много раз, пока не будет создано то, что меня полностью удовлетворит.

И уже случается обратное – когда музыканты говорят: «Я хочу исполнять эту песню на концертах». Песню, созданную «компьютером»! Или говорят – «в этом виде твоя песня звучит лучше, чем если бы ее играла живая группа».

— А как формируется у тебя замысел песни и работы над ней с машиной?

— Сначала текст, потом формируется общий характер, какой это будет темп, какая форма, будут ли в ней какие-то вставки, или она будет простой квадратно-куплетной. А мелодия уже заложена в стихах, в размере.

Это относится и к стилю. Вот есть такая всем известная бардовская песня «Милая моя, солнышко лесное». И я подумал – а как бы она прозвучала в стиле «мерси-бит»? Не конкретно «Битлз», а вообще британских групп начала 1960-х.  Полдня работы, и получилось. Причем мелодия была немного изменена, но это не ощущается. В результате вышел интересный кавер на старую песню, но очень органичный. Я продолжил эту затею, и сейчас у меня есть целый альбом, где бардовские песни звучат в стиле ВИА «Веселые ребята» со всеми их характерными голосами. Или иначе говоря – ранняя британская группа, но поющая по-русски. Но он пока ждет своего часа, его никто не слышал.

— Мы застали русские группы, поющие по-английски, и поющие плохо, да они есть до сих пор…

— Тут надо вот что сказать. Нейросеть делает «фирменное» звучание гораздо лучше, чем это делали наши композиторы и аранжировщики, потому что наши были все-таки самоучками. А нейросеть училась на фирменных образцах классического рока и поп-музыки, и она в итоге звучит по-русски, но более фирменно.

— Недавно к протестам против использования нейросетями их голосов присоединились Пол Маккартни и Элтон Джон, они выступили с заявлением…

— Это не компьютерный, а юридический вопрос, и он будет решаться каким-то образом. Есть разные примеры. Вот есть такая группа Famous Groopies – они сочиняют свою оригинальную музыку, но при этом тщательно копируют тембр голоса Маккартни и саунд его аранжировок. Но с точки зрения авторского права это их музыка, а не его. А сколько подражателей AC/DC, Queen и других – десятки! Есть группа, исполнявшая кавера Queen, а потом ставшая исполнять свои песни, но абсолютно в той же манере. С юридической точки зрения плагиата тут нет.

— Потому что исторически так сложилось, что «плагиатом» в музыке считается заимствование только мелодии, то есть линейной одноголосной последовательности. Остальные компоненты музыкальной фактуры не охраняются…

— И именно их и передирают. Особенно в прикладной музыке. Но хочу отметить, что большинство моих знакомых музыкантов не воспринимают нейросеть как угрозу для себя, а скорее как новый инструмент для творчества, с чьей помощью можно продвигать свои идеи. Нейросеть никак не угрожает живым музыкантам, хочу это акцентировать! Она не заменит живого импровизирующего гитариста или «теплую аналоговую» певицу на сцене, потому что они транслируют свои прямые эмоции слушателям без всякого электронного канала. А у нейросети другие задачи, в том числе помощь музыкантам, ускорение и облегчение их работы и т.п. Нейросеть помогает музыканту быстро проработать варианты звучания, быстро сделать демо. И если песню, сочиненную в соавторстве с ИИ, поëт со сцены живой исполнитель – ни один эксперт в зале не догадается, что при создании номера использовали ИИ.

— Сейчас встречаются разные созданные ИИ фонограммы, где голосом известных артистов, например, Высоцкого, «исполняются» песни, которые они в реальности не пели и не стали бы петь. Практика, увы, довольно некрасивая. Нейросеть еще не умеет защищать голоса артистов?

— Это пока не ее функция, она это не умеет, но защита такая возможна, но она иначе делается, не через сеть. Возможно другое – я возьму песню Пугачевой, выделю ее голос, по этому голосу создам голосовую модель для «нейро-Высоцкого», научу его петь эту мелодию, напишу новый текст, и «Высоцкий» споет мой текст на мелодию Пугачевой в ее аранжировке. Для этого даже не нужна нейросеть, и вообще интернет, это все можно сделать на автономном компьютере. Поэтому никакой Shazam не в курсе, что такой песни нет, и не препятствует выкладывать это в сеть, например, в YouTube. Но там правила предписывают указать, что данная песня и фонограмма создана ИИ. Правда, мало кто обращает внимание на этот значок…

— И все же – в чем разница в работе музыканта и ИИ?

— Искусственный интеллект занимается ровно тем же, чем и музыкант. И если есть претензии, надо начинать с музыкантов. Ведь в чем их обычно обвиняли? «Украл мелодию». Но при работе с ИИ кражу не допустит Shazam. Мелодия разбирается на идентифицируемые коды, и их потом распознает робот, и включает запрет. Если ты чем-то занимаешься для себя, то пожалуйста, но если пытаешься загрузить песню в коммерческие платформы, агрегаторы и стриминги, то робот сразу опознает ее как чужую и говорит тебе – «ты украл». Поэтому для автора типа меня важно провести грамотный паблишинг, «нанять овчарку», которая будет охранять мои права.

— Пока что массовый музыкальный продукт, созданный с помощью ИИ, не поражает художественными достижениями…

— Потому что люди ленятся поработать с сетью «в глубину», потратить больше времени, сил, нервов, вот очень средненький результат и вызывает у них восхищение, хотя он на троечку, но они радуются, что не на единицу…

— Надо еще и понимать, что нейросеть экономит время…

— Еще бы! И, кстати, нервы тоже. Как продюсер я много раз собирал группы, и это было каждый раз проблемой – это девочка не может так петь, эта не хочет, там мальчик гитарист не понимает, чего от него хотят и т.п. Но я эти проекты реализовывал, несмотря ни на что. Но представь, каких сил это стоило!

— Хорошо представляю, ведь однажды я тебе для такого проекта прислал отличную вокалистку…

-Да, и мы с ней прекрасно поработали, но недолго, но песни живут и человеческие отношения остались прекрасными. А теперь мне никто не нужен, кроме меня самого, я придумываю концепцию, я контролирую результат, я исправляю все ошибки, и этот результат полностью устраивает меня. Есть прекрасные музыканты, я с ними дружу, но они все равно что-то будут делать по-своему, а нейросеть делает все по-моему. Нет большего счастья для человека, который занимается творчеством, чем получить результат, который полностью соответствует его замыслу!

— А есть ли у тебя какие-то юридические проблемы в твоем творчестве?

— Никаких! Программа, в которой я работаю, защищается от судебных исков сама. Я покупаю платный аккаунт, заключаю договор оферты, что программа не подсунет мне чужую музыку, и для программы я считаюсь автором музыки. Как известно, в истории поп-музыки были случаи, когда кто-то сочинял мелодию, которая уже существует, он неосознанно ее вытаскивал из подсознания. А потом иск, суд, компенсации…

— Видимо, не надо слушать чужую музыку, ничего и не прилипнет. Шучу, конечно… А теперь про то, что интересно для читателя журнала «Звукорежиссер» – собственно саунд. Это тоже ты?

— Да, я еще и саунд-продюсер. Я не играю на инструментах, не двигаю фейдеры микшера, но я определяю общее звучание и его характер. Не то чтобы я говорил программе сделать басы погромче, в этом практически нет нужды, там изначально нормальный баланс, но я могу запросить изменить настроение. Главное, что сеть учится, и то, что год назад казалось замечательным, уже не впечатляет, потому что мы с программой идем вперед. За год – огромный скачок. Уже скоро я смогу заставить своего виртуального «вокалиста» спеть мягче или жестче, а потом – более или менее «душевно». А какими будут следующие возможности, пока и представить трудно, даже мне, хотя я каждый день работаю с программой.

— А голоса, тем более на русском языке – это модели, имеющие реальные человеческие прототипы, или это сгенерированный полностью виртуальный «робот»?

— Программа не раскрывает такие вещи, но где-то в корнях системы были реальные вокалисты. Возможно, компания-производитель провела кастинг, записала голоса, и получила право на их использование. Например, я использую пять и более разных голосов, хотя они довольно похожи. Но мне нужен рóковый тип голоса, и их там много.

— Итак, каков ответ на вопрос, прозвучавший в заголовке?

— Искусственный интеллект – конкурент для халтурщиков и лабухов, и инструмент для творческих людей.

В нашем разговоре Александр Елин уклонился от ответов на конкретные технологические вопросы по его алгоритмам работы с нейросетью, но это и понятно – каждый творческий человек сохраняет свои «ноу-хау», это сфера его профессиональной деятельности, и время давать мастер-классы еще не пришло. Мы с пониманием относимся к его решению, тем более что разговор и без того оказался очень познавательным.

Если у наших читателей также имеется опыт по музыкальной и звукорежиссерской работе с искусственным интеллектом, мы будем рады представить их на сайте журнала!

#Назад в Статьи