Эволюция реставрации звука

Статьи

28 ноября 2022

Автор: Анатолий Вейценфельд

Два интервью с Алексеем Лукиным, главным инженером-разработчиком DSP компании iZotope

Часть 2

Анатолий Вейценфельд: Итак, вышла уже юбилейная десятая версия программы iZotope RX 10, разработку которой ты возглавляешь уже длительное время. В этой версии много новаций как в области алгоритмов, так и организации рабочего пространства. На мой взгляд, это самая интуитивно понятная и интеллектуальная версия программного обеспечения для очистки звука и шумоподавления, которое когда-либо создавала iZotope.

Но, поскольку твой стаж в компании с нашего предыдущего разговора почти удвоился, давай начнем издалека, расскажи больше о своей роли в iZotope.

Алексей Лукин: Моей первой разработкой для iZotope был процессор эффектов Spectron, он был выпущен в далеком 2003 году. Примерно в то же время я начал работу над ранними прототипами алгоритмов шумоподавления, которые четыре года спустя стали первой версией iZotope RX. Моя научная специальность сочетает обработку звука и изображения, поэтому в моей кандидатской диссертации изучались сходства этих областей. RX делает редактирование звука более визуальным, позволяя исправлять звук как картинку. Мы стараемся сделать возможным редактирование звуков с помощью инструментов, похожих на инструменты графических редакторов.

Хотя RX мое любимое детище, я, будучи инженером-разработчиком цифровой обработки сигналов (DSP) в iZotope, разработал алгоритмы и для других продуктов, таких, как iZotope Ozone IRC maximizers, Radius time/pitch modification, dither, SRC, EQ и многих других.

С годами наша команда исследователей-разработчиков росла, и мне посчастливилось работать бок о бок с людьми, которые расширили мой набор навыков в таких областях, как машинное обучение (ML), встроенный DSP, пространственный звук, продвинутая математика или просто удобное программирование на C++. И теперь, когда iZotope объединил усилия с компаниями Native Instruments и Brainworx, у меня появилось еще больше возможностей учиться.

Как изменились технологии реставрации звука за последние несколько лет, и как RX 10 соответствует этим изменениям?

Тут надо учесть влияния внешних факторов. В том числе неожиданных и не имеющих к музыке никакого отношения. К примеру, во время пандемии значительная часть музыкального производства переместилась в домашние студии. Это создало новые проблемы при подготовке записей к выпуску и как следствие – к новым задачам при реставрации звука. Такие проблемы, как гул, шум, потеря частот или нежелательные ранние отражения, практически не существуют при работе в профессиональных студиях, а вот в условиях домашней записи они проявились и требуют тщательной очистки.

В то же время ряд сложных проблем за эти годы мы решили или значительно продвинулись в этих областях, например, улучшили работу функций ClickRepair и Wow&Flutter.

Еще один момент – мы сейчас являемся свидетелями бурного развития нейронных сетей, используемых для обработки звука, даже в режиме реального времени. Такие процессы, как улучшение звучания речевого диалога или разделение источников на каналы, которые всего десять лет назад было трудно себе представить, становятся широко распространенными и доступными.

Поэтому RX 10 предлагает несколько новых инструментов для очистки сложных файлов. Адаптивный режим RX Dynamic De-hum способен ослаблять гул (стационарные тональные шумы, такие как жужжание или интерференция) без предварительного анализа-«обучения», даже когда частота медленно смещается. А благодаря действию режекторных фильтров в качестве пороговых количество «звона» сводится к минимуму по сравнению со старым статическим алгоритмом. Static De-hum.

В существующей уже давно функции RX Spectral Recovery появился обновленный алгоритм машинного обучения ML (разработанный моим коллегой Шаханом Нерсесяном) Он способен восстанавливать утраченные высокие частоты в речи более реалистично, чем это было в предыдущей версии RX 9. И теперь он также может синтезировать низкие частоты, например, отсутствующий основной тон, что полезно для работы с записями Zoom-конференций, записями с сотового телефона и другими записями с обедненными низами.

Много изменений и в части оптимизации самого процесса работы и рабочего пространства звукорежиссера. Для начинающих пользователей или для тех, у кого очень мало свободного времени, существенно переработан «Ассистент реставрации» RX – теперь он способен решить больше проблем, чем раньше. Ассистент реставрации создает пользовательские наборы обработок для работы с различными типами исходного материала, такого как речь, музыка или барабаны. Ассистент реставрации теперь также доступен в качестве подключаемого модуля (plug-in) для различных программ-редакторов (Pro Tools, Logic, Cubase, Digital Performer и т.п.) в дополнение к модулю в самом приложении RX.

Одна из моих любимых функций RX 10 – это новое графическое «перо» для размытия границ изображения при работе с выделенным участком. Обновленный инструмент позволяет более гибко обозначить и выделить графически частотные области и применять в них реставрационные модули, чтобы обработанный и необработанный материал лучше сочетались друг с другом. Ширина зоны обработки частотной области регулируется с помощью слайдера «пера» подобно тому, как это делается в популярных графических редакторах.

*Улучшенное «перо» выделенной области в RX 10*

И последнее, но не менее важное: революционная функция, которая будет оценена теми, кто работает с длинными речевыми файлами – монтажерами и редакторами диалогов радио, кино и телевидения, подкастерами и пр. Модуль RX Text Navigation поддерживает текстовое редактирование, он анализирует диалог и отображает поверх спектрограммы текстовую транскрипцию с возможностью поиска. А автоматический модуль Multiple Speaker Detection (обнаружение нескольких источников звука) находит в фонограмме и помечает фрагменты речи, принадлежащие каждому отдельному говорящему. Таким образом считавшаяся десятилетиями неразрешимой проблема «эффекта вечеринки» (cocktail party effect) может быть вскоре наконец разрешена

Это поразительно, что могут технологии на основе нейронных сетей! Но наверняка ведь не все проблемы еще решены? С какими трудностями вы столкнулись при создании новой версии?

Одна из задач заключалась в том, чтобы встроить в программу некоторые из новых сложных алгоритмов так, чтобы они могли работать локально, без доступа к облаку (что запрещено во многих студиях постпродакшна). Задержка алгоритма была проблемой при разработке Adaptive De-hum (адаптивного устранения гула). Требуется пара секунд анализа, чтобы надежно отличить гул от речи. Такая задержка может создать проблему при запуске плагина в реальном времени в некоторых DAW.

Есть такая проблема! Некоторые модули при включении функции пробного прослушивания (Preview) работают в реальном времени, а некоторые, требующие сложного обсчета, задумываются, да еще как, даже на быстрых компьютерах!

Это так, но все же превью – чисто вспомогательная функция, и подождать 2-3 секунды не так страшно.

Трудная проблема, которую мы еще не решили, – это устранение ранних отражений. Наш алгоритм устранения реверберации RX Dialog De-reverb эффективен при более длительной реверберации, но короткое время реверберации, часто наблюдаемое в домашних студиях и других неподготовленных помещениях, бросает вызов его возможностям. Такие реверберации не только создают затухающие хвосты на спектрограмме, но также вводят гребенчатую фильтрацию и изменяют фазу сигнала. Мы надеемся со временем лучше решить эту проблему.

Что пользователи должны знать еще о возможностях RX, которые, возможно, менее известны?

Начну с шутки: многие люди не понимают, что RX существует и как отдельное приложение, и как набор плагинов (в зависимости от того, кого вы спросите).

Но, кроме шуток, мы хотим, чтобы RX мог органично вписаться в любое рабочее пространство, каким бы оно ни было.

Теперь вот мои любимые серьезные функции:

В меню View (Просмотр) в функции Show Channels Separately mode («Режим отображения каналов по отдельности») можно просматривать стереофайл в режиме моно и вдвое увеличивать частотное разрешение спектрограммы. пользователь может выбрать отдельные каналы для редактирования с помощью кнопок выбора каналов.

Модуль RX Deconstruct весьма полезен для полуавтоматической очистки от остаточных искажений, треска или шума типа цикады. В RX 10 его можно использовать вместе с «пером» частот для бережного исправления выбранных фрагментов.

При работе со стереофайлами я часто использую предустановку “M/S encoder-decoder” модуля RX Mixing. Это позволяет проверить, насколько похожи каналы L и R и есть ли какой-либо сдвиг во времени между ними, который можно было бы компенсировать с помощью модуля RX Azimuth. Когда запись близка к моно, я часто применяю модуль Center Extract для дополнительного подавления шума.

Когда дело доходит до экспорта результатов, можно выбрать только один канал в стереофайле, и применив в меню File функцию Export Selection, экспортировать монофонический файл только с этим каналом. Если вы экспортируете запись в форматах сжатия с потерями, таких как MP3 или OGG, RX имеет в окне экспорта уникальную функцию Prevent Clipping (предотвращение клиппирования), которая гарантирует, что ваши экспортированные файлы не обрезаются при их декодировании и воспроизведении. Это больше, чем просто «лимитер истинных пиков» (True Peak Limiter), поскольку он также устраняет клиппирование кодека, которое может произойти даже для файлов, ограниченных 0 dBTP (true peak).

Так что рекомендую использовать функцию «Предотвратить клиппирование», чтобы избежать его в форматах сжатия с потерями. (О причинах возникновения этого клиппирования шла речь в первой части статьи – прим. ред.)

Функция «Предотвратить клиппирование» (Prevent clipping)

Один из дополнительных вариантов экспорта, который я часто использую, – это в меню File (файл) функция Export Screenshot («Экспортировать скриншот»). Это полезно для онлайн-демонстраций и автоматически обрезает экран только до окна спектрограммы. Кроме того, он может сохранить выбранный фрагмент в виде анимации, если выбран формат GIF.

Да, эти функции полезны, хотя и не очевидны, тут надо тщательно изучить всю программу. Ну и, наконец, как, на твой взгляд, выглядит будущее реставрации аудио?

Я определенно вижу, как в будущем машины смогут устранять проблемы, которые сегодня считаются неразрешимыми. Благодаря использованию машинного обучения они смогут лучше понимать контекст сигнала: речь это или музыка; если речь, то каково ее содержание; если музыка, то они смогут анализировать гармонию, состав инструментов и т.д. Благодаря этой новой информации качество реставрации повысится. В некоторых случаях восстановление будет заменено ресинтезом, который будет ближе к источнику. Благодаря лучшему пониманию исходного сигнала машины окажут большую помощь в восстановлении звука: они будут автоматически идентифицировать больше разных типов шума и предоставят более специализированные способы их устранения.

Еще одна тенденция, которую мы наблюдаем, – это «демократизация» реставрации аудио, появление более дешевых инструментов с более простым управлением, доступных более широкой аудитории. То, что раньше требовало специализированного оборудования, теперь работает на быстром компьютере – и в будущем будет работать в вашем браузере, телефоне или другом гаджете. И представьте, какая обработка тогда будет доступна в профессиональной студии!

Да, судя по всему, нас ждут небывалые возможности, нереальное станет реальным. И спасибо тебе и всей компании iZotope, что вы приближаете это время и эти возможности!

Назад в Статьи