155 конгресс AES – научные результаты
Автор: Ирина Алдошина
С 25 по 27 октября 2023 года в Нью-Йорке прошел очередной 155-й конгресс научно-технического общества Audio Engineering Society, на котором, как обычно, проводились научная сессия, семинары, выставка (которая на этот раз была меньше чем обычно, многие из европейских фирм не приехали) и студенческие мероприятия. Анализ основных результатов научной сессии представлен ниже.
Традиционную Мемориальную лекцию памяти Хайзера прочитал профессор Ричард Кинг из McGill University (Канада), лауреат премии Grammy за звукорежиссерскую работу при записи музыкальных альбомов в различных категориях. Доклад был посвящен анализу современной ситуации в развитии теории и практики звукозаписи (к сожалению, текст доклада не публикуется).
На секции «Пространственный звук» актуальной в настоящее время проблеме пространственного панорамирования был посвящен доклад «Расширение техники векторного амплитудного панорамирования с помощью нового метода Panningtable Synthesis (PTS)» (Е-119), в котором предлагался новый метод панорамирования пространственных движущихся источников (PTS), который совместим с широко известным методом амплитудного панорамирования и дает ряд преимуществ в скорости обработки данных и возможностях его применения для перемещающихся звуковых источников.
В докладе компании Samsung «Субъективно мотивированное распределение скорости для объектно-панорамированных аудиопотоков (с использованием Opus Codec)» (Е-125) рассматривается актуальная проблема объектно-ориентированного панорамирования (например, как в системах Dolby Atmos), предлагается стратегия распределения неравномерной скорости потоков между объектами, использующая слуховые оценки их значимости (рис. 1).
Целый ряд докладов был посвящен численному моделированию и методам измерения передаточных функций головы (HRTF), в виду важности этих данных в развитии современных методов бинаурального синтеза и передачи пространственного звука через стереотелефоны.
Доклад «Сравнение различных методов построения 3D цифровых моделей ушной раковины» (Е-145)» предлагает анализ структуры ушной раковины тремя различными способами: с помощью сканера методом магнитного резонанса (MRI), оптического сканера, и реконструкции из измерений специальной фотограмметрической системой ESPER LightCage (рис. 2). Полученные таким образом трехмерные модели позволили численными методами произвести расчеты HRTF с учетом дифракционных эффектов на голове и ушной раковине и сравнить их по степени точности (лучшие результаты были получены методом MRI).
Доклад «Нейронные сети для моделирования бинауральной импульсной характеристики в помещении с учетом движения головы» (Е-158) представил очень полезные результаты для развития техники аурализации, а именно применение современных технологий (нейронных сетей) при измерении и моделировании бинауральных импульсных характеристик (BRIR), с учетом движения головы слушателя, что значительно повышает быстроту и точность обработки данных.
Доклад «Создание высоко реалистичного виртуального звукового пространства за счет модификации передаточных функций головы (HRTF)» (Е-169) предлагает метод для реконструкции передаточных функций головы, позволяющей учесть информацию из измерений импульсных характеристик в различных реальных помещениях.
В немецком докладе «Исследование влияния дифракции на торсе на точность локализации источника «фронт-тыл» (пр. 10673) представлены результаты измерений и субъективных экспертиз, показывающих, что ошибки в оценке положения источника в позиции «фронт-тыл» значительно выше в верхней полуплоскости, чем в нижней, что объясняется экранирующим действием торса человека.
Значительное количество докладов было посвящено проблемам бинаурального воспроизведения. К их числу относятся:
— доклад «Сравнение точности бинаурального воспроизведения» (Е-173), который представил результаты оценок точности локализации источников в 3D пространстве (рис.3) в горизонтальной и вертикальной плоскости, например, наибольшие ошибки в горизонтальной плоскости получены при углах 45, 160 и 320 градусов.
-корейский доклад «Количественная оценка акустических параметров и слушательских предпочтений при бинауральном воспроизведении (Е-147) содержит результаты слуховых оценок различных жанров музыки, которая была из 22.2 канальной записи трансформирована в бинауральные двухканальные записи и воспроизводилась через телефоны. Слушатели оценивали по трем критериям – общее впечатление, пространственное и тембральное восприятие. Установлено, что различия в оценках существенно зависят от жанра музыки и степени подготовленности слушателей.
Применение нейронных сетей для аналогичных задач, т.е. оценки слушательских предпочтений при бинауральном прослушивании, предложено в японском докладе (Е-162).
В докладе фирмы Samsung «Оценка различий в АЧХ in—Ear телефонов на ушных моделях и реальных ушах» (Е-123) показана значительная разница при таких измерениях: ниже 5 кГц – порядка 7-8 дБ, выше – до10 дБ и больше. Для улучшения результатов необходимо более точно определять передаточную функцию головы, чем это обычно делается на ее искусственной модели.
В докладе университета McGill (Канада) «Воспроизведение виртуального акустического пространства в студии звукозаписи» (Е-176) рассматривалась проблема соответствия слуховых предпочтений между реальной студией с пространственным звуковоспроизведением (рис. 4) и ее виртуальным прототипом с бинауральным прослушиванием через телефоны. Разница оказалась довольно существенной, в докладах анализируются причины – выбор микрофонной техники, методы численного моделирования пространства, точность определения передаточных функций и др.
На секции «Звукозапись» можно отметить следующие доклады: «Динамические характеристики направленности с использованием микрофонов с двойными диафрагмами» (пр. 10665), в котором анализируется техника стереозаписи с конденсаторными микрофонами с двойными диафрагмами, что позволяет менять форму характеристик направленности (от ненаправленных к кардиодиде и восьмерке), а это значительно расширяет возможности звукорежиссера при создании стереообраза.
Доклад фирмы Dolby «Улучшенные методы панорамирования для неэквидистантного расположения громкоговорителей» (пр. 10669) предлагает методику панорамирования мнимых источников для случая расположения громкоговорителей на неравном расстоянии от слушателя (рис. 5) с соответствующей компенсацией уровней звукового давления и временных задержек.
Большой статистический материал был представлен в докладе «Сравнение микрофонов для записи женского вокала в стиле R&B» (пр. 10679), в котором проанализированы результаты слушательских тестов при выборе большого количества разных типов микрофонов для записи вокала в стиле R&B (современное развитие стиля ритм-н-блюз). Результаты прослушивания с участием 17 профессиональных звукорежиссеров, показали, что однозначного предпочтения выявить не удалось, все зависит от исполнителя и стиля, однако можно отметить такие микрофоны как Shure SM7B (динамический) и MA200 (ламповый).
Гуманной проблеме был посвящен доклад «Оценка доступности технологий современной звукозаписывающей индустрии для инженеров с ослабленным зрением» (пр. 10682), в котором анализировалось, как можно приспособить современные цифровые технологии для работы такой категории специалистов.
На секции «Преобразователи» можно выделить доклад А.Г. Войшвилло (фирма JBL) «Применение матричного анализа и численных методов для моделирования излучателей (драйверов) для рупорных громкоговорителей» (пр. 111), где предлагается метод построения трехмерной модели драйвера, учитывающей компрессионные свойства предрупорной камеры, фазового вкладыша и комплексное механическое поведение диафрагмы. Результаты моделирования и расчетов показывают хорошее совпадение с измеренными данными и могут применяться при проектировании рупорных громкоговорителей.
В докладе «Диалоговая система для взаимодействия в виртуальном пространстве» (пр. 136) предлагается новая система взаимодействия партнеров с помощью системы аудиовизуальных сенсоров, которые отслеживают перемещение пользователей в виртуальном пространстве. Приводится пример использования ее в учебных целях (рис. 6).
В английском докладе (известных фирм KEF и Celestion) «Итеративная метрика оптимизации акустических линз» (Waveguide)» (пр. 146) предлагается методика численного расчета акустических линз сложной геометрической конфигурации для рупорных громкоговорителей (рис. 7).
В докладе «Новый метод для измерения механических искажений в громкоговорителях» (пр.155) предлагается новая методика для измерения дребезга, который обусловлен различными механическими дефектами в громкоговорителях, что является очень актуальной задачей для их производства.
В докладе «Обзор и анализ низкочастотного оформления громкоговорителей с пассивным излучателем» (пр. 182), рассматривается новый вариант давно используемого типа оформления. где один громкоговоритель работает активно, второй пассивно (без магнитной цепи), выполняя функции фазоинвертора. М. Динабург предложил особый вариант такой системы, где активный и пассивный громкоговоритель совмещаются в одной конструкции (рис. 8). В работе представлены расчеты такой конструкции численными методами и обсуждаются ее достоинства.
На секции «Процессорная обработка аудиосигналов» можно выделить несколько докладов:
— японский доклад «Слуховая оценка импульсной характеристики помещения, рассчитанная численными методами (CE—FDTD method)» (пр. 129) предлагает слуховое сравнение сигналов, полученных путем конволюции с импульсной характеристикой помещения, рассчитанной численным методом, и измеренной в этом же помещении. Результаты показали достаточно заметную разницу в слуховых оценках, наилучшее совпадение получено при записи гитары.
В докладе фирмы AFMG (Germany) «Использование характеристик направленности музыкальных инструментов для акустического моделирования и аурализации» (пр. 132) рассматривается проблема применения данных по измерению характеристик направленности музыкальных инструментов с высоким разрешением в заглушенной камере (рис. 9) в программе EASE для расчета импульсных характеристик помещения и последующей аурализации. Учет таких данных позволяет значительно точнее рассчитать распределение звукового давления в помещении, улучшить точность локализации источников и др.
В японском докладе «Пространственное разрешение человеческого слуха при азимутальном и вертикальном расположении источника в различном частотном диапазоне сигнала» (пр. 141) представлены результаты экспериментов по уточнению угловой разрешающей способности слуха при различных сигналах. (рис. 10). Показано, что при сужении частотного диапазона сигнала точность локализации существенно уменьшается.
Доклад Лондонского Queen Mary University «Высококачественный процесс уменьшения шумов в речевых и музыкальных сигналах» (пр.153) предлагает полностью автоматизированный метод с использованием контроллера на нейронных сетях, способный выполнить процесс уменьшения шумов на речевых и музыкальных сигналах. Полученные результаты получили очень высокую оценку на слушательских тестах.
Испанский доклад «Распознавание оратора на основе анализа сегментов гласных звуков» (пр. 165) приводит результаты применения нейронных сетей типа VGGish иYAMNet для опознания оратора с точностью до 94-95%.
Очень полезные результаты представлены в докладе «Восприятие эмоций в спонтанной и поставленной (сценической) речи» (пр. 10671), этой проблеме в течение длительного времени уделялось внимание в научной литературе. Особенно актуальна она сейчас, когда идет обучение компьютера распознаванию эмоции в речи. В результате экспериментов установлено, что слушатели четко дифференцируют основные эмоции (страх, печаль, радость и др.), причем в поставленной речи уровень распознавания выше, при этом отрицательные эмоции распознаются лучше, что было подтверждено и на предыдущих экспериментах.
На секции «Акустика помещений» можно отметить два доклада McGill University: «Воспроизведение виртуального акустического окружения в студии звукозаписи» ч.1 и ч.2 (Е-172), в которых использовалась новая технология Virtual Acoustic Technology (VAT), с помощью которой были выполнены импульсные измерения в двух реальных залах (рис. 11) и воссозданы их виртуальные копии в студии звукозаписи. Была поставлена серия экспериментов по слуховым оценкам качества звучания в реальных и виртуальных залах, в которых отмечена высокая степень достоверности.
Та же группа ученых представила доклад «Оптимизация микрофонной техники для создания виртуального акустического окружения» (Е-171), в котором были рассмотрены различные варианты установки микрофонов для обеспечения максимальной реалистичности звучания в виртуальном пространстве.
На секции «Восприятие (Психоакустика)» можно отметить немецкий доклад «Создание бинауральной модели слухового восприятия с целью улучшения PEAQ» (Е-113), в котором предлагается методика слуховой оценки качества звучания бинауральных записей с учетом их пространственных характеристик, что является расширением принятого в стандарте ITU-R BS.1387 метода PEAQ (Perceptual Evaluation of Audio Quality), учитывающего только тембральные характеристики сигналов.
В докладе «Оптимальная АЧХ для охватывающих телефонов при измерениях на искусственной голове Brüel & Kjær Head And Torso Simulator Type 5128» (Е-127) приводятся результаты измерений и слуховых экспертиз по выбору оптимальной формы АЧХ для телефонов. По этому вопросу длительное время ведутся дискуссии, и полученные результаты вносят важный вклад в выбор стандартизованной формы АЧХ (рис.12).
В японском докладе «Быстрый метод измерения импульсной характеристики громкоговорителя для всех азимутальных направлений, используя непрерывные измерения» (Е-142) предлагается метод измерения в заглушенной камере импульсных характеристик акустической системы при вращении ее на поворачивающемся столе с использованием сигналов типа MLS и последующей компьютерной обработкой. Это позволяет получить набор импульсных характеристик АС для любого азимутального угла.
Доклад известного специалиста проф. Анджело Фарина «Оценка качества бинаурального воспроизведения для профессионального аудио» (Е-156) предлагает методику субъективных тестов для оценки качества звука, полученного путем бинаурального синтеза (широко используемого в настоящее время в системах виртуальной реальности) и воспроизводимого через стереотелефоны, и сравнение его с качеством записанного звука с воспроизведением через стереосистемы громкоговорителей.
На секции «Применение в аудио» можно отметить американский доклад «Процессорная обработка для создания пространственного звука в автомобилях» (Е-110), в котором представлены результаты нового этапа в разработке алгоритмов процессорной обработки звука для создания виртуального звукового пространства в салоне автомобиля, максимально приближенного к реальному звуковому полю концертного зала.
Доклад корпорации Yamaha «Усиление музыкальной выразительности через создание пространственного звукового образа и контроля реверберации» (Е-134) посвящен описанию разработанной фирмой системы электронного управления параметрами звукового поля в помещении AFC (рис. 13), которая очень широко применяется в настоящее время в залах различного назначения (в том числе и в России).
Американский доклад «Анализ спектральных искажений в музыкальных сигналах для оценки качества слуховых вкладышей» (пр. 10664) посвящен важной проблеме – методам оценки качества защитных вкладышей, разрабатываемых специально для музыкантов. К ним предъявляются особые требования – они должны снижать уровень звукового давления, но не изменять тембр звучания, что требует разработки специальных конструкций, которыми занимается Институт слуха в Калифорнии и др. В докладе предлагается метод для оценки степени искажений спектров сигналов и соответственно их тембра, что важно для дальнейшего совершенствования этих устройств.
Следует отметить, что на данном конгрессе доклады были в основном японские и американские (включая Канаду), очень мало было докладов из Европы и других стран.