158 конгресс AES – научные результаты

Статьи

6 августа 2025

Автор: Ирина Алдошина

С 22 по 24 мая в Варшаве прошел 158 конгресс AES, на котором работали научная сессия, семинары, технические комитеты, выставка и различные студенческие мероприятия.

Традиционную мемориальную речь памяти Хейзера прочитал профессор Й. Херре – специалист по перцептуальному кодированию, ведущий сотрудник института в Ерлангере (Германия), Речь была посвящена теме «Это все о восприятии – опыт персональных исследований».

Из докладов, представленных на научной сессии, можно выделить следующие.

Серьезный научный доклад был представлен LGölles, M. Frank (Institute of Electronic Music and Acoustics, 8010 Graz, Austria) «Ambisonic-декомпозиционный метод с разделением импульсной характеристики на начальную и диффузную часть» (пр. 10208) Конволюция с измеренной импульсной характеристикой используется как типичное приближение для воссоздания акустических свойств существующих помещений. При записи часто используется формат Ambisonic, т.к. это позволяет учесть направленные характеристики источника, воспроизводить звук через произвольно расположенные громкоговорители и пр. Часто используются Ambisonic-микрофоны первого порядка (например, типа Sound Field), при этом получается импульсная характеристика Ambisonic RIR, которую можно разделить на начальную и диффузную часть.Однако пространственное развертывание получается недостаточным, что привело к использованию Амбиомикрофонов высокого порядка, High Order Ambisonic (HOA) RIR. В данном докладе предлагается новый алгоритм для обогащения пространственного развертывания, для этого импульсная характеристика делится на две части: первую – прямой звук и первые отражения, и вторую-диффузная часть. Первая часть обогащается, используя Ambisonic Spatial Decomposition Method (ASDM), вторая с помощью 4-directional (4D) ASDM. Полученные результаты субъективно показывают улучшенную пространственность и отсутствие артефактов. Подробная теория нового метода изложена в докладе.

Польский доклад «Оценка акустических параметров помещения с использованием Ambisonic-микрофонов (на примере звукозаписывающей студии среднего размера)» (пр. 331) представил результаты сравнения анализа акустических свойств помещения, измеренных с помощью Ambisonic-микрофонов первого порядка Sennheiser Ambeo и третьего порядка Zylia ZM1-3E, с измерениями, выполненными обычными микрофонами в соответствии с ISO 3382-1. Сравнение производилось по таким параметрам, как Reverberation Time (T30), Early Decay Time (EDT) и Clarity (C80), а также Interaural Cross-Correlation Coefficient (IACC) (полученного из бинауральной импульсной характеристики с помощью бинаурализационного метода MagL S). Сравнение показало, что параметры, полученные с помощью Ambisonic-микрофонов, более стабильны, чем при обычных измерениях.

Китайский доклад «GSound—SIR: пространственные импульсные характеристики, полученные с помощью метода лучей и набора инструментов Ambisonic-аурализации высокого порядка» (пр. 10220) рассматривает проблему моделирования пространственной импульсной характеристики в помещении. Для этого предлагается инструмент GSound-SIR, который позволяет открыть доступ для расчета большого количества лучей (до миллиона), что дает возможность сделать более глубокий анализ процессов в помещении. Предлагается инструмент для конвертирования акустических лучей в пространственную импульсную характеристику Ambisonic высокого порядка, а для повышения эффективности вводятся специальные фильтры. Все это обеспечивает разработчиков новым эффективным набором инструментов для создания пространственных импульсных характеристик.

Греческий доклад «Реконструкция звукового поля с помощью трансформируемых нейронных сетей: применение в реальном акустическом окружении» (пр. 327) приводит примеры использования нейронных сетей, которые на основе решения волнового уравнения определяют импульсную характеристику помещения на низких частотах. Сравнение с измеренными импульсными характеристиками производится на примере большого зала университета Queen Mary в Лондоне (Great Hall of Queen Mary University of London). Результаты показывают хорошее совпадение измеренных и рассчитанных с помощью нейронных сетей импульсных характеристик. Работы продолжаются в области средних и высоких частот.

В докладе Дублинского университета «Оптимизация акустики помещения с использованием виртуальных микрофонов» (пр. 347) предлагается использовать 20 сферически расположенных виртуальных микрофонов с последующей процессорной обработкой, что позволяет получать стабильные результаты измерений в различных акустических условиях.

В докладе Пекинского университета «Выводы о геометрии помещения с использованием данных о локализации звукового источника и его первых отражениях» (пр. 10215) рассматривается возможность оценки параметров помещения с помощью нейронных сетей из измерений прямого звука и его первых отражений с помощью First-Order Ambisonics (FOA) сигналов.

Польский доклад «Анализ распределения звукового давления на низких частотах в маленьких комнатах» (пр. 332) представил результаты измерений звукового давления в помещении на частотах ниже первой резонансной частоты в диапазоне 20-80 Гц. Результаты позволяют определить наилучшее положение источника в помещении и оценить проявление случайных мод.

Доклад группы ученых под рук. проф. Веслава Вожчика (университет McGill, Канада) «Пространственные записи в виртуальной акустике: различие и сходство между концертным залом и его виртуальной копией» (пр. 342) показал, что сравнительный анализ записей музыки в реальном помещении и его виртуальной копии дает хорошее совпадение слуховых оценок при записи на сцене, но сильное расхождение при записи в дальнем конце зала в смысле восприятия реверберации (особенно если оценку проводили музыканты).

Очень современный доклад из Пекинского Университета «Локализация движущихся источников и их траектории на основе выделения огибающей при неизвестном числе источников» (пр. 10216) предложил новый метод локализации движущихся источников и выделения их траектории с использованием глубоко обученных нейронных сетей, который позволяет по выделению огибающей из анализируемого сигнала (рис. 1) установить траекторию каждого источника.

Рис. 1 – процедура выделения огибающей сигнала (пр. 10216) Moving Sound Source Localization and Tracking based on Envelope Estimation for Unknown Number of Sources. Donghang Wu, Jiaqi Du, Tianshu Qu, Qingbo Huang, and Dejun Zhang

Испанский доклад «Анализ акустической импульсной характеристики в аудитории» (пр. 10226) предлагает на основе анализа импульсной характеристики (all-pole analyse) разделить ее на три части: одна связана со свойствами источника, вторая – со свойствами помещения, третья – со свойствами приемника, что облегчает работу с импульсной характеристикой, например, при перемещении приемника в данном помещении.

Турецкий доклад «Анализ диффузности звукового поля в помещении» (пр. 329) предлагает пространственно-спектральный и временной анализ звукового поля в помещении с помощью измерений Ambisonic-микрофонами высокого порядка. Оцениваются пространственно-временные и спектральные характеристики диффузности звукового поля, в т.ч. изотропность и разброс звукового давления.

В докладе «Искусственный ревербератор, построенный на основе данных о геометрии помещения» (пр. 10218) предлагается новый метод создания искусственного ревербератора на основе данных о геометрии помещения и распределения поглощающих материалов на стенах, при этом вычисляется структура ранних отражений, которая и закладывается в схему расчета ревербератора (рис. 2). Это позволяет имитировать ранние отражения с помощью линий задержки, а поздние – с помощью линий обратной связи (a Scattering Feedback Delay Network), что повышает натуральность звучания.

Рис. 2 – структурная схема искусственного ревербератора (пр. 10218) An Artificial Reverberator Informed by Room Geometry and Visual Appearance. Ruari Molyneux and Joshua D Reiss.

Доклад специалистов из Пекинского Университета «SHB—AE: формирование характеристик направленности с помощью сферических гармоник, основанный на Ambisonics-кодировании и увеличении масштаба для смартфонов» (пр. 10230) предлагает новый метод для формирования характеристик направленности, приспособленный для смартфонов, различных проигрывающих устройств и способный учитывать ориентацию головы. Предлагается запись с помощью системы микрофонов Ambisonic с последующим масштабированием применительно к смартфонным микрофонным устройствам. Показано, что метод успешно работает в условиях шума и реверберации (SPMA).

Турецкий доклад «Определение характеристик направленности источников в сферической области Фурье с помощью пространственных измерений» (пр. 330) предлагает новый более экономичный метод измерений характеристик направленности источников по сравнению с обычными измерениями в заглушенной камере с помощью распределенной по сфере системы микрофонов. Предлагается восемь измерений с помощью микрофонов Ambisonic второго порядка вокруг громкоговорителя, затем разложение сигнала на сферические гармоники, и из измеренного давления и сферических гармоник рассчитывается характеристика направленности источника, которая хорошо совпадает с измеренными значениями.

Датский доклад «Субъективная оценка VBAP и HOA в пространственных концертных установках» (пр. 321) представил результаты сравнительного прослушивания двух систем записи – Vector Base Amplitude Panning (VBAP) и High-Order Ambisonics (HOA) – в большом зале Датской Королевской академии, где была установлена пространственная система из 44 громкоговорителей. К прослушиванию привлекались две группы – звукорежиссеры и неопытные слушатели. Экспертиза показала, что VBAP превосходит HOA в оценке ясности (С80) и качества звука, а HOA дает лучшее пространственное впечатление. Опытные слушатели (звукорежиссеры) в большинстве случаев предпочитают VBAP для всех программ.

В докладе американского ученого Ch. J. Struck «Третьоктавные критерии шума» (пр. 10204) представлены новые кривые для оценки шума в помещении взамен представленных в стандарте ASA/ANSI S12.2 октавных кривых (NC), широко используемых при проектировании. Новые кривые были построены на основе различных психоакустических критериев (в то время как предыдущие опирались в основном на разборчивость речи), они лучше применимы к низким уровням шумов (например, в студии звукозаписи). Пример новых кривых (NC) показан на рис.3.

Рис. 3 – новые кривые NC (пр. 10204) The One-third Octave Band Noise Criteria. Christopher J. Struck

Большой аналитический обзор был представлен в совместном американо-французском докладе «Акустические объекты: мост, соединяющий создание пространственного звука и воспроизведение через широкий круг распределенных систем» (пр.10227), в котором на основе анализа имеющихся работ по созданию пространственного звука в разных сферах (кино, звукозапись, виртуальная реальность и др.) предлагается система интерфейсов, позволяющая пользователю вмешиваться в процесс создания звука и управлять его параметрами для широкого круга систем воспроизведения.

В греческом докладе «Инструментарий для определения показателей качества звука для управления медиаресурсами, обмена контентом и согласования наборов данных» (пр. 339) предлагается автоматизированный метод для определения качественных показателей звукового материала, таких, как компрессия, профиль шума, разборчивость, окружающие звуки и др. в процессе оценки звука в кино.

Польский доклад «Исследовательский процесс для взаимосвязанной генерации аудио- и видеоконтента» (пр. 333) рассматривает применение искусственного интеллекта для одновременного создания движущихся видеообъектов и соответствующего пространственного звука.

Бельгийский доклад «Субъективная оценка пространственной микрофонной системы для барабанов» (пр. 10231) представил результаты субъективного анализа следующих видов микрофонных систем: OCT-3D, Ambisonics native B-Format и A-Format, и IRT Cross для записи барабанов в барабанном боксе и в большом зале. (рис. 4). Преимущество каждой системы зависит от жанра выбранной музыки и не является универсальным.

Рис. 4 – микрофоны для записи барабанов (пр. 10231) Subjective evaluation of immersive microphone arrays for drums. Arthur Moelants, Steven Maes

Английский доклад «Слуховая оценка пространственного звука в салоне автомобиля» (пр. 10222) представил результаты оценки пространственного образа в салоне автомобиля по таким параметрам, как точность горизонтальной локализации, ширина источника и пространственность. Результаты показывают уменьшение точности локализации при смещении источника от передней к задней части салона, декорреляция источников значительно увеличивает пространственность звука, и ширина источника сильно зависит от горизонтального угла. (рис. 5)

Рис. 5 – расположение излучателей в салоне автомобиля (пр. 10222) An in-situ perceptual evaluation of spatial audio in an automotive environment. Bogdan Bacila, Mihai Orita, Nara Hahn, Filippo Maria Fazi, and Philip Nelson

В докладе «Автоматическая настройка звукового поля в автомобиле» (пр. 10209) предлагается автоматическая система управления такими параметрами в автомобильном салоне, как временные задержки, уровни между каналами и др., с помощью цифровых эквализационных фильтров. В докладе представлены примеры и их объективная и субъективная оценка.

Греческий доклад «Сравнение искусственно созданного акустического окружения с реальным пространством: интеграция объективных метрик и субъективных оценок» (пр. 322) предлагает инфраструктуру для проведения сложной оценки сравнения объективных параметров реального помещения (импульсная характеристика, время реверберации, ясность и др.) с его виртуальной копией, при проведении слушательских тестов. Работу предполагается продолжить.

Польский доклад «Исследование эмоциональной и физиологической реакции слушателей на изменение ширины звукового источника и его горизонтального положения» (пр. 337) содержит результаты экспериментов по слуховой оценке реакции слушателей на изменение положения источника в горизонтальной плоскости и по ширине. Слушатели оценили свой эмоциональные предпочтения, в частности звуки слева кажутся громче и менее приятными, чем справа. Расширение ширины источника приводит к его повышению в пространстве, и он становится менее приятным.

Еще один польский доклад «Разборчивость речи в условиях шума: сравнительное изучение для музыкантов, звукорежиссеров и немузыкантов» (пр. 325) был посвящен изучению проблемы восприятия речи в шуме для разных слушателей. Было установлено, что пороги восприятия речи в шуме оказались для музыкантов и звукорежиссеров на 2,7 дБ ниже, чем у немузыкантов

Японский доклад «Корреляция между сигналами от верхнего и среднего слоя громкоговорителей и шириной слушательской зоны при 3D-воспроизведении» (пр. 10219) рассматривал связь между корреляцией сигналов верхних и средних рядов громкоговорителей и шириной слушательской зоны в залах. Было установлено, что изменение расстояния между слоями громкоговорителей уменьшает корреляцию между ними и увеличивает ширину вертикальной слушательской зоны (sweet spot) (рис. 6)

Рис. 6 – многослойная система громкоговорителей (пр. 10219) Correlation between middle and top layer loudspeaker signals and the listening area in 3D audio reproduction. Toru Kamekawa and Atsushi Marui

Австрийский доклад «Влияние методов фотограмметрической реконструкции ушной раковины на индивидуальные передаточные функции головы» (пр. 317) был посвящен важной для бинауральной стереофонии и бинаурального синтеза проблеме – учету индивидуальных особенностей ушной раковины. Имеется достаточно работ, где строится с большой точностью сетка и рассчитывается численными методами индивидуальная форма ушной раковины, это трудоемкий процесс. В данном докладе предлагается новый фотограмметрический метод, позволяющий из 2D-фото построить трехмерную модель ушной раковины и рассчитать передаточную функцию головы с учетом индивидуальных особенностей.

Доклад университета University of Music and Performing Arts в австрийском Граце «Базовая кривая для телефонов для пространственного звука» (пр. 352) представил результаты экспериментов для выбора типовой АЧХ телефонов (наушников – прим. ред.) для воспроизведения пространственного звука. Для стерео такая кривая была установлена достаточно давно (Harman Target Curve), для пространственного звука предлагается ввести наклон -1 дБ на октаву, что лучше согласуется с требованиями к 3D-звуку.

Доклад «Характеристики материалов мембран и их влияние на характеристики громкоговорителей при их моделировании» (пр. 313) посвящен важной теме при моделировании численными методами параметров громкоговорителей, а именно – как изменения материалов для подвижной системы, а именно их модуля Юнга и плотности, влияют на конечные результаты, т.е. расчет АЧХ громкоговорителей. Показано, что они оказывают очень существенное влияние и требуют тщательного контроля при расчетах выходных характеристик громкоговорителей.

Доклад технического университета в Дании «Неинвазивный метод измерений акустического поля в корпусе с использованием акусто-оптики» (пр. 10228) предлагает для измерения структуры звукового поля внутри закрытых пространств (например, корпусов АС) использовать не микрофоны, а лазерный виброметр и соответствующую процессорную обработку для неинвазивного измерения структуры звукового поля.

Китайский доклад «Оптимизация формы рупора для высокочастотников с мягкой диафрагмой» (пр. 10205) предлагает с помощью численных методов рассчитать оптимальную форму рупора (рис. 7) для высокочастотника с мягкой диафрагмой. Полученный вариант улучшает частотную характеристику и характеристику направленности громкоговорителя.

Рис. 7 – оптимальная форма рупора (пр. 10205) Shape Optimization of Waveguides for Improving the Directivity of Soft Dome Tweeters. He Xiao, Jun Gu, Zhi Li and Jianbin Yang

Доклад фирмы Nokia «IMPro-метод для измерения частотной характеристики микрофонов с использованием пробного микрофона» (пр. 10225) предлагает метод для измерения частотной характеристики микрофонов MEMS в условиях обычного помещения с использованием пробного микрофона для измерения давления на близком расстоянии от измеряемого микрофона (рис. 8).

Рис.8 – измерения МEMS-микрофонов (пр. 10225) IMPro – Method for Integrated Microphone Pressure Frequency Response Measurement Using a Probe Microphone. John Cozens, Matti Hämäläinen, and Mikko Pekkarinen

Доклад известного канадского акустика John Vanderkooy «Расширение свободной от отражений зоны при измерениях громкоговорителей» (пр. 309) предлагает эффективный алгоритм для подавления отражений при измерении громкоговорителей на открытом воздухе (рис. 9), что позволяет получить АЧХ, близкую к условиям свободного поля.

Рис.9 – измерения громкоговорителей на открытом воздухе (пр. 309) Extension of Reflection-Free Region for Loudspeaker Measurements. John Vanderkooy

Второй доклад того же автора был посвящен теме «Стратегия получения квазизаглушенной характеристики громкоговорителей» (пр. 310) при измерении громкоговорителей в обычных помещениях. По этому методу на высоких частотах вырезаются первые отражения из импульсной характеристики. На низких частотах (ниже 400 Гц) предлагается два метода: 1) измерения в ближнем поле; 2) установка громкоговорителя таким образом, чтобы ближайшие отражения были от пола, затем эти отражения вырезаются обычными методами. Измерения показали хорошее совпадение с измерениями в заглушенной камере.

Канадский доклад «Контролируемое машинное обучение при оценке качества анализа временных искажений в громкоговорителях» (пр. 349) представил машинную модель обучения по выделению временных незвуковых факторов, которые искажают воспроизведение реальных сигналов у громкоговорителей.

Назад в Статьи