156 конгресс AES-научные результаты

Статьи

28 октября 2024

Автор: Ирина Алдошина

С 15 по 17 июня 2024 года в Мадриде в помещении Политехнического Университета прошел очередной 156-й конгресс AES.

Конгресс прошел под девизом «Эхо прошлого вдохновляет звук будущего». Все мероприятия конгресса шли в установленном годами порядке – научная сессия, семинары, выставка, студенческие мероприятия и т.д. Правда, как утверждают участники, масштабы мероприятий были в значительно меньших объемах, чем в предыдущие годы.

Традиционную мемориальную Хайзеровскую лекцию представил профессор Xавьер Серра из Университета Pompeu Fabra в Барселоне, где он возглавляет группу компьютерных музыкальных технологий.

Его доклад был посвящен прогрессу в развитии методов анализа и синтеза музыкальных сигналов с использованием современных технологий искусственного интеллекта.

На секции «Применение в аудио» можно отметить следующие доклады.

Доклад специалистов Гданьского Университета (Польша) «Сравнение возможностей управления характеристиками направленности линейки микрофонов типа Ambisonic высокого порядка и остронаправленных микрофонов (shotgun)» (препринт 242). Исследование показало, что современная техника процессорной обработки позволяет формировать различные виды характеристик направленности микрофонных систем (например, чтобы отслеживать перемещении оратора во время конференций), эта техника получила название adaptive beamforming. Для экспериментов были выбраны пять систем микрофонов: MKH 416, Rode NTG2, Panasonic AG-MC200, Zoom SGH-6, and Zylia ZM-1 (ambisonic). Измерения показали несомненное преимущество системы микрофонов типа Zylia ZM-1 для обеспечения широких возможностей формирования ширины, характеристик направленности и их поворота при перемещении источника

Доклад специалистов из Олденбургского Университета «Быстрый и точный метод для измерения характеристик направленности громкоговорителей с помощью адаптивных фильтров» (пр.233) предлагает метод измерения трехмерных характеристик направленности в заглушенной камере, где с помощью поворотного устройства измеряются импульсные характеристики, затем с помощью процессорной обработки (the Normalized Least Mean-Square – NLMS фильтр) вычисляются трехмерные характеристики направленности. Блок схема измерений показана на рис. 1

Рис. 1 Блок-схема измерений характеристик направленности громкоговорителей

Английский доклад «Оценка существенных параметров при записи классической музыки 3D-микрофонными системами» (пр. 262) содержит результаты субъективных тестов при оценке записей различных музыкальных инструментов (например, органа) пространственными системами микрофонов. Выявлена связь между типами музыкальных инструментов и наиболее значимыми параметрами (ясность, пространственность, тембр и др.)

Английский доклад «Анализ альтернативных устройств для микширования пространственного звука» (пр. 231) представляет обзор существующих устройств, применяемых при микшировании трехмерного звука, и намечены пути автоматизации процесса.

Интересный доклад «Проблемное прошлое, прогрессивное будущее: демифологизация профессиональных аудиотехнологий» (пр. 253) из Австралийского национального университета посвящен анализу связей современных проблем аудиотехнологий с прошлыми проблемами звукозаписи и воспроизведения. Подробный анализ этих проблем изложен в двух недавно изданных книгах авторов доклада, которые могут представлять интерес для наших специалистов: Cultures of Audio and Music Technologies (2024, The MIT Press) и Secrets and Revelation in Music and Audio Technology Culture (2024, Cambridge University Press).

В докладе фирмы Dynaudio Lab (пр. 210) предлагается способ уменьшения пика/провала на АЧХ электродинамических громкоговорителей, обусловленного резонансными колебаниями гофрированного подвеса. Представлена новая конструкция подвеса с дополнительным воздушным объемом под ним.

В итальянском докладе (пр. 238) предлагается новое упрощенное, напечатанное на 3D-принтере устройство для измерения разборчивости речи.

Итальянский доклад (пр. 206) предлагает метод численной оптимизации конструкции магнитной цепи электродинамического громкоговорителя, в первую очередь конструкции верхних и нижних фланцев, что позволяет существенно уменьшить их толщину.

В китайском докладе (пр. 10696) рассматриваются методы эквализации звукового поля в салоне автомобиля.

В секции «Оборудование» можно выделить несколько докладов.

Доклад «Прогресс в моделировании и оптимизации групповых задержек» (пр. 10694) предлагает стохастически оптимизационный алгоритм для моделирования и оптимизации функции групповой задержки у всепропускающих (all pass) фильтров. Это может найти применение при линеаризации фазовых характеристик в многополосных громкоговорителях, декорреляции сигналов между каналами для улучшения пространственности, создании звуковых эффектов при синтезе громкоговорителей, когерентной суммации акустических систем с субвуферами для компенсации провалов в суммарной характеристике и многих других.

Очень полезный доклад был представлен фирмой Neumann – «Эффект близости в микрофонах и конструкция капсюля конденсаторного микрофона» (пр. 200). В нем рассматривается теория известного proximity-эффекта («эффекта близости»), который заключается в том, что у направленных микрофонов при приближении к источнику звука повышается уровень низких частот. В статье проанализированы различные конструкции капсюлей, показано, что микрофоны с двойными мембранами имеют меньший подъем АЧХ, чем одномембранные микрофоны, это зависит от отношения гибкости мембраны к гибкости воздушного объема между мембранами.

В немецком докладе «Техника измерений импульсных характеристик в трехмерном пространстве» (пр. 10702) представлена роботизированная система измерений импульсных характеристик в помещениях сложной конфигурации (рис. 2).

Рис. 2 Роботизированная система измерений импульсных характеристик

В финском докладе «Интермодуляционные искажения, обусловленные вариациями конструкции миниатюрных громкоговорителей» (пр. 228) рассматривается влияние размеров и формы передней полости перед диафрагмой миниатюрного громкоговорителя на величину интермодуляционных искажений.

Доклад Джона Вандеркооя «Как сделать измерения громкоговорителей в нормальном помещении эквивалентными измерениям в заглушенной камере» (пр. 10688) показывает, что расчет дифракции на углах корпусов акустических систем и добавление результатов в измерения импульсных характеристик в дальнем поле в реальном помещении позволяет получить АЧХ, практически совпадающими с измерениями в заглушенной камере.

Испанский доклад (пр. 202) посвящен методам интерполяции уровней для построения трехмерных полярных диаграмм громкоговорителей с использованием алгоритмов нейронных сетей.

В датском докладе «Чувствительность профессиональных микрофонов к вибрациям» (пр. 10705) приведены результаты измерений четырех типов микрофонов к вибрациям (рис. 3), показано, что микрофоны обладают достаточно высокой чувствительностью к вибрациям, и предложено включать эти требования в спецификацию микрофонов.

Рис 3 Установка для измерения вибраций микрофонов

В секции «Акустика помещений» можно отметить следующие доклады:

В немецком докладе «Установление частотно-зависимого коэффициента поглощения в малых комнатах (диффузные модели)» (пр. 10770) показана возможность определения коэффициента поглощения в диапазоне 20…200 Гц из измеренных импульсных характеристик на примере небольшой (80 куб. м) комнаты непрямоугольной формы.

Доклад из Таиланда «Изучение эффектов акустики помещений на вокальное исполнение певиц сопрано в трех различных залах» (пр. 224) содержит результаты анализа исполнения двух песен 15 певицами в трех залах, где акустические параметры менялись с помощью техники аурализации. В частности, время реверберации изменялось в пределах от 0,3 до 3,5 сек. Как показал анализ результатов, певцы незначительно увеличивали паузы при увеличении времени реверберации, пели более громко и резонансно, что приводило к уменьшению точности высоты (интонирования) и отказа от применения вибрато и тремоло на определенных нотах.

В китайском докладе «Обзор звукового контроля в малых помещениях» (пр. 222) приводится недавний прогресс в исследовании звукового поля в автомобильных кабинах, включая процесс создания персональных зон для прослушивания, активный контроль шума как внутреннего, так и внешнего.

На секции «Пространственный звук» был представлен доклад «SONICOM HRTF база» (пр. 205). в котором приведена база данных передаточных функций головы 120 субъектов, 3D-сканы их ушей, головы и торса. Эти данные могут быть полезны при проведении исследований по созданию систем пространственного звука.

Доклад Samsung Research «Пространственное аудиовоспроизведение и адаптивность для нерегулярного выбора слоев громкоговорителей» (пр. 218) представляет собой анализ ситуации при воспроизведении пространственного звука с произвольным выбором слоев громкоговорителей (рис. 4). Слушательские тесты позволяют определить возможные различия при воспроизведении и оценить допустимые варианты.

Рис 4 Комната прослушивания для проведения эксперимента

В турецком докладе «Трехмерная локализация с множественными сферическими микрофонными источниками через резидуальный энергетический тест» (пр. 10712) рассмотрена способность локализации в трехмерном пространстве с помощью нескольких сферических микрофонных систем (рис. 5). Представлена теория определения локализации в высоко реверберационном пространстве.

Рис. 5 Блок-схема измерений с помощью сферических микрофонов

Английский доклад «Исследование потенциала входных устройств для микширования пространственного звука» (пр.231) содержал результаты исследований современных входных устройств для микширования, представил результаты опросов звукорежиссеров, работающих с этими устройствами, и выявил их пожелания относительно дальнейшего усовершенствования, в частности, использования жестов и автоматизации.

В немецком докладе «Определение пространственной зоны при многоканальном воспроизведении громкоговорителей с использованием параметров пространственного звукового поля» (пр. 10707) анализируются методы определения зоны оптимального прослушивания (sweet spot) при пространственном воспроизведении с использованием измерения сферической и бинауральной импульсной характеристики (рис. 6) и вычислении междуушной кросскорреляции, разности уровней и диффузности. Замечено, что при увеличении количества громкоговорителей увеличение размеров зоны оптимального прослушивания (sweet spot) достигается только при достаточной степени некоррелированности каналов.

Рис 6 Набор громкоговорителей и роботизированная «искусственная голова» для измерений импульсных характеристик

Французский доклад «Оценка аурализационной системы реального времени из 42 громкоговорителей» (пр. 217) представил систему подавления обратной связи для аурализационных систем с использованием большого количества громкоговорителей. Для 42 громкоговорителей предлагается сравнение с измеренными и вычисленными значениями импульсной характеристики, результаты показывают удовлетворительное совпадение.

В немецком докладе «Слуховое моделирование в акустике помещений – связь слуховых параметров с акустическими» (пр. 10700) показана связь между параметрами реальных помещений и виртуальными при прослушивании пространственного звука. Установлено, что такой параметр, как «окружение», полученный из измерений бинауральных импульсных характеристик, имеет четкую корреляцию между оценками в трех реальных помещениях и виртуальными пространствами Приведена четкая методология постановки экспериментов, намечены пути дальнейшего исследования.

В польском докладе (Университет Гданска) «Применение системы волнового синтеза WFS» (пр. 236) дается детальный анализ систем WFS, показаны проблемы при их построении, даны рекомендации, какие выбрать программы для их расчета, рассматриваются их преимущества и недостатки перед другими системами пространственного звука (рис. 7)

Рис 7 Система волнового синтеза в заглушенной камере

В секции «Восприятие» можно отметить: доклад Краковского университета «Виртуальная реальность как средство для исследования слухового восприятия» (пр. 254) содержит результаты исследований слуховой локализации с использованием виртуальной реальности с различными способами воспроизведения, и учетом движения головы.

В докладе «Модель HRTF, использующая дополнительно признаки «фронт-тыл» и «подъем», и ее применение» (пр. 232) приводятся результаты применения усовершенствованной модели HRTF, использующей специальные фильтры для коррекции междуушной разности, биквадратные эквалайзеры для коррекции «фронт-тыл» и подъем моноуральных признаков, основываясь на усреднении результатов 51 измеренной HRTF. Все это позволяет использовать полученные данные при бинауральном прослушивании без использования индивидуальных HRTF.

В докладе «Моделирование восприятия при внутрикомнатных акустических вариациях» (пр. 10710) рассматривается проблема размещения виртуальных источников внутри помещения и оценивается их субъективная бинарная оценка (имеется различие или нет). Полученные данные могут послужить базой для создания правдоподобных акустических сценариев (AAR).

В докладе университета Сорбонна (Sorbonne Université, Париж) «Слуховая оценка изменений в реверберации в зависимости от ориентации источника при видимых виртуальных вокальных источниках» (пр. 248) была поставлена задача установить, как слушатели оценивают натуральность звучания, когда видимый источник звука вращается, будучи помещенным в трехмерный виртуальный мир. Слушатели должны были оценить натуральность звучания. Результаты показали, что учет характеристик направленности дает более натуральное звучание, чем без него.

Канадский доклад “Форма представления звука и ее влияние на коммуникабельность в свободно вербализованном пространстве» (пр. 10693) содержал отчет о проводимой на протяжении нескольких лет работе, как форма представления сигнала влияет на его перцептуальную оценку. Сигналы были представлены в разных формах: только звук, звук плюс видео, роботизированный звук. Тестировались четыре версии из пяти звуков. Участники должны были ответить, какие из них более коммуникабельны. Статистически значимые результаты оказались при предъявлении первой версии (только звуки), при этом роботизированные звуки выделялись более отчетливо, что, по-видимому, свидетельствует о том, что при таком способе обработки звука используются более широкие зоны мозга.

В докладе «Громкость речи в вещании и компьютерных потоках» (пр. 10698) предлагается новый метод определения громкости речи с помощью метода нейронных сетей, который предлагает определение громкости речи в соответствии со стандартом ITU-R. BR 1770, и выделении особых участков речи, на которых определяются такие коэффициенты как SLD (девиация громкости речи) и SPLD (локальная разница в отношении к средней громкости). Пример выделения такого участка показан на рис. 8.

Рис 8 Выделение участка SPLD на фонограмме

На секции «Аудиопроцессинг» можно отметить следующие доклады.

Доклад «Обогащение стационарного шумоподавителя с помощью искусственных нейронных сетей» (пр. 193) предлагает инновационный гибридный шумоподавитель, который комбинирует устойчивость традиционных шумоподавителей с низкосложными нейронными сетями для удаления нестационарного шума и других неприятных на слух фактов.

Китайский доклад «Использование информации о движении в локализации и отслеживании звукового источника» (пр. 198) предлагает новый метод с использованием нейронных сетей для установления траекторий нескольких источников, исправления траекторий для сигналов с низкой энергией и др. Сравнительный анализ показал. что предлагаемый метод дает более точные результаты, особенно для сигналов с низкими уровнями.

Доклад «Пре- и постпроцессинг амбиофонических сигналов для аудиокодеков» (пр. 195) представляет три варианта базовых алгоритмов для использования одноканальных аудиокодеков для компрессии амбиофонических сигналов высокого порядка. Предлагаемые методы используют пространственную декорреляцию и трансформацию энергии для обогащения восприятия. Результаты показывают, что полученные данные обеспечивают удовлетворительное качество на низкой скорости (до160 кбит/сек).

Доклад «Декодирование вокальной артикуляции от акустически скрытой репрезентации» (пр. 251) представляет три инновационных нейральных приближения для распознавания и улучшения моделирования акустических параметров в зависимости от артикуляционных движений (языка, голосовых связок и вокального тракта).

Доклад «Точность интонации в хоре при различных условиях мониторинга: открытые наушники, закрытые наушники, человеческий мониторинг» (пр. 234) показал, что наибольшая ошибка для основной частоты составляет 20 центов при человеческом мониторинге (то есть прямом акустическом прослушивании – прим. ред.), 17 центов для открытых наушников и 18 центов для закрытых.

В чешском докладе «Применение MatLab для STIPA» (пр. 10713) обсуждается метод измерения разборчивости речи для случаев применения систем звукоусиления в помещении STIPA (рис. 9). Предлагается прямой метод измерений в соответствии со стандартом IEC 60268-16.2020, но с использованием программного комплекса Мatlab вместо дорогостоящего оборудования. Предлагаемый метод был проверен на ряде примеров и показал удовлетворительные результаты.

Рис. 9 Пример размещения громкоговорителей и микрофонов

В китайском докладе «Измерение и анализ пространственных локализационных характеристик, основанных на междуушном различии во времени (ITD)» (пр. 194) было представлено детальное исследование влияния ITD на пространственную локализацию в горизонтальной плоскости, установлено, что на частотах ниже 350-1370 Гц ITD изменяется от 0 до 500 мс, оптимальный частотный диапазон для оценки угла смещения источника по восприятию ITD составляет 1…1,5 кГц. Общие результаты для оценки восприятия в разных частотных диапазонах показаны на рис. 10.

Рис. 10 Воспринимаемый азимутальный угол в зависимости от частоты и JND

В канадском докладе «Гуманизация музыки, генерируемой искусственным интеллктом – может ли слушатель услышать различие?» (пр. 203) проводились экспертизы с музыкой, созданной ИИ, и музыкой созданной человеком. Большинство слушателей четко различали музыку одну от другой, даже введение дополнительных признаков (например, конволюционной реверберации) не изменила соотношение в количестве слушателей.

На конгрессе были проведены различные научные и учебные семинары. Интересно отметить семинар под руководством А.Г. Войшвилло «Рупорные громкоговорители – прошлое, настоящее и будущее».

Назад в Статьи