150-й конгресс AES: Научные результаты

Статьи

6 октября 2021

Автор: Ирина Алдошина

С 25 по 28 мая 2021 года прошел юбилейный 150-й конгресс AES. Как и предыдущие несколько конгрессов, он работал в режиме on-line. На нем, как обычно, проводилась научная сессия (было представлено 64 доклада), большое количество семинаров, работали технические комитеты, были организованы студенческие мероприятия и т.д.

На конгрессе было представлено три вступительных лекции (keynote), одна из них была прочитана профессором Мариной Бози (экс-президентом AES) на тему «Перцептуальное кодирование. Обзор истории и взгляд в будущее». Вторая представлена Э. Гриммом из Университета искусств г. Утрехта на тему: «Нормализация громкости. Персональный опыт». Третья лекция – Л. Бент «Креативные и альтернативные создатели аудио».

Лекция, посвященная памяти ученого Хайзерa, на которую приглашаются обычно самые известные специалисты, была представлена знаменитым профессором психологии Калифорнийского Университета Дианой Дейч, автором книг «Музыкальные иллюзии и парадоксы» (1995 г.), «Психология музыки» (1999 г.), «Как музыка и речь открывают загадки мозга» (2019), и др. Она награждена многочисленными наградами (в частностью золотой медалью AES) за выдающиеся научные достижения.

Лекция называлась «Две загадки восприятия – звуковые иллюзии и абсолютный слух» и была посвящена проблемам изучения различных слуховых иллюзий, которые помогают раскрыть механизмы работы мозга.

На научной сессии работало тринадцать секций. Наиболее интересные доклады на некоторых из них представлены ниже.

Секция «Линейные массивы и громкоговорители»

В докладе Y. Ren, Y. Haneda «Формирование характеристики направленности с помощью двух круглых систем громкоговорителей. Численное моделирование и эксперименты» (пр. 10450) рассматривается создание специального устройства и систем управления его характеристиками для формирования характеристики направленности заданной ширины и заданного направления главного лепестка. Устройство состоит из двух круглых жестких корпусов, в котором смонтирован набор громкоговорителей, разделенных двумя прозрачными экранами (рис. 1).

Рис. 1 – две круглые системы громкоговорителей с экраном

Система электронного управления позволяет формировать распределение амплитуд и фаз в них, и создавать характеристику направленности заданной формы и направления. В докладе приводятся результаты численного моделирования и экспериментов. Такое устройство может быть полезным для измерений при проектировании помещений.

В докладе S. Weinzierl и др. «Алгоритм расчета линейных массивов для озвучивания аудиторий сложной полигональной формы» (пр. 10451) предлагается новый алгоритм расчета линейных массивов, включая расчет углов между корпусами отдельных громкоговорителей. Для расчета линейных массивов уже были созданы такие программные продукты, как Martin Audio Display, EAW Resolution 2, d&b ArrayCalc, Adamson Blueprint, L’Acoustics SoundVision и др. (рис. 2)

Отличие новых алгоритмов, предложенных в данной статье, состоит в расчете конструктивных параметров линейных массивов с учетом сложного характера формы аудитории и с учетом наличия участков в аудитории, не требующих озвучивания (рис. 3)

Рис. 3 – форма характеристики направленности с учетом неозвученных участков

В докладе J. Hipperson «Распространение звука в низкочастотных рупорных громкоговорителях. Эффект «выброса» – это реальное явление?» (пр. 10453) теоретически рассматривается распространение звука на низких частотах у рупорных громкоговорителей и фазоинверсных низкочастотных систем при одинаковой чувствительности. Показано, что оно происходит по одним и тем же законам (рис. 4) и никаких «выбросов» и других преимуществ у рупорных громкоговорителей нет.

Рис. 4 – изменение уровня звукового давления с расстоянием для разных источников

В докладе J. Braasch «Аурализация концертных залов с расширенной зоной прослушивания с использованием системы wave field synthesis» (пр. 10465) предлагается новый метод создания аурализационных моделей залов (т.е. пространственных компьютерных моделей с возможностью прослушивания звука в них), в котором используются импульсные характеристики залов, рассчитанные на компьютерных моделях с использованием методов геометрической акустики (лучевой метод – рис.5). В них используется не один источник (громкоговоритель), а система распределенных громкоговорителей типа WFS, которая создает пространственный звук в помещении и позволяет слушателю при прослушивании через наушники воспринимать пространственный образ зала (на рисунке модель зала Гайдна в Эйзенштадте).

Рис. 5 – расчет импульсных характеристик зала лучевым методом (для системы WFS и линейного массива)

Секция «Аудиотехника»

В итальянском докладе «Модель расчета температуры звуковой катушки в громкоговорителях» (пр. 10458) предлагается упрощенная методика, основанная на модели громкоговорителя с сосредоточенными параметрами в виде схемы электромеханических аналогий. Это позволяет быстро оценить температуру звуковой катушки при подаче на громкоговоритель различных видов сигналов. Задача является актуальной, поскольку в мощных громкоговорителях температура звуковой катушки может достигать сотен градусов. Необходимо отметить, что уже разработаны точные модели, позволяющие рассчитывать температурные поля численными методами.

В немецком докладе «Температурная стабильность неодимовых магнитов в электродинамических преобразователях» (пр. 10460) выполнен тщательный анализ высокоэффективных магнитов из неодима, широко применяемых в настоящее время в громкоговорителях и микрофонах. Пример изменения их параметров во времени показан на рис. 6. Установлено, что стабильность параметров существенно зависит от качества изготовления и различается у разных производителей, она также зависит от температурной и магнитной окружающей обстановки и требует контроля.

Рис. 6 – изменение параметров магнитов из неодима во времени

Доклад «Сравнение влияния различных моделей открытых наушников на восприятие реальных источников звука» (пр. 10506) содержит результаты сравнительных оценок качества звучания и параметров импульсных характеристик в открытых телефонах, широко применяемых в настоящее время в системах «Обогащенной реальности» (AR), когда поступает бинауральный сигнал и сигнал из окружающей обстановки, записанный встроенным микрофоном. Результаты измерений импульсных характеристик показывают, что наибольшие искажения происходят в открытых «охватывающих» наушниках.

Секция «Психоакустика»

Корейский доклад «Связь распознавания эмоций и гендерной принадлежности с акустическими свойствами натуральной речи» (пр. 10461) посвящен важной проблеме, возникающей при создании автоматической речи и систем распознавания речи. Эта проблема – в установлении связей между эмоциональными характеристиками голоса (свободный/зажатый, дружеский/враждебный, печальный/счастливый, интимный/формальный и др.) и акустическими параметрами (девиация высоты, нестабильность частоты((jitter), нестабильность амплитуды (shimmer), отношение гармонических составляющих спектра к негармоническим (HNR) и др.) Полученные результаты показаны на рис. 7.

Рис. 7 – связь акустических и эмоциональных характеристик

В докладе «Первичное изучение корреляции между субъективными оценками качества звучания и физиологическими параметрами» (пр. 10495) представлены результаты первой серии экспериментов по установлению связи между эмоциональным восприятием музыки и некоторыми физиологическими параметрами (электропроводимость кожи, наполняемость пульса и др). Результаты для четырех субъектов S1-S4 в части зависимости проводимости кожи от вида звуковых сигналов пока не очень убедительны, но направление работ полезно для практики.

Доклад «Тренировка локализации звука и слуховой адаптации – обзор» (пр. 10464) рассматривает проблемы ошибок в локализации мнимого источника при создании систем бинаурального синтеза. Показано, как на это влияют технические параметры аппаратуры, неточность определения передаточных функций и др. Установлено, что слуховая тренировка значительно повышает точность определения положения мнимого источника в реверберационном пространстве.

Секция «Акустические измерения»

В докладе швейцарского специалиста Felix Pfreundtner «Измерения импульсной характеристики в реальном времени» (пр. 10449) предложен новый метод измерений импульсной характеристики в помещении на скользящем синусоидальном сигнале. Этот метод обладает значительно меньшими задержками, чем используемые в настоящее время, что увеличивает скорость измерения почти в восемь раз, и это позволяет значительно расширить возможности его применения.

Доклад «Метод управления характеристикой направленности для сферической системы микрофонов с целью локализации источника в помещении» (пр. 10493) предлагает теорию метода и его экспериментальную проверку.

Проблема измерения громкости в радиовещании и телевидении является чрезвычайно актуальной, поскольку громкость является субъективным параметром и обычными методами не измеряется. Поэтому постоянно проводятся работы по созданию слуховых моделей громкости, в частности с помощью нейронных сетей, именно этой проблеме были посвящены два доклада на этой секции (пр. 10479 и пр. 10483).

Секция «Пространственный звук – 3D-Audio»

Доклад M. Schneider (компания Neumann) «История развития системы микрофонов типа «Искусственная голова» с 1970 г.» (пр. 10500) был посвящен разработке компанией микрофонных устройств типа «Искусственная голова». Эти системы появились в результате развития бинауральной стереофонии, которая начала развиваться в 1930-х, получила достаточно широкое развитие в 1980-е в радиовещании и звукозаписи. Она активно развивается в настоящее время в системах бинаурального синтеза и виртуальной реальности, предполагающих прослушивание через наушники. Для бинауральных записей, начиная с 1970-х, было разработано первое устройство КU-80, имитирующее форму головы и ушных раковин со встроенными микрофонами. По мере развития технологий устройство было значительно усовершенствовано в части эквализации его характеристик по диффузному полю, создана система КU-81 (рис. 8).

Наконец в настоящее время производится устройство КU-100, позволяющее с большой точностью определять передаточные функции головы ( HRTF) (рис. 9) и осуществлять запись бинаурального звука с хорошими тембральными характеристиками.

Доклад «Сравнение продуктов искажений в алгоритмах эквализации наушников для бинаурального синтеза» (пр. 10501) содержит сравнительный анализ алгоритмов для коррекции (выравнивания) частотных характеристик наушников. На первом этапе развития этих методов обычно создавался цифровой фильтр, который имел характеристику, обратную передаточной функции наушников (HpTF), при перемножении прямой и обратной характеристик АЧХ выравнивалась. Однако оказалось, что передаточная функция наушника зависит от положения его на ушной раковине, ее индивидуальных особенностей и др. В докладе проводится сравнительный анализ результатов применения новых алгоритмов (в том числе и по итогам прослушивания) и даются рекомендации по их применению.

В докладе «Сравнение техники панорамирования пространственного звука для различных музыкальных жанров» (пр. 10504) представлены результаты применения трех современных алгоритмов панорамирования пространственного звука – Ambisonics, Vector Base Amplitude Panning (VBAP) и Distance-Based Amplitude Panning (DBAP) (последний обеспечивает размещение мнимого источника в трехмерном пространстве) – к четырем различным жанрам музыки (классическая, электронная, рок, композиции для ударных). Оценка качества пространственного образа с помощью субъективных экспертиз производилась по таким критериям, как окружение звуком, предпочтительность, четкость, качество звучания и стабильность. Приведены данные, показывающие зависимость выбора способов панорамирования от жанра выбранной музыки.

В докладе «Передача индивидуального пространственного звука нескольким слушателям в одном пространстве» (пр. 10452) (University of Surrey) рассматривается система звуковоспроизведения, которая позволяет обеспечить каждому слушателю, находящемуся в определенной зоне единого пространства, доставку своей персональной программы пространственного звука. Для этого предлагается использовать принципы трансауральной стереофонии, т.е. воспроизведение бинауральных записей через громкоговорители с подавлением перекрестных связей меду каналами и подавлением проникновения звуков из других зон пространства. Оцениваются допустимые пороги подавления.

Доклад «Сравнение технологий записи пространственного звука при бинауральном звуковоспроизведении» (пр. 10477) представляет результаты сравнения записи пространственного звука тремя разными системами микрофонов – разнесенными (где используется максимальное расстояние между 9 микрофонами), почти совмещенными и совмещенными (рис. 10).

Рис. 10 – запись различными системами микрофонов

При оценке полученных записей через наушники получилось, что разнесенная техника создает более широкий звуковой образ, но значительной разницы в натуральности тембра нет. Совмещенная техника дает значительные различия практически по всем субъективным параметрам.

Доклад «Пространственная стабильность многоканального звукового образа при бинауральном воспроизведении» (пр. 10477) представляет результаты бинаурального синтеза сигналов, записанных шестиканальной системой микрофонов в два бинауральных сигнала с использованием передаточных функций головы (HRTF), записанных с помощью искусственной головы KEMAR. (рис. 11)

Рис. 11 – шестиканальная система микрофонов

Секция «Качество звука»

В докладе J. O. Smith (Stanford University) «Подавление перекрестных связей при многомикрофонной записи музыкальных ансамблей» (пр. 10471) предлагается новый метод подавления перекрестных связей, возникающих при записи музыкальных ансамблей (рис. 12). Сейчас применяются методы акустической изоляции отдельных инструментов, близкое расположение микрофона у каждого инструмента (5…50 см) и др. Предлагаемый метод основан на записи передаточных функций от каждого микрофона к каждому инструменту, создание соответствующей матрицы передаточных функций и применение методов оптимизации ее на этапе постпроцессорной обработки.

Рис. 12 – передаточные функции при записи музыкального ансамбля

В докладе известного финского специалиста Ника Захарова «Коллекция данных для обучения машинной оценке качества звучания звукозаписей» (пр. 10488) представлен анализ современных методов объективизации оценок качества звучания методом субъективных экспертиз, отраженных в современных стандартах, и определены направления развития методов машинного обучения распознаванию и оценке качества звучания на основе нейронных сетей (рис. 13).

Рис. 13 – обучающая система на основе нейронных сетей

Несколько интересных докладов можно выделить на других секциях, к их числу можно отнести следующие:

Доклад «Определение геометрии помещения из сигналов, записанных по системе Ambisonic высокого порядка с использованием рекуррентных нейронных сетей» (пр. 10482) предлагает дальнейшее развитие методов определения геометрии помещения из анализа пространственных сигналов, записанных с помощью системы Ambisonic высокого порядка, что может быть полезным для создания систем виртуальной реальности.

Доклад «Синтез духовых инструментов с учетом шумов вдувания с использованием рекуррентных нейронных сетей» (пр. 10478) содержит анализ текущих методов математического моделирования музыкальных инструментов, которые развиваются уже несколько десятилетий, базируясь в основном на использовании цифровых фильтров Digital Waveguide Filter (DWF), предложенных в работах проф. J. Smith, которые успешно применяются для синтеза. Однако при синтезе духовых инструментов появляются проблемы, связанные с синтезом шумов вдувания, поэтому в представленном тайваньском докладе предлагается более усложненная модель синтеза шумов с использованием рекуррентных нейронных сетей. (рис. 14)

В докладе «Глобальная персонализация передаточных функций головы (HRTF) с использованием антропометрических измерений» (пр. 10475) предлагается усовершенствование метода учета персональных особенностей передаточных функций, обусловленных особенностями формы и размеров головы, торса, ушных раковин, что имеет существенное значение при решении задач бинаурального синтеза и разработке систем виртуальной реальности.

В сообщении «Эволюция слуховых порогов и их оценка с помощью новых методов» (Е-643) поднимается очень важная проблема: пороги слуха у населения в Европе и других странах существенно ухудшились, особенно у молодого поколения в связи с широким использованием телефонов-вкладышей In-ear, очень громкой музыкой на концертах и в дискотеках и т.д., поэтому стандартизованные кривые порогов слуха нуждаются в коррекции. Для проведения массовых измерений в докладе предлагается новая достаточно простая методика измерений, которая может быть использована для проведения такой работы.

Как уже было сказано выше, на конгрессе проходило большое количество семинаров: учебных, научных, с демонстраций достижений отдельных фирм и др. Тематика семинаров включала в себя следующие направления: Автомобильное аудио, Звукозапись и воспроизведение, Психоакустика, Электронная танцевальная музыка, Радиовещание, Звукоусиление, 3D-звук в играх, История звукотехники, Образование в аудио и др.

В полном объеме работали студенческие мероприятия: научная сессия, встречи со специалистами, представления различных учебных заведений и конкурс звукозаписей.

Назад в Статьи