153 конгресс AES – научные результаты

Статьи

19 декабря 2022

Автор: Ирина Алдошина

В Нью-Йорке прошел 153-й конгресс AES в несколько необычной форме: с 18 по 20 октября 2022 года прошли заседания в живом формате, а 26-28 октября в формате онлайн. Статьи в онлайн-формате не были выложены на сайте (к сожалению), а статьи в живом формате были двух видов: полноценные доклады, прочитанные авторами, и стендовые доклады (номера препринтов есть только у первых видов статей).

Одну из вступительных лекций прочитала Сюзан Роджерс, профессор в знаменитом музыкальном колледже Беркли, где она заведует лабораторией музыкального восприятия и познания.

До начала научной карьеры Сюзан была очень известным звукорежиссером и продюсером (много лет являлась звукорежиссером певца Принса), первой женщиной-лауреатом престижнейшей премии Гильдии музыкальных продюсеров. Ее выступление называлось «Новая модель музыкального сознания», в нем она изложила итоги исследований по формированию зон мозга, отвечающих за восприятие музыки. Результаты показали, что эти зоны формируются на протяжении всей жизни в зависимости от музыкального опыта, образования и способностей, в итоге формируется профиль, уникальный для каждого любителя музыки. Исследования показали, что когда слушатели наслаждаются музыкой, в нейронных цепях происходят укрепления связей, ответственных за внутренне генерируемое мышление, например, творческая фантазия, но эти связи уменьшаются, когда музыка слушателям не нравится. Такие параметры музыки, как мелодия, ритм, тембр и др. анализируются каждый в отдельной мозговой сети, специализирующейся на обработке музыкальной информации.

Традиционную лекцию, посвященную памяти Ричарда Хайзера, прочитал известный профессор канадского Университета McGill, основатель и глава Лаборатории Camden Жильбер Солодре, лауреат технической премии телевизионной академии Emmy. Лекция была посвящена его многолетнему опыту работы в области психоакустики, пространственного восприятия, практической звукорежиссуры и др.

На научной сессии работали несколько секций. Одной из самых объемных по количеству докладов была секция «Применение в аудио», на которой можно отметить следующие доклады:

Доклад «Широкополосные типовые частотные характеристики для вкладных телефонов» (пр. 10615) был посвящен проблеме выбора формы типовой амплитудной характеристики для вкладных телефонов. Поскольку звук передается прямо в слуховой канал, и при этом не учитывается влияние ушной раковины, то оптимальная форма АЧХ по результатам слуховых оценок должна отличаться от равномерной. По итогам субъективных экспертиз авторы предложили оптимальную форму АЧХ для разных возрастных категорий (рис. 2).

**Рис 2 АЧХ телефонов для разных возрастов**

В докладе «Пьезоэлектрические возбудители для громкоговорителей с плоскими панелями» (пр. 10618) рассматривались варианты применения новых видов пьезоэлектрических возбудителей, закрепленных на панели, и их влияние на частотные характеристики и формы колебаний громкоговорителей (рис. 3).

**Рис 3 формы колебаний и АЧХ плоских излучателей**

Доклад финских специалистов «Анализ реализуемости и уровня задержек для передачи музыкальных программ по компьютерным сетям пятого поколения» (пр. 10621) содержал анализ проблем, связанных с передачей музыкальных исполнений отдельных солистов и формирования программ для музыкальных коллективов из исполнителей, находящихся в различных местах, по компьютерным сетям (рис. 4), предлагались также пути развития новых технологий.

**Рис 4 структура сети для виртуального оркестра**

В английском докладе «Пороги слышимости времени атаки и спада динамических компрессоров» (пр. 10629) были представлены результаты экспертиз по определению порогов различимости различного времени атаки и спада динамических компрессоров. Некоторые данные, представленные в таблице (рис. 5), показывают, что минимально различимые пороги составляют 10-30 мс для атаки и 100-300 мс для спада.

**Рис 5 таблица для времени атаки и спада компрессоров**

Среди коротких стендовых докладов в этой секции можно выделить следующие:

Доклад фирмы Samsung «Установление соответствия аудио и визуальной информации в записанных видеофрагментах» (Е-17) предложил программу для установления связи между видеообъектом и соответствующем ему звуковым фрагментом в общей аудиозаписи по анализу движения губ. (рис. 6).

**Рис 6 выделение аудиосигнала из видео**

В докладе «Система автоматического микширования для телеконференций» (Е-24) представлена автоматическая система микширования, включающая мультитрековый баланс уровней, пространственное расположение источников и эквализацию для уменьшения маскирования, что позволяет услышать несколько ораторов одновременно. Система позволяет также определить виртуально позицию каждого оратора.

Очень полезные результаты представлены в докладе «Измерения импеданса и коэффициента затухания твердых материалов в реальных условиях с помощью лазерного виброметра» (Е-31), где была предложена следующая методика измерений: на некотором расстоянии от исследуемого образца устанавливается громкоговоритель, который излучает падающую волну, на очень близком расстоянии устанавливается микрофон, который измеряет звуковое давление от образца (стены, например) и одновременно лазерным виброметром измеряется распределение скорости смещения, из этих данных рассчитывается импеданс и коэффициент поглощения .Это позволяет производить измерения не в заглушенной камере на специальных образцах, а на реальных объектах (рис.7).

**Рис 7 измерение коэффициента поглощения материала на стене**

В продолжение работ с результатами, которые были опубликованы на предыдущем конгрессе, был представлен доклад (Е-38) «Влияние руки пользователя на частотную характеристику мобильного устройства» ч. 2 (рис. 8). В нем излагаются дополнительные результаты по анализу изменения АЧХ, характеристик направленности и других параметров мобильных устройств при различном положении руки.

**Рис 8 влияние положения руки на параметры телефона**

В докладе «Широкополосные звуковые зоны в автомобиле» (Е-39) были рассмотрены программы, позволяющие при установке пространственных звуковых систем в автомобиле (восемь низкочастотных и 16 средне-высокочастотных громкоговорителей) создать индивидуальные звуковые зоны для прослушивания с разницей уровней до 30 дБ.

В секции «Преобразователи» можно отметить:

Доклад фирмы Samsung «Оптимизация конструкции центрирующей шайбы громкоговорителя» (пр. 10623). Центрирующая шайба является важным элементом в конструкции электродинамических громкоговорителей. Она должна сохранять линейность характеристик при больших смещениях звуковой катушки (рис. 9), поэтому оптимизация ее геометрических и упругих характеристик является важным этапом конструкции. В работе предлагается метод расчета и оптимизации параметров шайбы с помощью численного метода МКЭ.

**Рис 9 форма шайбы громкоговорителя при разной величине смещения**

Несколько стендовых докладов (Е-12, 13, 16) были посвящены проблемам совершенствования схемотехнических решений в микрофонных предусилителях и цепях фантомного питания. Доклад «Почему процессы установления сигнала в первые 5 мс отличаются у микрофонов различных типов» (Е-36) содержал результаты измерений АЧХ выходных сигналов у 14 типов микрофонов (конденсаторных и динамических разных размеров), а также их анализ с помощью wavelet-декомпозиции. Правда, ответ на вопрос, поставленный в заголовке, не был дан, но предполагается продолжение работ.

Остальные доклады были посвящены анализу рупорных громкоговорителей.

В докладе фирмы Celestion была предложена новая гофрированная форма рупора (рис. 10). свободная от недостатков обычного рупора – дифракции на краях, отраженных волн и резонансов. Еще три доклада были посвящены численным методам расчета структуры звукового поля в рупоре (Е-3), расчету и оптимизации параметров предрупорной камеры и многотоновым методам измерения нелинейных искажений в рупорных громкоговорителях (E- 46, 55, фирма JBL, автор Александр Войшвилло).

В секции «Акустика помещений» несколько докладов были посвящены важной проблеме – влиянию характеристик направленности певцов и музыкальных инструментов на акустические параметры помещений.

В частности, доклад «Исследование связи между характеристикой направленности тубы и акустическими параметрами помещения» (Е-41) показал, как влияет учет изменения характеристик направленности тубы в полном диапазоне частот на изменение таких акустических параметров помещения, как ясность, пространственность, теплота и др. Кроме того, в докладе приведены ссылки на литературу по измерению характеристик направленности всех инструментов симфонического оркестра (очень полезная информация).

Второй доклад на эту тему «Сферическая направленность и формантный анализ певческих голосов при исполнении греческой и византийской музыки» (пр. 10631), представленный греческими специалистами, содержал результаты измерений трехмерных характеристик направленности певческих голосов в различных частотных диапазонах и их формантный анализ, эти данные очень важны для изучения акустики сцены и концертного зала.

В докладе «Критерий оценки плотности собственных частот (мод) для непрямоугольных помещений» (Е-23) предложена оценка плотности собственных частот в помещении, (играющая очень важное значение для оценки тембра источника звука), по критерию Quality Index (QI), т.е. среднеквадратичному значению частотного интервала между модами. Предложено оптимальное соотношение QI < 215v ^-2/3,которое может быть использовано как для прямоугольных, так и для непрямоугольных помещений.

В секции «Пространственный звук» было представлено больше всего докладов – 21. Доклад «Многополосные методы подавления перекрестных связей» (пр. 10614) был посвящен давно известной проблеме подавления перекрестных связей от громкоговорителей к левому и правому уху при переходе от стереофонических к бинауральным сигналам. В настоящее время при преобразовании многоканальных записей в бинауральные (downmix) требуются новые алгоритмы, разработке которых и был посвящен данный доклад.

В докладе «Сравнение методов панорамирования VBAP и WFS в системах синтеза пространственного звука» (пр. 10622) был проведен анализ двух методов панорамирования при движении источника в системах 3D виртуальной реальности – система VBAP (Vector-base Amplitude Panning) и WFS (Система волнового синтеза) – рис.11. В докладе показано, что оба метода дают сопоставимые результаты. Также проблемам панорамирования при воспроизведении бинаурального звука в системах виртуальной реальности был посвящен японский доклад (пр. 10627).

**Рис 11 система волнового синтеза (WFS)**

В докладе «Слуховая оценка пространственности при стереофонических и бинауральных записях» (Е-29) предлагается новый способ бинауральных записей с помощью расположенных на эллипсоиде микрофонов (рис 12), приведена их слуховая оценка по сравнению с бинауральными записями на искусственной голове и с помощью стереосистемы АВ. Показано некоторое слуховое преимущество новой системы записи.

В финском докладе «Создание пространственного персонального звука с помощью источников ближнего поля» (Е-4) предложено формирование звука с помощью встроенного в кресло вибратора, который создает вибрации и звук в ближнем поле.

В докладе «Техника многомикрофонной записи пространственного звука» (Е-44) рассмотрены параметры записи при использовании 6-капсюльной микрофонной системы Double Mid-Side-Z (DMS-Z) и 32-капсюльной сферической системы. Проведены субъективные экспертизы и проанализированы различия в слуховом восприятии движения источников в трехмерном пространстве.

В докладе известного финского специалиста в области теории слухового восприятия Ника Захарова (Е-48) представлена модель компьютерного распознавания и оценки качества записи с помощью нейронных сетей по таким параметрам, как тембральное, пространственное восприятие и общее впечатление. (рис. 13).

**Рис 13 нейронная сеть распознавания параметров**

В докладе «Объемное амплитудное панорамирование» (Е-52) приведен очень ценный обзор современных методов панорамирования пространственного звука (рис. 14), а также предложен новый алгоритм, позволяющий производить панорамирование для произвольного расположения слушателей и любого расположения источников в трехмерном пространстве.

В докладе «Психоакустическое восприятие расстояния в монофонической и бинауральной музыке» (Е-8) исследуется точность восприятия дистанции до источника при воспроизведении монофонических и бинауральных сигналов, показано, что до расстояния 4.2 м бинауральные записи точнее передают дистанцию, в дальнем поле при расстоянии более 4.2 м моносигналы делают это лучше.

В секции «Процессорная обработка сигналов» можно выделить доклад фирмы Samsung «Оценка результатов деконволюции импульсной характеристики при возбуждении помещения несколькими громкоговорителями» (пр. 10624). В нем был предложен алгоритм деконволюции импульсной характеристики помещения (операция, необходимая для эквализации амплитудно-частотной характеристики громкоговорителя в помещении) при одновременном возбуждении помещения 11-канальной, 7-канальной и 4-канальной пространственной системой громкоговорителей, что при современном развитии пространственных систем является актуальной проблемой. Английский доклад (пр. 10626) был посвящен методам моделирования искажений, создаваемых аналоговыми устройствами (усилителями, фильтрами, компрессорами и др.) средствами цифровой процессорной обработки.

В секции «Звукозапись и воспроизведение» доклад «Влияние прямого звука при комбинировании в записи ближних и пространственных микрофонов» (пр. 10619) представил анализ оптимального выбора расстояния между ближними и пространственными микрофонами. В докладе показано, что оптимальным является расположение ненаправленных пространственных микрофонов на расстоянии, дважды превышающем критическое расстояние в данном помещении (рис. 15), при более близком расположении теряется ощущение глубины.

**Рис 15 ближнее и дальнее расположение микрофонов**

Если выбираются направленные микрофоны, то расстояние выбирается в зависимости от вида их характеристики направленности (для каждого вида выбирается коэффициент «distance factor»).

В сообщении «Формирование звуковых потоков в виртуальных студиях для пространственных систем (в т.ч. Dolby Atmos)» предлагается программный продукт для создания виртуальных студий при записи и микшировании пространственных систем с помощью стереотелефонов. При этом используются индивидуализированные передаточные функций головы (HRTF), эквализация стереотелефонов и громкоговорителей и др. С помощью таких систем можно производить микширование и формирование звуковых потоков для различных видов пространственных систем. Рекомендуется, правда, для окончательной проверки произвести прослушивание полученного музыкального материала через системы громкоговорителей.

В секции « Психоакустика» можно выделить следующие доклады:

«Влияние музыки на восприятие эмоций в фильмах» (пр. 10630), в котором представлены результаты слуховых экспериментов, где слушателям (38 чел.) предъявлялись отрезки фильмов различных жанров только видео (без звука), только звук (без видео) и совместно видео и звук. По определенной шкале их просили оценить эмоции, которые, естественно, при использовании музыкального сопровождения оказались значительно сильнее (это удалось оценить количественно). Интересно, что на восприятие эмоций влияет музыкальный опыт, вкусы слушателей, но мало влияет пол и возраст.

В докладе «Шум в современном искусстве и музыке» (Е-10) приведен анализ творчества современных композиторов и артистов. использующих шум как эстетический компонент в музыке, например, таких как Luigi Russolo, John Cage, Pauline Oliveros и др.

Доклад «Оценка громкости через субъективные предпочтения с целью улучшения стандарта ITU—R BS.1770-4» (Е-27) рассматривает проблемы оценки громкости, что представляет значительные трудности, поскольку это параметр субъективный и объективными методами может оцениваться только косвенно. В стандарте ITU-R BS.1770-4 предложены некоторые средства для решения этой проблемы, в данной работе на основе серии субъективных экспериментов оцениваются погрешности этих средств (порядка 2.2 дБ) и предлагаются некоторые меры по улучшению точности оценок.

В докладе Д. Дервал (Эстония) «Отоакустическая эмиссия и музыкальные предпочтения» (Е-34) рассматривается интересная проблема связи между отоакустической эмиссией (подлежащий объективному измерению шум, который создается при усилении звука в волосковых клетках внутреннего уха) и предпочтениями слушателей в восприятии различных диапазонов частот музыкального сигнала (рис. 16).

**Рис 16 волосковые клетки во внутреннем ухе**

Были измерены уровни отоакустической эмиссии в разных диапазонах частот у определенного количества слушателей и установлено, что уровни эмиссии и соответственно усиление звука значительно различаются у слушателей по уровню и частотному диапазону, и слушатели предпочитают музыкальные сигналы, в которых пики не совпадают с их зонами максимального усиления, т.к. в противном случае это вызывает сильное утомление и раздражение при прослушивании.

Доклад «Современное состояние «кривых равной громкости» – обзор литературы» (Е-19) содержит обзор современных исследований по уточнению условий построения кривых равной громкости (стандарт ISO226:2003), касающихся условий эксперимента, выбора типа сигнала, возраста слушателей и др., что очень важно для современной аудиотехники.

На секции «Аудиокультура и образование» интересный доклад «Педагогическая система для обучения микшированию в системах звукоусиления» (Е-30) был представлен Департаментом музыки в Университете Индианаполиса (США), в котором предлагалось использовать для обучения и практики студентов виртуальную систему virtual sound reinforcement practice (VSRP), включающую в себя набор различных модулей из микрофонов, громкоговорителей, усилителей и другой аппаратуры, подлежащей коммутации и настройке.

На конгрессе работало большое количество научных и учебных семинаров, многие из которых были посвящены технологии записи пространственного звука. Работали также все остальные мероприятия, обычные для таких конгрессов: студенческая ассамблея, соревнования звукозаписей, выставка аппаратуры, технические туры и т.д.

Назад в Статьи