154 конгресс AES – научные результаты
Автор: Ирина Алдошина
С 13 по 15 мая 2023 года в Хельсинки прошел 154-й конгресс Audio Engineering Society (Международного общества аудиоинженеров), на котором, как обычно, работали научная сессия, учебные и научные семинары, выставки, студенческие мероприятия и др.
Вступительную речь произнес Дуглас Кастро (основатель фирмы «Нейронные DSP-Технологии»), в ней он рассказал о прогрессе в создании программ и процессоров для имитации реальных гитар и низкочастотных усилителей с применением систем искусственного интеллекта.
Традиционную лекцию, посвященную памяти Ричарда Хайзера, прочитала Джейми Ангус-Уайток –почетный профессор Salford University.
Лекция была посвящена достижениям в исследовании процессов преобразования сигнала в слуховой системе, в частности, преобразованию сигнала из временной в частотную область, которая осуществляется во внутреннем ухе. Однако, поскольку слуховая система является нелинейной системой (известно, что она генерирует субъективные гармоники), то этот процесс отличается от преобразования Фурье (которое применимо в линейных системах), и требует детального изучения.
Секция «Преобразователи»
В докладе «Цифровое моделирование нелинейных громкоговорителей» (препринт 10641) представлен метод анализа работы громкоговорителей при больших уровнях сигнала в условиях сильной нелинейности. Расчет процессов преобразования производился численными методами (метод Wave Digital Filters) с использованием эквивалентных электромеханических схем с нелинейными элементами. (рис. 1).
Финский доклад «Создание цифровых моделей громкоговорителей» (пр. 10642) содержал новый метод создания цифровых копий (моделей) стереогромкоговорителей, который строится только на основе анализа входных и выходных измеренных сигналов, как «черный ящик» (рис. 2), с помощью нейронных сетей типа RNN и CNN.
Метод открывает широкие возможности для моделирования различных элементов громкоговорителей и оценки их влияния на параметры и качество звучания.
В докладе «Запись звука с помощью пьезоэлектрических датчиков на вибрирующей панели» (пр. 10660) было предложено с целью экономии места в телефонах и других небольших устройствах использовать экран дисплея в качестве микрофона и излучателя, разместив на его поверхности пьезоэлектрические датчики, регистрирующие смещения, и с помощью соответствующих процессоров записывать и воспроизводить звуковой сигнал. Качество речи (как утверждают авторы) получается при этом удовлетворительное.
В английском докладе «Восприятие временных искажений, обусловленных разделительными фильтрами в акустических системах» (Е-103) рассматривается давно изучаемая проблема о влиянии разделительных фильтров в многополосных АС на параметры и качество звучания. Фильтры могут быть реализованы в аналоговом или цифровом виде, В докладе рассматривается два вида фильтров: минимально-фазовые, которые вводят групповую задержку и имеют нелинейную фазовую характеристику, и линейно-фазовые, у которых линейная фазовая характеристика и симметричная импульсная характеристика. Задачей исследования было установить слышимость искажений за счет групповых задержек и отклонения импульсной характеристики от симметричной формы. Результаты субъективных экспертиз показали, что при монофоническом воспроизведении существенного влияния не обнаружено, но при стереофоническом воспроизведении эти искажения могут оказывать влияние на восприятие глубины стереообраза, что будет предметом дальнейших исследований.
В финском докладе «Источник ближнего поля SNS в сравнении с плоскими громкоговорителями» (Е-65) предлагается новая конструкция излучателя, (состоящая из плоской панели и электродинамического возбудителя), встраиваемого, например, в кресло автомобиля. Показано, что излучатель создает ощущение низких частот за счет тактильного взаимодействия (рис. 3), и удовлетворительно воспроизводит высокие частоты.
Доклад «Моделирование громкоговорителей с помощью нейронных сетей» (Е-66) предлагает с помощью нейронных сетей создать гибкую модель громкоговорителей для анализа их линейных и нелинейных искажений, что может использоваться при их разработках и производстве.
Итальянский доклад «Конструкция узла “магнитная цепь + звуковая катушка” в громкоговорителях – цифровой анализ» (Е-69) был посвящен задаче расчета нелинейных процессов в узле «магнитная цепь + звуковая катушка» с помощью метода конечных элементов (МКЭ). Работы в этом направлении ведутся давно, было опубликовано много результатов, данный доклад – еще один шаг в этом направлении, полезный для проектирования громкоговорителей.
Известный финский специалист Юха Бакман представил доклад «Техника обратной связи для управления громкоговорителем» (Е-95), посвященный применению техники обратной электрической связи (рис. 4) для управления нелинейными искажениями в громкоговорителях при больших уровнях сигнала. Этот метод давно применяется в проектировании громкоговорителей, однако анализ накопленного опыта его применения может быть полезен специалистам.
Доклад польских специалистов «Как тип электроакустического преобразователя влияет на пространственное восприятие» (Е-98) представляет результаты субъективных оценок пространственного звука в помещении с использованием обычных многополосных систем и громкоговорителей с плоскими панелями (рис. 5). Показано, что последние имеют некоторое преимущество при оценке параметра «окружение» звуком (envelopment).
В секции «Акустика помещений» можно выделить ряд докладов.
«Устойчивое определение времени реверберации в помещении для применения в системах виртуальной реальности» (пр. 10640), в котором предлагается метод определения времени реверберации из измеренных бинауральных импульсных характеристик. Этот метод устойчив к изменению положения источника и приемника и к изменению их характеристик направленности (рис. 6).
Очень ценные для практики результаты были представлены в американском докладе «Исследование импульсной характеристики помещения из записи реальных музыкальных и речевых сигналов» (пр. 10655), в котором предлагается метод анализа когерентных свойств гармонических спектральных составляющих музыкальных и речевых сигналов, записанных в помещении (пустом или со зрителями), из которых можно извлечь информацию об импульсной характеристике помещения.
В секции «Восприятие пространственного звука» особое внимание вызвали описанные ниже доклады.
Доклад «Метод оценки временных атрибутов пространственного звука» (пр. 10644), где рассматривается новый метод субъективных оценок динамического изменения пространственного «окружения» в таких системах воспроизведения, как моно, стерео и 5.1. Работа предлагает методологию проведения слушательских тестов и обработки субъективных оценок, позволяющую выявить наиболее значимые критерии в оценке временных изменений пространственных характеристик звукового поля.
Известный специалист профессор Вилле Пулкки (Aalto University, Финляндия) представил доклад «Усиление пространственного восприятия реверберации при стереофоническом прослушивании за счет применения специальных фильтров» (пр. 10645), в котором предлагается использование специальных фильтров, которые при прослушивании стереофонических громкоговорителей, создают иллюзию смещения мнимого образа в вертикальном направлении, что расширяет воспринимаемый пространственный стереообраз. Идея основана на том, что по результатам работ Блауэрта (книга «Пространственный звук») установлено, что усиление спектральных составляющих сигнала в определенных частотных областях создает ощущение сдвига источника в вертикальной плоскости.
Доклад «Исследование громкости в системах Ambisonic с громкоговорителями различной конфигурации» (пр. 10658) представил результаты субъективных экспертиз по оценке громкости при изменении конфигурации громкоговорителей, которые показали, что она в основном зависит от звукового контента и мало зависит от изменения конфигурации громкоговорителей.
В секции «Пространственный звук» было представлено достаточно много докладов, из которых можно отметить следующие.
Японский доклад «Насколько можно уменьшить число микрофонов в системах пространственного звука при сохранении пространственного впечатления» (Е-63) предложил методы уменьшения числа микрофонов при записи многоканального звука. Поскольку при увеличении числа каналов записи число микрофонов значительно увеличивается (пример показан на рис. 7), предлагается за счет применения техники ‘upmix’ записывать звук для меньшего числа каналов например, 5, 7 или 9, а затем конвертировать их в большее число, например, 20 каналов.
Проведенная экспертиза показала незначительную потерю качества восприятия пространства.
В японском докладе «Важность точности оценки влияния отдельных частей ушной раковины на локализацию в вертикальной плоскости» (Е-64) представлен очень полезный для современного развития систем бинаурального синтеза материал: проведена оценка влияния конфигурации отдельных частей ушной раковины на точность локализации в вертикальной плоскости – в частности показано, что изменение структуры тыльной части ушной раковины не влияет на точность локализации. Приведены данные, насколько изменение формы и размеров отдельных частей раковины сдвигает кажущееся расположение источника. Поскольку в настоящее время активно ведутся работы по созданию численных методов моделирования формы ушной раковины для введения поправок учета их индивидуальных особенностей в передаточные функции головы (HRTF), эти данные очень полезны для развития систем бинауральной стереофонии, трансауральной стереофонии и др.
Японские специалисты также представили доклад «Связь между шириной стереообраза и межканальной кросс-корреляцией» (Е-68), в котором определяется количественная связь величины кросс-корреляции между каналами с шириной стереообраза при прослушивании в телефонах, что может использоваться в системах бинаурального синтеза.
В докладе проф. Вилле Пулкки «Локализация низкочастотных источников» (Е-79) представлены результаты экспериментов по способности человека к локализации источников в области низких частот. Считается, что ниже 100 Гц человек не может локализовать источник звука, поэтому низкочастотные блоки (субвуферы) можно располагать где угодно в помещении. Однако эксперименты в заглушенной камере показали, что на сигналах узкополосного розового шума слушатели могут локализовать источник с 31,5 Гц с точностью до 10 град, на синусоидальных сигналах с 63 Гц. Следует учесть, что в реальном помещении наличие стоячих волн сильно снижает точность локализации. Следовательно, точность локализации источника низких частот сильно зависит от уровня заглушенности помещения.
Секция «Акустика речи»
Финский доклад «Влияние реверберации на пороги распознавания речи и другие слушательские эффекты, определяемые по расширению зрачков» (пр. 10650) предлагает для определения порогов распознавания речи в различных условиях шума и реверберации использовать не только результаты субъективных экспертиз, но и нейропсихологические признаки, такие, как расширение зрачков (измеряемое с помощью специальных очков), кожную проводимость, нейронную активность мозга и др. В работе изложена методика организации таких экспертиз, в частности, метод измерения расширения зрачков показал эффективность, особенно при оценке влияния реверберации на распознаваемость речи.
Доклад японской фирмы NHK «Сравнение интерполяционных методов при измерении трехмерных характеристик направленности человеческого голоса» (Е-71) посвящен проблемам организации измерений трехмерных характеристик направленности голоса, которые требуют специальной установки большого количества микрофонов в заглушенной камере (рис. 8).
Рис. 8-1, 8-2 Размещение системы микрофонов для измерений
Поскольку результаты получаются только в определенных точках установки микрофонов, предлагаются различные типы интерполяции результатов для получения непрерывных значений характеристик направленности, сравнивается точность полученных результатов.
Греческий доклад «Система для записи, компрессии и классификации звуковой среды» (Е-80) посвящен проблеме звукового загрязнения окружающей среды в больших городах. Предлагается система мониторинга, записи, компрессии и классификации окружающих звуков с целью выработки рекомендаций по их уменьшению, поскольку их высокие уровни приводят к перегрузке слуховой системы.
В докладе известного специалиста проф. Анджело Фарина «Новые методы для вычисления акустических параметров в соответствии с современным итальянским законодательством» (Е-82) приводятся очень важные данные для проектирования различных зданий, стадионов, концертных залов и пр. В соответствии с современным итальянским законодательством при проектировании общественных зданий обязательно должны рассчитываться (на этапе проектирования) и измеряться (на этапе сдачи) следующие акустические параметры: время реверберации Т20, четкость С50 и коэффициент разборчивости STI. В докладе анализируются существующие методы расчета и измерения этих параметров и предлагаются новые усовершенствованные методы, а также приводятся примеры установленных норм на эти параметры.
Греческий доклад «Воздействие предварительной информации о геометрии помещения на установление его акустических параметров» (Е-90) предлагает создание базы данных. в которой имелись бы предварительные сведения о времени реверберации по заданным геометрическим параметрам помещения, что может быть полезно при проектирований помещений.
В секции «Звуковое поле» (Soundfield) были представлены следующие основные доклады.
Доклад университета прикладных наук и искусств (Швейцария) «Динамическая адаптация – процессор подавления перекрестных связей (СТС)» (пр. 10635) предлагает новую структуру процессора подавления перекрестных связей. Это необходимо для преобразования сигналов от громкоговорителей в многоканальных системах в бинауральные сигналы на ушах слушателей (система downmix) для воссоздания пространственной картины с учетом движения слушателей в пространстве (что важно для систем виртуальной реальности) (рис. 9).
Этой же проблеме был посвящен доклад «Воспроизведение источников звука в ближнем поле с помощью итеративно взвешенного метода подавления перекрестных связей» (пр. 10649). В нем рассматривается усовершенствованный метод подавления перекрестных связей с учетом поворотов головы слушателя при близком расположении источника.
Два доклада (пр. 10651, 10659) были посвящены проблеме, которая уже обсуждалась на предыдущих конгрессах – выделение из общего звукового пространства отдельных зон для индивидуального прослушивания (в автомобилях, общественных пространствах и т.д.) (рис.10).
В секции «Микширование» был представлен доклад «Адаптация технологии искусственного интеллекта (ИИ) к музыкальному микшированию» (пр. 10653), в котором исследовалось насколько широко применяются различные технологии ИИ в процессе микширования в среде любителей, полупрофессионалов и профессиональных звукорежиссеров (рис. 11).
Оказалось, что любители пользуются различными программами достаточно часто, а профессиональные звукорежиссеры не более чем в 14% случаев, считая, что системы ИИ не могут заменить в полном объеме индивидуальные особенности человеческого мышления.
В финском докладе под руководством проф. В. Пулкки «Система фильтров для обогащения речи при записи линейкой микрофонов» (пр. 10652) предлагается при записи речи, например, в режиме конференций, где с помощью линейки микрофонов можно выделять отдельные речевые потоки, поворачивать лепесток характеристики направленности при переходе от одного оратора к другому и использовать новую систему фильтров для улучшения отношения сигнал/шум.
Доклад от компании Samsung «Прогресс в системах субъективного расширения низких частот для музыки и киноконтента» (пр. 10648) рассматривает создание новых алгоритмов обработки звука с использованием нейронных сетей для создания субъективного расширения низкочастотного спектра при воспроизведении музыки в малогабаритных устройствах.
В секции «Виртуальная реальность» можно отметить следующие сообщения.
Английский доклад «Интерполяция пространственной импульсной характеристики» (пр. 10637), посвященный актуальной для построения систем виртуальной реальности проблеме – перерасчету параметров импульсной характеристики, необходимой для выполнения операции свертки и обеспечения возможности прослушивания звукового сигнала через стереотелефоны при перемещении слушателя в виртуальной пространстве. Предлагается метод линейной интерполяции со спектральной эквализацией, причем различные участки импульсной характеристики (ранние отражения и поздняя реверберация) обрабатываются отдельно с разной точностью.
Греческий доклад «Определение и оценка вариаций характеристики направленности певческого голоса при движениях исполнителя» (пр. 10646) содержал результаты измерений с помощью линейки полусферических микрофонов характеристик направленности голосов 12 исполнителей при небольших изменениях положения тела в 29 направлениях. Изменения характеристик направленности оказались в пределах 1,5…3 дБ, что не очень значительно сказывается на субъективных оценках.
В завершение хотелось бы отметить небольшое сообщение «Плазменный орган – улучшение прототипа» (Е-108), в котором представлена конструкция небольшого органа (рис.12), где в качестве возбудителей применяются плазменные излучатели (конструкция которых давно известна и описана в литературе). Их применение дает чистый и прозрачный звук, но связано с большой сложностью конструкции и проблемами ионизации воздуха.
В целом можно заметить общую тенденцию: значительное увеличение докладов, посвященных применению систем искусственного интеллекта различной степени сложности во многих направлениях аудиотехники – в проектировании преобразователей, создании систем виртуальной реальности и многих других.