Технологии мастеринга: максимайзеры. Часть 1
Автор: Алексей Лукин
Максимайзер — это прибор динамической обработки, повышающий уровень фонограммы при мастеринге. Иногда максимайзерами называют другие типы приборов, например психоакустическую обработку типа BBE Sonic Maximizer, — их мы здесь рассматривать не будем. Мы познакомимся с принципами работы приборов динамической обработки и сравним между собой некоторые популярные модели программных максимайзеров.
Громкость и уровни
Громкость звука зависит не только от его уровня, но и от его спектрально-временного состава. Если частотный баланс фонограммы уже определен и менять его нежелательно, то для увеличения ее громкости нужно повысить уровень.
Зачем повышать громкость? На это есть две причины. Первая из них заключается в том, что громкая музыка чаще всего кажется «красивее», чем тихая, и больше привлекает внимание. Поэтому большинство продюсеров всеми силами стремятся повысить уровень фонограммы при мастеринге: ведь от этого может зависеть ее коммерческий успех. Вторая причина повышения громкости – желание наиболее полно использовать динамический диапазон носителя аудиозаписи, будь то компакт-диск или аналоговая лента. Также важно максимально использовать динамический диапазон воспроизводящего устройства, чтобы запись не тонула в шумах.
При записи звука носители обычно ограничивают величиной перегрузки пиковый уровень мощности фонограммы, а не ее среднеквадратичную мощность (это несколько упрощенная, но близкая к реальности модель для большинства аналоговых и цифровых носителей звука). Отношение пиковой мощности фонограммы к ее среднеквадратичной мощности (RMS) называется кросс-фактором (crest-factor). Прямоугольная волна имеет единичный кросс-фактор 0 дБ. Кросс-фактор синусоиды равен 3 дБ. Фонограммы с широкой динамикой или резкими пиками обладают высоким кросс-фактором (20 дБ и более), а сильно компрессированные фонограммы – низким (10…15 дБ). Ясно, что при ограниченной пиковой мощности фонограмма с меньшим кросс-фактором может достичь более высокой громкости.
С целью уменьшения кросс-фактора фонограммы ее пропускают через устройства динамической обработки (рисунок 1).
Рассмотрим их принципы работы.
Устройства динамической обработки
Основными устройствами для работы с уровнями фонограммы являются устройства динамической обработки. Принцип действия этих устройств заключается в анализе уровня входящего в них аудиосигнала и изменении этого уровня по некоторому закону. Основными параметрами устройств динамической обработки являются передаточная характеристика и время атаки/восстановления.
Передаточная характеристика (не путать с амплитудно-частотной характеристикой) — это зависимость требуемого выходного уровня звука от входного уровня. В соответствии с передаточной характеристикой, устройство динамической обработки определяет тот коэффициент усиления, который нужно применить к входному сигналу в каждый момент времени. Пример передаточной характеристики показан на рисунке 2. Такое устройство динамической обработки называется компрессором; оно пропускает без изменения звуки с амплитудой до -20 дБ и уменьшает амплитуду всех звуков выше -20 дБ. Таким образом, компрессор делает громкие звуки тише, сужая динамический диапазон фонограммы.
Перелом в передаточной характеристике называется коленом (knee). Входной уровень, соответствующий колену, называется порогом (threshold). Угол наклона передаточной характеристики выше порога определяет степень компрессии (ratio). Степень компрессии 2:1 означает, что при увеличении входного уровня на 2 дБ выше порога выходной уровень вырастет лишь на 1 дБ. Если степень компрессии равна единице, то уровень звука при прохождении через прибор не изменится. Если она стремится к бесконечности, то устройство будет ограничивать амплитуду выходного звука значением порога. Такие устройства называются лимитерами, они ограничивают динамический диапазон. Если же степень компрессии меньше единицы, например 1:1,5, то это значит, что когда входной уровень превышает порог, устройство будет повышать выходной уровень по сравнению с входным. Такие устройства называются экспандерами, и они расширяют динамический диапазон. Существуют и другие типы устройств динамической обработки: гейты, дакеры, левелеры и пр., со своими специфическими передаточными характеристиками и параметрами работы.
Иногда передаточная характеристика сглаживается, чтобы в ней не было острых углов (рисунок 3). Этот режим называется soft knee или soft threshold (мягкий порог). Компрессор с мягким порогом начинает немного уменьшать уровень сигнала еще до достижения им величины порога.
Работу устройства динамической обработки можно описать следующей схемой. Устройство следит за входным уровнем и в соответствии с ним регулирует выходной уровень, т. е. применяет к входному сигналу некоторую амплитудную огибающую (коэффициент усиления), меняющуюся со временем. Для хорошего звучания результирующего сигнала нужно соблюсти несколько условий. Самое главное из них таково: амплитудная огибающая должна быть гладкой, без разрывов и, по возможности, без изломов. Действительно, если амплитудная огибающая имеет разрывы, то выходной звук тоже будет иметь разрывы в форме волны, слышимые как щелчки и треск. Изломы в амплитудной огибающей также будут приводить к искажениям выходного сигнала.
Для сглаживания амплитудной огибающей в устройствах динамической обработки имеются два параметра: время атаки (attack, время срабатывания) и время восстановления (release). Они определяют скорость реакции устройства на изменения входного уровня. Время атаки показывает, за какое время устройство реагирует на превышение порога (атаку), а время восстановления показывает, за какое время устройство реагирует на возвращение входного уровня обратно под порог.
Пусть на вход компрессора подается сначала слабый сигнал, не превышающий порог, а затем – атака, превышающая порог (рисунок 4). В соответствии с передаточной характеристикой, компрессор должен пропустить слабый сигнал без изменения, а уровень громкого сигнала (атаки) – ослабить. Время атаки указывает, за какое время компрессор изменит свой коэффициент усиления от единичного до результирующего, предписанного передаточной характеристикой. Если вслед за громким сигналом входной уровень снова опускается ниже порога, то компрессор переходит в стадию восстановления и снова увеличивает свой коэффициент усиления до единичного. Время, за которое коэффициент усиления вернется к единичному значению, и будет временем восстановления. Определения времени атаки и затухания могут различаться у разных производителей. В некоторых устройствах под временем восстановления понимается не полное время возвращения коэффициента усиления, а время его возвращения, скажем, до половины обратного пути. Часто коэффициент усиления возвращается к исходному значению по экспоненте, и в этом случае лишь второе определение имеет смысл.
Время атаки и время восстановления измеряются в миллисекундах и могут меняться в широких пределах для различных приборов динамической обработки и в зависимости от конкретных задач. Так, например, в компрессорах обычное время атаки — порядка 10…100 мс, а типичное время восстановления — порядка 100…1000 мс. Ясно, что чем больше время атаки и восстановления, тем медленнее будет меняться во времени амплитудная огибающая, тем более гладкой она будет. Однако при большом времени атаки компрессор будет пропускать короткие атаки, превышающие порог, так как не будет успевать на них реагировать. Это может быть нежелательным, например, для лимитеров.
Еще один параметр, встречающийся в процессорах динамической обработки, это — задержка перед восстановлением (release delay или hold). Этот параметр задает время, через которое начинается стадия восстановления после спада входного уровня ниже порога. Другими словами, этот параметр позволяет отложить восстановление на некоторое время. Это может быть полезно, когда превышения порога в сигнале идут периодически, друг за другом. В этом случае задержка восстановления поможет избежать постоянного переключения компрессора между режимами атаки и восстановления и уменьшить изломанность амплитудной огибающей.
Теперь о том, каким образом приборы динамической обработки определяют уровень входного сигнала. Обычно это делается одним из двух способов и похоже на функционирование индикаторов уровня: пиковых и среднеквадратичных. Первый способ – детектирование мгновенных пиковых значений во входном сигнале. Второй – усреднение мощности во времени, то есть вычисление RMS. Пиковый способ часто применяется в лимитерах, где бывает необходимо ограничить пиковые значения сигнала каким-то порогом (например, перед выдачей сигнала в радиолинию или записью на CD). RMS-способ чаще применяется в компрессорах для выравнивания громкости аудио, т. к. громкость сильнее связана со среднеквадратичной, нежели с пиковой, мощностью.
Пиковая мощность превышает RMS, и это нужно учитывать при настройке прибора. Также ясно, что вычисление RMS-мощности требует некоторого временного интервала для интегрирования мощности, и поэтому время реакции устройства на изменения входного уровня не может быть намного меньше, чем это время интегрирования. Другими словами, RMS-компрессор может пропустить кратковременные пики сигнала, практически не успев снизить коэффициент передачи.
Еще одна часто встречающаяся возможность процессоров динамической обработки – это side-chain – дополнительный управляющий вход для звукового сигнала. Когда эта функция задействована, прибору на вход подаются два сигнала: через основной и управляющий входы. При этом «управляющий» сигнал используется только для определения по нему входного уровня и управления уровнем основного сигнала в соответствии с передаточной характеристикой.
С помощью side-chain можно достигнуть некоторых интересных эффектов. Если на side-chain подать тот же сигнал, что и на основной вход, то устройство будет вести себя как обычно, без side-chain. Если же на side-chain подать другой сигнал, то устройство будет обрабатывать основной сигнал, руководствуясь амплитудным профилем управляющего сигнала. Например, если на side-chain подать сигнал, пропущенный через эквалайзер с частотной характеристикой, обратной кривым Флетчера-Менсона (кривые равной громкости слуха), то амплитуда управляющего сигнала будет более правильно отражать реальную громкость основного сигнала. И устройство динамической обработки будет при обработке основного сигнала руководствоваться реальной громкостью исходного сигнала, а не его амплитудой. С помощью такого приема можно более точно выравнивать громкость вместо амплитуды.
Подчеркнем, что сигнал, подаваемый на side-chain, никак не влияет на тембр (частотный баланс) основного обрабатываемого сигнала. Он только управляет амплитудной огибающей.
При работе со стереозаписями процессоры динамической обработки обычно действуют в режиме linked channels, т. е. применяют одинаковые амплитудные огибающие к левому и правому каналам. В противном случае нарушается стереопанорама.
В заключение общей части о динамической обработке отмечу, что хотя с помощью компрессоров были созданы лучшие записи мировой звукорежиссуры, неосторожное обращение с компрессором способно безвозвратно испортить хорошую запись. Ошибочно считать, что действие компрессора можно отменить экспандером. Если динамика потеряна, то расширять уже нечего. Кроме того, и компрессоры, и экспандеры обладают некоторой инерционностью, что делает невозможным точное восстановление динамики.
Максимайзеры
Итак, наша задача – повысить уровень готовой фонограммы до предельно возможных величин, не внося в него существенных искажений. Самый простой способ достичь этого – всем известная нормализация уровня, когда ищется пик максимального уровня в фонограмме и вся фонограмма усиливается на величину этого пика, так чтобы пик принял значение 0 дБ. (Нормализация не обязательно означает достижение уровня 0 дБ. Обычно уровень нормализации задается вручную в децибелах или процентах, например, -0,1 дБ, -0,2 дБ или 99%, 98% и т. п. – прим. ред.). Дальнейшее увеличение уровня фонограммы приведет к клиппингу (clipping, ограничение амплитуды) – перегрузке, влекущей нежелательные искажения.
Очевидно, что для дальнейшего повышения уровня фонограммы можно применять динамическую обработку. Если пропустить фонограмму через компрессор или лимитер, то пиковые значения фонограммы уменьшатся и можно будет еще поднять общий уровень без возникновения перегрузки.
Компрессор или лимитер использовать для повышения громкости? Известный инженер мастеринга Боб Кац рекомендует использовать компрессор, когда требуется изменение характера звука, заметное на слух уменьшение его динамики. Лимитеры же используют, когда нежелательно вносить какие-либо изменения в звук, за исключением громкости.
Максимайзер – это прибор динамической обработки, который состоит из лимитера и последующего усилителя сигнала. Часто в максимайзеры также встраивается система снижения разрядности, но здесь мы эту часть рассматривать не будем.
Основные управляющие элементы максимайзера – порог срабатывания (threshold) и настройки лимитера (attack, release). В некоторых максимайзерах есть также регулятор «ceiling», позволяющий после лимитирования усилить сигнал не до 0 дБ, а чуть слабее, чтобы оставить немного «свободного места» (headroom) на случай небольшой дальнейшей обработки. Например, если фонограмма будет после максимайзера закодирована в МР3, то при раскодировании форма волны немного изменится, и может произойти клиппинг. Даже если сигнал не предполагается далее обрабатывать или сжимать с потерями качества, то немного свободного места может потребоваться для шума диттеринга, добавляемого при последующем снижении разрядности.
Чем ниже устанавливается порог срабатывания, тем сильнее лимитер ограничивает динамический диапазон и тем сильнее можно будет поднять громкость после лимитера. Таким образом, более низкие значения порога приводят к более громкому звучанию на выходе прибора.
Усилитель вопросов не вызывает, поэтому остановимся на устройстве лимитера. Задача максимайзера — максимально повысить уровень фонограммы, но не допустить клиппинга, т. е. не позволить мгновенной мощности выйти за пределы уровня 0 дБ. Из этого следует, что в качестве метода определения входного уровня для максимайзеров подходит только пиковый метод. Максимайзер должен отслеживать пики сигнала и строить амплитудную огибающую так, чтобы после ее применения к сигналу пики оказались ниже уровня порога. Когда входной уровень ниже порога, лимитер максимайзера пропускает сигнал без изменений. А когда входной уровень превышает порог, лимитер должен ослабить сигнал так, чтобы превышения порога не было.
Так как мы хотим, чтобы амплитудная огибающая была плавной, без разрывов и изломов, то мы приходим к заключению, что лимитер должен знать, какой амплитудный профиль будет у звуковой волны в ближайшие моменты времени. Действительно, если бы такой возможности у лимитера не было, то при возникновении на входе резкой атаки, превышающей порог, лимитеру пришлось бы мгновенно понизить уровень усиления, чтобы предотвратить превышение порога. Мгновенное понижение уровня усиления — это и есть разрыв или излом в амплитудной огибающей, которого желательно избежать. Итак, для построения плавной амплитудной огибающей лимитеру необходимо знать значения сигнала с некоторым опережением. Так как надежно предсказать сигнал по прошедшим значениям возможности нет, то функция «заглядывания вперед» (look-ahead) реализуется с помощью небольшой задержки выходного сигнала относительно входного. Таким образом, при выдаче выходного сигнала, соответствующего моменту времени t, у лимитера на самом деле уже есть входной сигнал для моментов времени вплоть до t+T, где T — время задержки. О задержке следует помнить, когда требуется синхронизация сигналов в программах, обрабатывающих сигнал в реальном времени. Если же обработка осуществляется не в реальном времени, то программа, выполняющая обработку (host-приложение), чаще всего может скомпенсировать задержку, т. е. «выровнять» выходной сигнал максимайзера по времени. Обычно задержки, вносимые максимайзерами, невелики, до 10 мс, но бывают и исключения.
Руководствуясь будущими значениями пиковых уровней, лимитер может построить плавную амплитудную огибающую, начав ослаблять усиление заранее, до начала атаки во входном сигнале. Другими словами, лимитер должен построить амплитудную огибающую вокруг пиков в виде ямок, где глубина ямок будет определяться величиной превышения порога пиковым уровнем, а ширина — временем атаки и восстановления (рисунок 5). Ясно, что чем шире ямки, тем большие участки сигнала будут подавлены и тем меньше будет окончательная громкость фонограммы. Таким образом, громкость фонограммы зависит не только от установленного значения порога, но и от времени атаки/восстановления, а также от формы амплитудной огибающей во время атаки и восстановления.
Управление временем атаки и восстановления
Когда сигнал умножается на амплитудную огибающую, в спектре сигнала могут появляться дополнительные гармоники. Чем меньше время атаки и восстановления максимайзера, тем громче получается результирующий звук, но тем более изломанной становится амплитудная огибающая и тем больше возникает интермодуляционных искажений.
При малом времени атаки и восстановления интермодуляционные искажения становятся особенно заметными, когда в сигнале присутствуют басовые тона большой амплитуды с периодом, меньшим или равным времени атаки/восстановления. Это можно продемонстрировать на тестовых сигналах, являющихся суммами синусоид с различными частотами (стандартный тест интермодуляционных искажений, рисунок 6).
При большом времени атаки и восстановления начинает проявляться эффект «проваливания» громкости (pumping). Провалы громкости возникают вокруг кратковременных пиков в сигнале (рисунок 5). Вокруг каждого из таких пиков амплитудная огибающая имеет форму широкой ямы, проваливая по громкости весь сигнал. На слух это воспринимается как выпадение, дрожание громкости.
Таким образом, выбор времени атаки/восстановления — это компромисс между интермодуляционными искажениями и эффектом проваливания громкости. Для дальнейших рассмотрений введем понятие агрессивности максимайзера. Будем говорить, что один максимайзер агрессивнее другого, если при равных значениях порога первый максимайзер дает более громкий (по RMS) звук на выходе. Понятно, что агрессивность зависит от времени атаки/восстановления и от формы амплитудной огибающей во время атак/восстановлений.
У большинства максимайзеров пользователь устанавливает время атаки и восстановления вручную, после установки величины порога. Если слышны интермодуляционные искажения, то агрессивность уменьшается (время атаки/восстановления увеличивается). Если не слышны — то можно попытаться увеличить агрессивность в надежде достичь большей громкости и уменьшения эффекта проваливания громкости. Обычно глубокое лимитирование требует большего времени атаки/восстановления.
Существует способ автоматического адаптивного управления агрессивностью максимайзера на основании анализа входного сигнала. Действительно, если в фонограмме присутствуют резкие пики, то желательно повысить агрессивность, чтобы не возникло эффекта проваливания громкости. Интермодуляционных искажений в данном случае не возникнет, так как если пики единичны, то в амплитудной огибающей не будет существенных периодичностей, приводящих к интермодуляционным искажениям. Кроме того, наше ухо обладает свойством пониженной чувствительности к кратковременным, до 6 мс, искажениям. Таким образом, максимайзер будет быстро реагировать на единичные пики, сразу возвращаясь к единичному коэффициенту усиления.
Если же на вход поступает периодический сигнал, с постоянными, периодично следующими превышениями порога, то желательно понизить агрессивность максимайзера (т. е. увеличить время атаки/восстановления), чтобы не возникло интермодуляционных искажений.
Если осуществлять такое регулирование адаптивно, постоянно подстраиваясь под входной сигнал, то это позволит заметно повысить среднюю агрессивность максимайзера (т. е. громкость выходного сигнала) без увеличения искажений.
Один из первых максимайзеров, реализующих такую стратегию, – Waves L2 в режиме ARC (Auto Release Control). Следует отметить, что дословное понимание термина «автоматическое управление временем восстановления» не совсем точно описывает принцип работы Waves L2. В этом максимайзере используется несколько более сложный метод построения амплитудной огибающей, основанный на комбинировании двух видов амплитудных огибающих: агрессивной и неагрессивной. При единичных пиках входного сигнала применяется агрессивная огибающая, а при периодических, групповых превышениях порога – определенная комбинация двух огибающих. Таким образом достигается более громкое и качественное звучание, чем при простом управлении временем восстановления. Похожий алгоритм реализован в максимайзере iZotope Ozone.
Тест
Чтобы проверить наличие функции автоконтроля агрессивности, проведем несложный тест. В левом канале тестового файла создадим следующий тестовый сигнал. В первую секунду пусть там будет один кратковременный импульсный пик. Во вторую секунду поместим туда синусоиду с частотой 100 Гц и оставим в конце немного тишины. В правый же канал поместим постоянный ток (DC) на протяжении всего файла. Амплитуду сигналов выберем так, чтобы и импульс, и синусоида превышали порог максимайзера, а постоянный ток — не превышал.
Пропустим наш тестовый сигнал через максимайзер, обратив внимание на то, чтобы он работал в режиме linked channels, то есть применял одну и ту же амплитудную огибающую к обоим каналам. Тогда на выходе максимайзера в правом канале будет содержаться амплитудная огибающая, которую максимайзер построил по левому каналу (рисунок 5). Посмотрев на форму волны амплитудной огибающей, можно сделать много полезных выводов о функционировании максимайзера. Если время восстановления после пика существенно меньше времени восстановления после синусоиды, то максимайзер использует автоконтроль времени восстановления.
(Продолжение следует…)