Корректность программной обработки

СТУДИЯ ВИДЕОТОН. ГЛАВНАЯ. ВИДЕО, ПРОИЗВОДСТВО ФИЛЬМОВ, ТЕЛЕПРОГРАММ, РЕКЛАМНЫХ, КОРПОРАТИВНЫХ, ПРЕЗЕНТАЦИОННЫХ, УЧЕБНЫХ, РОЛИКОВ, ПОДВОДНЫЕ СЪЕМКИ, ПРОФЕССИОНАЛЬНАЯ СЪЕМКА, ВИДЕОМОНТАЖ.

СЪЕМКА РЕКЛАМНЫХ, КОРПОРАТИВНЫХ, ДОКУМЕНТАЛЬНЫХ, ПРЕЗЕНТАЦИОННЫХ, ВЫСТАВОЧНЫХ ФИЛЬМОВ.
Tелефон для связи: +7 (903) 774-37-30, +7 (963) 761-03-56 E-mail: oleg@videoton.ru boleg@mail.ru
Главная	Карта сайта	Примеры работ	Теория и практика	Прайс-листы	Как нас найти

Готовые решения

Видео для бизнеса

Презентационные

Для частных клиентов

Студия ВИДЕОТОН

О нас

Как мы работаем

Сотрудничество

Примеры работ

Вакансии

Производство

Видеосъемка

Создание DVD

Аренда техники

Комплекты ТЖК

Для презентаций

Монтажные

Подводные комплекты

Видеоматериалы

Обучение

Подводные видео курсы

Информация

Термины

Каталог видеокамер

Новости технологий

Формат DVCAM

Формат HDV

Видеотехника

Корректность программной обработки аудио.

Не секрет, что одним из важнейших факторов, влияющих на субъективную оценку качества любой фонограммы, является ее “прозрачность” — возможность с максимальной верностью передать акустику пространства, в котором одинаково легко читаются и локализуются как громкие звуки, так и самые тихие, как разные по спектральному составу, так и похожие. Исходя из теоремы Фурье, предположим, что для этого необходимо (но, конечно, недостаточно), чтобы все гармоники каждого из источников звука, присутствующие в фонограмме, были расположены в одной точке виртуального пространства. В случае же, когда какой-то из источников звука является стереофоническим, для достижения естественной локализации его звучания необходимым условием является равноудаленность слушателя от источника каждой из гармоник, составляющих его спектр.

Это утверждение справедливо как для аналогового, так и для цифрового тракта передачи сигнала. Причины “замутнения” микса в обоих случаях одни и те же — это гармонические и фазовые искажения и падение разрешающей способности тракта при низких уровнях сигнала, равно как и эффект маскировки сильным сигналом слабого, наиболее ярко выраженный именно в цифровых системах звукопередачи. Рассмотрим появление гармонических искажений как одну из причин ухудшения локализации источника звука. В самом деле, предположим, что точечный источник звука, состоящий из созвучия обертонов, помещен в некоторую точку замкнутого пространства на некотором расстоянии от слушателя. Для моделирования акустических свойств пространства мы используем аппаратный или программный реверберационный алгоритм.

Логично предположить, что если все гармоники, составляющие исследуемый точечный источник звука, исходят из одной и той же точки пространства, то и источник звука целиком будет нам казаться расположенным в этой точке. Тогда добавление гармонических составляющих к сигналу, происшедшее после помещения его в создаваемую акустическую среду, неизбежно приведет к ухудшению локализации источника звука — ведь эти гармоники не были обработаны ревербератором и будут звучать из другой точки пространства. А в случае, если источников звука два и больше, акустическая среда может оказаться полностью “замыленной”. Кстати сказать, последнее в большей степени относится к программным ревербераторам — при их использовании практически невозможно получить сколько-нибудь читабельные звуковые планы, при размещении в виртуальном пространстве больше трех инструментов одновременно.

Кроме разрушения пространственной картины, гармонические искажения приводят к изменению тембра музыкальных инструментов, нивелируя тембральные и динамические нюансы в их звучании, что тоже приводит к ухудшению локализации инструментов.

Справедливости ради следует отметить, что довольно часто подобное звучание называют “плотным” и целенаправленно пользуются приборами, генерирующими большое число гармоник (разного рода “максимайзерами”, а также имитаторами магнитной ленты и иного рода сатураторами) для того, чтобы добиться максимально громкого звучания фонограммы.

Оговорюсь, что приведенная методика применима только к компьютерным технологиям обработки звука. Никому не придет в голову измерять коэффициент гармонических искажений сигнала, обработанного ламповым компрессором или эквалайзером. В этом случае гармоники служат основой для новой, так называемой “ламповой” окраски звука, и (благодаря тому, что их спектр гораздо уже, нежели спектр гармоник “цифровых”) разрушающее воздействие их на акустическую среду редактируемой фонограммы значительно меньше.

Итак, где же источник нежелательных гармоник и каким образом избежать их появления в фонограмме, обрабатываемой на компьютере?

Для ответа на этот вопрос была проведена серия экспериментов, суть которых состоит в следующем:

1) монофонический WAV-файл синусоидального звукового сигнала частоты 1000 Гц в формате 24 бита 48 кГц, сгенерированный в Steinberg WaveLab 3.03 (рис. 1), и

Рис. 1

2) монофонический WAV-файл синусоидального звукового сигнала частоты 1000 Гц, в формате 16 бит 48 кГц, полученный из первого файла посредством дизеринга (алгоритм UV-22) (рис. 2)

Рис. 2

последовательно подвергались нормализации, эквализации, изменению уровня, компрессии, ресемплингу, — то есть обработке, применять которую приходится постоянно. Были протестированы вышеперечисленные алгоритмы следующих программ: Cool Edit Pro 1.2, Cool Edit 2000, WaveLab 3.03d, Sound Forge 5.0 r117, Cubase 5.0 r1, Cakewalk Audio Pro 9.03, Samplitude 5.58, Samplitude 5.9, Nuendo 1.5 и Logic Audio Platinum 4.61.

После каждого пересчета файл сохранялся, и спектр его контролировался в программе SpectraLAB 4.32.16 от компании Sound Technology на предмет обнаружения новых гармоник, отсутствовавших в звуковом файле до обработки (режим Postprocess, FFT Size = 32768, по форме Ханнинга в диапазоне частот 3-20000 Гц с экспоненциальной частотной шкалой и динамическим диапазоном 140 дБ).

Эксперименты проводились на рабочей станции следующей конфигурации:
- процессор Intel Pentium III 500 МГц;
- материнская плата Gygabite GA-6BXU;
- UW SCSI контроллер Adaptec AHA 2940 (интегрирован);
- RAM 192 Мбайта;
- жесткий диск UWSCSI IBM DNES 309170 W;
- видеоадаптер S3 Savage4 AGP;
- плата ввода-вывода Lexicon Core 32 с интерфейсом LDI-12T;
- звуковая плата SB Live!Value.

Syntrillium Cool Edit Pro 1.2, Cool Edit 2000
Поскольку по корректности проводимых вычислений эти программы не отличаются одна от другой, их имеет смысл рассмотреть вместе. Cool Edit Pro позволяет создавать временные файлы разрядностью 32 бита и автоматически проводить дизеринг при сохранении редактируемого файла с понижением его разрядности. Эта функция находится в меню Options — Settings на вкладке Data. Для ее включения необходимо отметить опции “Auto-convert all data to 32-bit upon opening” и “Dither transform results”, и установить значение “1 bit” в пункте ”Dither amount for saving 32-bit data to 16 bit file”. Пользователь может даже и не знать, что такое дизеринг, зачем он нужен и когда его производят, — после перезапуска программа сама будет работать с данными с максимальной аккуратностью, беря на себя все заботы по изменению разрядности аудиоданных.

В результате алгоритмы пересчета абсолютно корректны и при работе с 16-битным исходником, и с 32-битным. Единственное исключение — это алгоритм Quick Filter (меню Transform — Filters — Quick Filter), который проводит вычисления с 16-битной точностью, и, вследствие этого, мы сталкиваемся с появлением транкейта — отсеканием младших разрядов числа, округлением до 16 бит данных 32-разрядного исходного файла. Сам по себе транкейт невидим и неощутим, но следствием его являются вполне ощутимые и отлично видимые на спектрограмме гармонические искажения, против которых мы дружим в рамках этой статьи (рис. 3, параметры фильтрации: -2,2 дБ на частотах 750 Гц и 1500 Гц).

Рис. 3

Самым неприятным свойством транкейта является то, что уровень гармонических составляющих, им вызываемых, практически не зависит от уровня сигнала. Поэтому в наибольшей степени от них страдают именно сигналы низкого уровня — это, в первую очередь, реверберационные “хвосты” и акустическая среда — именно те факторы, которые и характеризуют “прозрачность” фонограммы.

Впрочем, в справочной системе к программе оговорено, что “некоторые алгоритмы обработки не являются 32-битными”.

Отдельно стоит отметить качество алгоритма ресемплинга (меню Edit — Convert sample type): при ресемплировании 24-битного 48-килогерцового файла до 44100 герц с понижением разрядности до 16 бит в исследуемом динамическом и частотном диапазонах не появилось ни одной гармоники (рис. 4). Регулятор качества преобразования (Low/High Quality) был установлен в положение “999”.

Рис. 4

Steinberg WaveLab 3.03d
WaveLab, как и Cool Edit Pro, тоже позволяет создавать временные файлы высокой разрядности (меню Options — Preferences, вкладка File, из выпадающего меню выбрать “Create 32bit float temporary files”), но на этом “защита от дурака” заканчивается. Программа предоставляет возможность пользователю самому следить за изменением разрядности аудиофайлов. Если вы открыли 16-битный файл, любым образом обработали его и потом сохранили его на диск — самая что ни на есть ординарная процедура, не правда ли? — вы в обязательном порядке станете виновником транкейта с 32 бит до 16 (рис. 5, серая спектрограмма). Чтобы этого не случилось, необходимо непосредственно перед сохранением файла производить его дизеринг — или встроенным в мастер-секцию штатным алгоритмом, или любым другим, включив его в последнюю ячейку мастер-секции. Дополнительных гармоник в этом случае не возникает (рис. 5, график черного цвета). Повторюсь — вышесказанное относится только к 16-битным файлам. При сохранении в 24 и, тем более, в 32 бита транкейт не возникает.

Рис. 5

По сравнению с предыдущими версиями программы, в версии 3.03 произошли глобальные изменения в алгоритмах. Если раньше все они, за исключением Change gain, были 16-разрядными, то сейчас в 16 битах считают только параметрический эквалайзер (меню Process — EQ) (рис. 6, параметры эквализации: -2 дБ на частоте 1000 Гц) и компрессор (меню Level — Dynamics) (рис. 7, параметры компрессии: ratio 2:1, threshold -20 dB, attack 20ms, release 300 ms).

Рис. 6

Рис. 7

Посерьезнее выглядит теперь и ресемплинг, выполненный уже в виде штатного подключаемого модуля и включающийся в мастер-секцию. Результат его работы по ресемплированию 24-битного файла из 48 в 44,1 кГц с понижением разрядности до 16 бит в режиме наивысшего качества представлен на рисунке 8.

Рис. 8

Sonic Foundry Sound Forge 5.0
Дождались… Народный любимец, наконец, предстал во всем блеске современной атрибутики — от заоблачных высот частоты дискретизации и поддержки 24/32-битных файлов до целой обоймы встроенной обработки, которая раньше стоила совсем отдельных денег.

Все, что касается работы с 16-битными файлами (создание 32-битных временных файлов и обязательный дизеринг перед сохранением сделанных изменений), здесь совершенно аналогично тому, что было сказано о Steinberg WaveLab. Управление разрядностью временных файлов производится из меню Options — Preferences с вкладки File установкой галочки напротив пункта “Use 32-bit (IEEE Float) temporary files”. Нюанс — эта установка работает только в том случае, когда вы не используете открытие файлов в Direct mode; в противном случае разрядность редактируемого файла меняться не будет независимо от того, отмечена опция или нет.

При соблюдении всех условий исследуемые операции не произвели видимого ухудшения обрабатываемого файла, исключая алгоритм ресемплинга, который оказался несколько хуже того, который предлагает Steinberg WaveLab (рис. 9, параметры дизеринга: triangular dither (2 bits peak-to-peak), нойс-шейпинг — High-pass contour).

Рис. 9

Steinberg Cubase 5.0 r1
Первая из протестированных программ многодорожечной записи. Ввиду ограниченных возможностей разрушающего редактирования отчет о ней может показаться несколько неполным. Но это с лихвой окупается странностью обнаруженной проблемы.

Одним из минусов этой программы всегда была одноуровневая отмена сделанных изменений (Undo). Организована эта функция самым простым и, вероятно, логичным способом — перед редактированием аудиофайла имяфайла.wav создается его копия имяфайла_undo_.wav (или копия только той его части, которая подвергалась обработке), которая при отмене сделанных изменений просто переименовывается обратно в имяфайла.wav. Просто и изящно, казалось бы, и что же тут может не работать? Суть проблемы заключается в том, что если при редактировании 24-битного файла отменить последнее сделанное изменение, то в этом файле появляются гармоники, вызванные транкейтом с 24 бит до 16 (рис. 10, Undo после Normalize), то есть вместо простых операций на уровне операционной системы — копирования, переименования — имеет место какая-то арифметическая обработка с 16-битным алгоритмом пересчета и без дизеринга. Причем, если обработать фрагмент аудиофайла и потом совершить отмену, то с транкейтом оказывается не весь исходный файл, а только обработанный фрагмент.

Рис. 10

Совершенно очевидно, что этот 16-разрядный пересчет производится только на стадии отмены. Если до ее совершения посмотреть редактируемый файл и его Undo-копию — все ОК, никаких лишних гармоник, один файл — исходный, второй — обработанный, как в учебнике, а после отмены исходный файл оказывается с гармониками, а файл Undo, остающийся в рабочем каталоге до завершения работы с программой, в некоторых случаях (например, при отмене после нормализации или изменения уровня) получает такие же гармоники, как и файл исходный, а в некоторых (после фейдов) в его спектрограмме появляются следы 16-разрядной обработки с последующим дизерингом, похожим на простое зашумление, не способное даже полностью скрыть образовавшиеся гармоники (рис. 11, Undo после Fade In).

Рис. 11

Этот же алгоритм дизеринга применяется и при редактировании 16-битных файлов. Широко рекламируемый алгоритм UV-22 можно включить только в разрыв мастера и использовать его при мониторинге или миксдауне — при разрушающем редактировании он не задействован, во всяком случае, пока. 24-битные файлы обрабатываются вполне корректно.

Известная по предыдущим версиям Cubase VST не отмечаемая индикатором перегрузка мастер-шины при миксдауне в текущей версии программы устранена.

Steinberg Nuendo 1.5
В случае с Nuendo производители поступили хитро, возложив всю ответственность за качество звучания на пользователя. Хочешь, чтобы было хорошо, — конвертируй все импортируемые файлы до разрядности, принятой в проекте по умолчанию, благо эта операция автоматизирована. Другими словами, устанавливай разрядность проекта в 24 или 32 бита, и пусть тебя не волнует транкейт, возникающий при всех видах обработки 16-разрядных файлов, например, при нормализации (рис. 12).

Рис. 12

При обработке 24-битных файлов никаких новых гармоник не возникает. Следует отметить, что по умолчанию Nuendo создает 16-битный проект, и при импортировании в него файлов более высокой разрядности, если не принять специальных мер, мы опять будем иметь дело с транкейтом младших разрядов. Специальные меры заключаются в том, чтобы:
а) увеличить все же разрядность вашего проекта;
б) не давать программе уменьшать разрядность исходников, для чего в диалоге “Import Options” (который, кстати, появляется всегда, если в меню File — Preferences на вкладке “Audio” напротив “On import audio file” из выпадающего меню выбрать “Open options dialog”) убрать “галку”, стоящую напротив “Convert to Project Sample Size”. В этом случае вы ничего не теряете — разрядность всех временных файлов (файлов Undo и кроссфейдов) будет такой же, как у файлов исходных; 16-разрядными окажутся только те файлы, которые будут не импортироваться, а записываться непосредственно в проект.

Это именно тот случай, когда 16-разрядные файлы в конечном итоге могут стать причиной серьезной головной боли. Дело в том, что Nuendo для каждого изменения файла создает отдельный Undo-файл той же разрядности, что и файл исходный, и при последовательной обработке аудиофрагмента несколькими алгоритмами гармонические искажения будут накапливаться, приводя к заметной эскалации “цифрового звучания”.

В случае, если частота дискретизации импортируемого файла отличается от принятой в проекте, то программа предлагает пересемплировать его. Но стоит все же иметь в виду, что алгоритм, при помощи которого она это делает, оставляет желать лучшего (рис. 13, ресемплинг с 24 бит 48000 Гц до 44100 Гц без понижения разрядности).

Рис. 13

SEK’D Samplitude 5.58 и 5.9
Samplitude традиционно считается лучшей программой многодорожечной записи. И, нужно сказать, вполне заслуженно. Я не буду рассматривать достоинства и недостатки интерфейса, а только штатные алгоритмы обработки файлов разной разрядности. В этой области Samplitude сродни Cool Edit Pro. Стоит только один раз указать в меню File — Preferences — Dithering options, какой именно алгоритм дизеринга вам нужен, и внутреннюю точность обработки в меню File — Preferences — Internal precision, и можно работать почти как в аналоговой студии, не заботясь о разрядности.

Зато предлагаемый алгоритм ресемплинга далеко не лучший среди тестируемых программ (рис. 14, черный график).

Рис. 14

На сегодняшний день последний официальный выпуск Samplitude — версия 5.9. Алгоритмы обработки изменений не претерпели, но ресемплинг переведен в разряд автоматических процедур, выполняемых при импорте файла или при его записи. Спектрограмма ресемплированного сигнала выглядит несколько иначе по сравнению с предыдущей версией программы (рис. 14, график серого цвета, ресемплинг с 24 бит 48000 герц до 44100 герц без понижения разрядности).

Cakewalk Pro Audio 9.03
Качество обработки Cakewalk целиком и полностью определяется разрядностью проекта, установленной в меню Options — Audio, вкладка General, пункт “File bit depth”. И тем, отмечена ли опция “Copy and Manage Imported Files” на вкладке Advanced в том же пункте меню.

Если с целью экономии процессорного времени и места на диске установить разрядность проекта, равную 16 бит, то и все временные файлы, создаваемые в процессе работы, будут 16-битными. В этом случае при любой операции, связанной с разрушающим редактированием аудиофайла, неизбежно появление гармонических искажений, вызванных транкейтом (рис. 15, алгоритм “Graphic EQ”, параметры эквализации: -2 дБ на частоте 1000 Гц). Этим Cakewalk, кстати, кардинально отличается и от программы Samplitude, которая всегда при работе с низкоразрядным аудио использует дизеринг, и от программы Nuendo, вообще никогда не изменяющей разрядность файла без разрешения — даже если вы импортируете в 16-битный проект 32-битный файл.

Рис. 15

При установке же в Cakewalk разрядности проекта, равной 24 битам, никаких посторонних колебаний не возникает ни на каких алгоритмах, исключая ресемплинг.

Возможность ресемплинга не документирована — нет такого пункта меню или такой “горячей” клавиши, нажав которую, можно открыть окно диалога “Change Sample Rate”. Изменение частоты дискретизации производится автоматически при импорте аудиофайла, частота дискретизации которого не совпадает с частотой дискретизации проекта (рис. 16). Судя по всему, этот алгоритм в Cakewalk — атавизм, оставшийся со времен, когда дискеты были большими — какая-то совершенно второстепенная техническая функция.

Рис. 16

Emagic Logic Audio Platinum 4.61
Logic Audio не позволяет управлять разрядностью временных файлов — она всегда равна разрядности обрабатываемого аудиофайла, и, как следствие, работа с 16-разрядными данными известным образом затруднена (рис. 17, алгоритм “Change Gain”, параметры: -1дБ — черный график, -6дБ — серый график). По графикам хорошо видно, что в данном примере коэффициент гармонических искажений, вызванных транкейтом при цифровой обработке, зависит от того, насколько изменяется уровень сигнала при пересчете, хотя эта зависимость и носит нелинейный характер.

Рис. 17

Алгоритм ресемплирования не слишком хорош (рис. 18, ресемплинг с 24 бит 48000 герц до 44100 герц без понижения разрядности).

Рис. 18

Думаю, что еще стоит вкратце сказать про те алгоритмы, результатом которых является, так сказать, санкционированное появление нелинейных искажений. Это уже упомянутые ранее имитаторы магнитной ленты (Steinberg Magneto, PSP MixSaturator) и разного рода максимайзеры (Waves L1 Ultramaximizer, и его клоны, такие, как новый фаворит от Sonic Foundry — Wave Hammer). Принципы работы у сатураторов и максимайзеров совершенно разные, но результатом в обоих случаях является субъективное увеличение громкости звучания файла, иногда описываемое как его “уплотнение”. Побочным эффектом этого является появление ощутимых нелинейных искажений, способных до неузнаваемости изменить обрабатываемую фонограмму (рис. 19, черный график — Waves L1 Ultramaximizer, серый — Wave Hammer, тестовый файл состоит из двух частот, 30 и 1000 Гц, с уровнями -12 дБ и -6 дБ соответственно, при разрядности, равной 24; уровень сжатия в обоих случаях -3 дБ, время восстановления 100 миллисекунд). При исследовании файла, содержащего колебания только одной частоты, никаких дополнительных гармоник не возникает, но стоит только к существующему прибавить еще хотя бы один тестовый сигнал, как любой транкейт просто меркнет перед обилием вновь рожденных частот и их амплитудами. Спектр генерируемых гармоник и их количество варьируется в широких пределах и зависит от времени восстановления и уровня сжатия.

Рис. 19

Цена, которую мы в этом случае платим за громкость, — это прозрачность “микса”, и здесь выбор “золотой середины” всецело за пользователем. Не стоит забывать при этом, что подобные устройства, по сути, являются пиковыми лимитерами и предназначены для работы только с пиками сигнала, не превышающими по длительности установленного времени восстановления (по умолчанию — одна миллисекунда). В противном случае рост нелинейных искажений становится неконтролируемым.

Резюме
Судя по всему, 16-разрядный формат представления аудиоданных изжил себя. Производители программного обеспечения не особенно стараются обеспечить корректную работу своих алгоритмов разрушающего редактирования в 16-битной среде. Поэтому имеет смысл везде, где это возможно, отказаться от 16-разрядного формата, а если — по той или иной причине — это не представляется возможным, то всю обработку производить в реальном времени, благо данные вычислений в этом случае хранятся в форме 24/32-разрядных чисел, а это именно тот формат, который корректно поддерживают все современные программы.

У кого есть возможность комбинировать программы для разных операций, могут выиграть в качестве за счет использования для разных алгоритмов именно тех программ, которые делают их максимально корректно, например, ресемплинг производить в Cool Edit Pro, а всю остальную обработку — в Samplitude, и т. д.

Алексей ЗАЙЦЕВ
Музыкальное Оборудование

Назад на страницу теория и практика.

	Студия ВИДЕОТОН
	Телефон для связи +7(903)774-37-30 +7(963)761-03-56 E-mail для связи: oleg@videoton.ru boleg@mail.ru