aac

Формат аудиосжатия MPEG-2 AAC Формат аудиосжатия MPEG-2 AAC (MPEG-2 Advanced Audio Coding - расширенное аудио кодирование) был разработан в стенах института Fraunhofer, при активном участии компаний AT&T, Sony, NEC и Dolby в начале 1998 года. Этот формат изначально позиционировался разработчиками как преемник MP3, так как обладал по сравнению с последним рядом несомненных достоинств. Как и в MP3 в основе алгоритма AAC лежит психоакустическая модель кодирования, то есть при сжатии какая-то часть звукового спектра удаляется. При этом алгоритм AAC содержит большое количество усовершенствований, направленных именно на улучшение качества выходного аудиосигнала. В MPEG-2 AAC используются другие алгоритмы преобразований, улучшенные обработчики шумов и новый банк фильтров. Из специальных возможностей можно назвать, так называемые "водяные знаки" (watermarks) - информацию об авторских правах, которую AAC позволяет хранить в теле аудиокомпозиции, причем удалить эту информацию не разрушив целостность аудиоданных невозможно. При этом MPEG-2 AAC обладает высочайшим качеством звучания и очень хорошей степенью компрессии аудиокомпозиций. Так, например, аудиокомпозиция в формате AAC с bitrate 96 kbs обеспечивает качество звучания, аналогичное потоку MPEG-1 Layer III bitrate128 kbs. При сравнении же файлов AAC с bitrate 128 kbs, качество звучания ощутимо превосходит MPEG-1 Layer III с такой же степенью сжатия. И вполне возможно этот формат заменил бы устаревающий MP3 если бы не одно но... Сразу же после окончания работ над MPEG-2 AAC некоторые из компаний соучредителей забрали причитающиеся им исходные коды стандарта и на их базе создали собственные форматы, коммерческие и не совместимые друг с другом. Вот таким образом и появилась та мешанина несовместимых форматов, которые называют "семейство форматов аудиосжатия AAC". На данный момент существуют четыре разновидности формата AAC: Homeboy AAC AT&T a2b AAC Liquifier PRO AAC Astrid/Quartex AAC Все эти модификации несовместимы между собой, имеют собственные кодеры/ декодеры и неодинаковы по качеству. Так, последние две модификации по ряду параметров превосходят первую пару. В целях ознакомления и сравнения этих модификаций между собой рассмотрим все представленные форматы этого семейства. Утверждается, что AAC, стандартизованная ISO как часть спецификации MPEG-2, обеспечивает более высокое качество звука, нежели MP3 (MPEG1 Layer-3), а при сопоставимом качестве требует на 30% меньше дискового пространства или величины сжатого потока [1]. ААС-поток способен нести 48 каналов аудио при изначальной оцифровке до 96 кГц, 15 встроенных потоков данных и "говорить" на разных языках. ААС выбран для цифрового радиовещания в АМ-диапазоне (<30 МГц). Высококачественное радиовещание достигается при 320 кбит/с для 5+1-канальной программы. Более того, ААС (с некоторыми модификациями) является единственной высококачественной аудиотехнологией, используемой в рамках стандарта MPEG-4 - глобального мультимедийного формата будущего. Среди создателей ААС - AT&T, Dolby Laboratories, Fraunhofer IIS, Lucent Technologies, Sony Corporation и другие [2]. Так же как в МР3 и АС3, сжатие в ААС основано на психоакустических особенностях восприятия звука. Вместе с тем между ними имеются существенные различия: Вместо гибридного (каскадного) банка фильтров ААС использует модифицированное дискретное преобразование в частотную область (MDCT) с импульсным откликом 5,3 мс (18,6 мс для МР3) при дискретизации 48 кГц, что уменьшает артефакты сжатия в момент взрывного нарастания амплитуды. Наряду с увеличением разрешения по частоте (1024 линии вместо 576 для МР3) MDCT повышает эффективность кодирования. Для улучшения кодирования чистых тонов опционно применяется обратное адаптивное предсказание. Информация, которая должна быть донесена да слушателя, подвергается энтропийному кодированию, чтобы устранить избыточность, насколько это возможно. Минимизация переходных шумов (Temporal Noise Shaping - TNS) сглаживает распределение шума квантизации во времени посредством предсказания в частотной области. В частности, благодаря TNS улучшается качество воспроизведения голосовых сигналов, особенно - на низких потоках. Как МР3, так и ААС имеют критическое значение битрейта, выше которого качество звука улучшается очень медленно (по мере дальнейшего увеличения потока), зато ниже - ухудшается очень быстро. Так вот, для МР3 критический битрейт составляет около 1,33 бита на дискрету (128 кбит/с для стереосигнала 48 кГц), а для ААС - 1 бит на дискрету (96 кбит/с для стерео 48 кГц). В плане критического битрейта многоканальное кодирование еще более эффективно. Технология ААС позаимствовала у АС3 возможность кодирования нескольких параллельных каналов, а у МР3 - принципы психоакустической модели. Судя по скупым функциональным схемам, разработчики ААС отказались от характерного для АС3 представления в виде мантиссы и экспоненты результата преобразования в частотную область, внеся параметр настройки уровня "громкости" для каждого блока данных. Этот параметр обеспечивает динамический диапазон ААС, эквивалентный 24 битам. Оригинальные нововведения ААС привели к увеличению продолжительности кодирования чуть ли не вдвое, но почти не сказались на "прожорливости" декодирования. Существует "облегченная" версия ААС (MPEG-2 AAC low complexity profile): предсказание отсутствует, а TNS ограничено двенадцатью коэффициентами, но с рабочей полосой до 18 кГц [4]. Частная модификация этой версии привела к рождению оригинального формата a2b, предназначенного для легального получения "сжатой" музыки через Интернет.
Тесты на прослушивание
Конечно, основатели ААС не замедлили выдвинуть аргументы в пользу своего детища. В отчете ISO титулованные эксперты утверждают, что ААС превосходит все другие технологии кодирования [5] и что полноценный ААС при 128 кбит/с неотличим от оригинала на большинстве музыкального материала. Исключения составляют кастаньеты, клавесин, камертон, металлофон, а так же некоторые женские голоса и редкие сочетания инструментов и их аранжировки. Главное, эксперты оценивали звучание вслепую, не зная, какой именно и посредством чего сжатый звук прослушивался; кроме того, экспертные оценки подвергались статистической обработке. Слухачи-эксперты из народа высказывают мнение, что ААС на 128 кбит/с звучит лучше, чем МР3 с тем же потоком, а на потоке 160 кбит/с качество МР3 сравнимо с ААС на 128 кбит/с [6]. При этом справедливо замечается, что многое зависит от конкретного кодера (использовались MBSoft и PsyTEL encoder), и с появлением новых кодеров мнение может измениться. Вряд ли последующие кодеры и декодеры (плейеры) окажутся хуже своих предшественников, посему не за горами лавина хвалебных отзывов в адрес ААС. Однако настораживают "обоснования" сторонников ААС: мол, все равно взрослые люди не слышат чистые тона с частотой выше 16-18 кГц и сохранять эти частоты незачем. Помилуйте, ведь никто еще толком не показал, сколь сильна роль псевдонеслышимых гармоник в формировании нашим мозгом звукового образа в целом. Посудите сами, если мозг не воспринимает отдельные частотные составляющие, то это еще не значит, что их не слышат наши уши. Не исключено, что для восприятия очень важны сочетания (!) гармоник, в том числе из "неслышимого" диапазона.
Кодирование/декодирование
Вынужден огорчить любителей сжимать звук самостоятельно. ААС-кодеры, не успев расплодиться, "прибраны к рукам": в Интернете удалось найти лишь один доступный для свободного скачивания ААС-кодер/декодер от Astrid Quartex [7], датированный 1998 годом. Интерфейс отсутствует, единственный параметр (величина битрейта) задается из командной строки. Кодер позволяет манипулировать с 16 бит 44,1 кГц РСМ-стереофайлами, сжимая их в потоки 64, 96 и 128 кбит/с. Под стать кодеру и декодер, но все работает, и неплохо. Из доступных плейеров воспроизводить стандартный ААС-звук согласился лишь K-Jofol, который использовался для сравнения МР3 и VQF [8, 9]. По слухам, должен появиться plug-in и к WinAmp. Кодирование и воспроизведение АС3-звука обсуждалось недавно [10]. Необходимо добавить, что рабочий диапазон частот при кодировании в АС3 зависит от задаваемой величины потока, которая, в свою очередь, зависит от числа каналов. Так, для двухканального потока 384 кбит/с верхняя частота составляет 20,7 кГц, а для 128 кбит/с - всего 13,48 кГц. Забегая вперед, скажу: ААС-кодер от Quartex поступает аналогичным образом, обрезая верхние частоты на ~11 кГц для потока 64 кбит/с и на ~17,5 кГц для 128 кбит/с. Однако каналы не поварьируешь, кодируются исключительно стереофайлы. SoftEncoder в отличие от Quartex позволяет кодировать и декодировать не только классические два канала, однако логично сравнить с помощью объективных оценок стереозвук, сжатый как в АС3, так и в ААС, с потоком 128 кбит/с. Кодирование огорошило прожорливостью вычислительных ресурсов: времени потребовалось чуть ли не в десять раз больше, чем в АС3, и примерно в полтора раза меньше, чем в VQF! В частности, на 30-мегабайтный трек ушло 15 минут на Celeron 400. Не думаю, что виной тому огрехи в алгоритме Quartex: видно, ААС нелегко дается повышение эффективности сжатия без потери качества звука.
Анализ
Для объективного сравнения ААС с АС3 прибегнем к спектральному анализу, как к самому бескомпромиссному средству. Влияние АЦП/ЦАП аудиокарты и прочих "железок" исключается, оцениваемое качество звука зависит исключительно от свойств кодера и декодера. Нужно отметить, что в силу специфики "психоакустического" кодирования было бы большим заблуждением измерять соотношение сигнал/шум или оценивать амплитудно-частотные характеристики преобразователя "кодер+декодер". Анализ в комплексе спектрограмм, мгновенных спектров и изменения отдельных частотных составляющих во времени позволяет выяснить, какие аномалии привносятся тем или иным сжатием. Однако заметить их на слух может лишь опытный эксперт.

Коэффициент сжатия (для стереофайлов)	AC3 128 кбит/с	AAC 128 кбит/с	Победитель
Тестовый сигнал (см. спектрограммы)	10.94	11.28	AAC
Melody Alto F7 (sample of Sonic Foundry Inc.)	11.00	11.00	-
Шум моря	10.23	10.23	-
Линда. "Ляп-ляп-ляп-ляп-ляп..." (фазовые эффекты)	11.03	11.08	AAC
Церковный орган (один аккорд)	10.56	11.27	AAC

Заключение
ААС будет не просто оттеснить МР3, но, похоже, обновлять форматы сжатого звука нам придется так же часто, как апгрейдить материнские платы. На самом тяжелом для сжатия музыкальном материале, на котором МР3/128 продемонстрировал сжатие оригинала всего лишь в ~5 раз [9], ААС/128 стабильно дает почти двукратный выигрыш, но сравнимость качества звука остается спорной. Сопоставляя математику ААС и МР3, приходится признать, что на высоких потоках ААС должен быть более аккуратен и правдив, однако согласно теории максимальный выигрыш по сжатию не может превысить 30% без потери качества. ААС уступает МР3 и АС3 в продолжительности кодирования на порядок с гаком, но гигагерцовые процессоры призваны смягчить этот недостаток. В области многоканального звука АС3 будет популярным еще долго, но участь его предрешена. Близкое качество стереозвука при двух/трехкратном уменьшении потока - мощный аргумент в пользу ААС. Как проявит себя ААС на тех же 5-6 каналах - покажет время. Очевидно, ААС не удастся без боя "прописаться" на DVD: стремительно растущий клан владельцев аппаратных DD5.1-декодеров встанет на дыбы, да и киномагнаты молчать не будут. Что ж, подождем доступных многоканальных ААС-кодеров, тогда и расставим точки над i...