Site icon Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале

УПРАВЛЕНИЕ ОКРУГЛЕНИЕМ СПЕКТРАЛЬНЫХ КОМПОНЕНТ ПРИ СЖАТИИ АУДИОДАННЫХ

Современный этап развития систем цифровой обработки и передачи аудиоинформации характеризуется как увеличением потока передаваемой информации, так и повышением требований к ее качеству. В связи с этим одной из важнейших задач построения современных кодеков является повышение эффективности компрессии цифровых аудиоданных при условии высокого качества субъективного восприятия сжатого звука. Для повышения эффективности и качества сжатия цифровых аудиоданных с последующим округлением энергетического параметра необходимо провести:

Результаты экспериментальных исследований психоакустических свойств слуха, полученные Цвикером и Фельдкеллером [4], дали развитие новым более эффективным методам сжатия, основанным на учете особенностей слухового восприятия звука. При этом сжатие ЗС производится не во временной, а в частотной области, для чего используются дискретные ортогональные преобразования (ДОП). Исходный цифровой ЗС, представленный в формате ИКМ, изначально содержит в себе много избыточной информации [1]. К сожалению, она не поддается непосредственному измерению. Ее наличие обнаруживается по косвенным признакам, опосредованно, как субъективная, психофизическая реакция человека. Устранение этой избыточности с целью более экономного хранения, а также уменьшения скорости передачи в каналах связи является основной задачей всех методов сжатия ЗС. Развитие высокоэффективных кодеков ЗС при сохранении качества источника цифрового звука сдерживается отсутствием аналитического описания основных психоакустических свойств слуха. В результате отсутствует возможность обоснованной оценки такого параметра эффективного сжатия ЗС, как степени округления спектральных компонент.

В современных телекоммуникационных системах при сжатии цифровых аудиоданных одним из основных параметров, определяющих эффективность сжатия ЗС в частотной области  является длина выборки N дискретного ортогонального преобразования (ДОП). Длина выборки зависит от длительности интервала преобразования Тп  и частоты дискретизации Fд звукового сигнала [3]:

Другим важным параметром эффективности кодирования ЗС в базисах ДОП являются – округление спектральных компонент. Степень округления определяется эмпирически (экспериментально), что обусловливает ее зависимость от характера ЗС в целом, так и от характера отдельных их фрагментов.

В лучших на сегодняшний день кодеках цифровых аудиоданных [1] округление модуля коэффициентов ДОП производится на основе алгоритма с поблочной плавающей запятой. При этом процесс округления модуля коэффициентов ДОП рассматривается как увеличение шага квантования, искажения трактуются как шум квантования. Но это утверждение справедливо лишь, если преобразования происходят во временной области и с временными отсчетами сигнала. В частотной же области каждому конкретному отсчету соответствует амплитудный тон определенной частоты. И отсюда следует, что округление коэффициента преобразования отвечает за округление амплитуды соответствующего тона, а не его временных отсчетов. А это в свою очередь означает то, что коэффициент преобразования и соответствующая спектральная компонента, уменьшается или увеличивается относительно своего номинального значения. Эта величина изменения постоянна в пределах одной конкретной спектральной выборки, но не постоянна от выборки к выборке, при этом изменяется она скачком. Такой характер изменения есть не что иное, как прямоугольная амплитудная модуляция узкополосного шума, центральной частотой которого является его тон с частотой модуляции равной:

В [4, с.111, 113] экспериментально получены зависимости коэффициента модуляции от ширины полосы шума m(∆Fш) при частоте модуляции 4 Гц и зависимость коэффициента минимально ощущаемой амплитудной модуляции полосного шума от частоты модуляции m(fмод) полученной для узкополосного шума со средней частотой 1 кГц и шириной полосы 200 Гц.

Научно-экспериментальные исследования в [4, с 112] показывают, что прямоугольная амплитудная модуляция  узкополосного шума не улавливается слухом человека при 2 – 5 Гц. Значит, эти свойства являются непосредственным критерием оценки максимально допустимой степени округления модуляции коэффициентов дискретного ортогонального преобразования.

Используя регрессионный анализ [2], были получены соответствующие аналитические выражения основных свойств слуха (3) и (4):

Результаты аппроксимации приведены на рисунках 1 и 2, где точками показаны наиболее характерные значения исходных зависимостей. Как видно, аппроксимирующие функции по форме практически точно  соответствуют исходным зависимостям при коэффициенте детерминации R2 ® 1.

Как уже отмечалось выше, одним из основных ресурсов устранения психоаустической избыточности цифровых аудиоданных является ограничение разрядности двоичного представления коэффициентов ДОП (передача старших значимых бит). Естественным критерием ограничения разрядности является коэффициент m минимально ощущаемой на слух прямоугольной амплитудной модуляции полосного шума. В свою очередь m представляется функцией двух параметров: частоты модуляции fмод, которая определяется по формуле (4) и ширины полосы шума Fш – по формуле (3).

Теперь на основе этих знаний коэффициент текущей спектральной выборки приставим q значащими двоичными разрядами. В результате округления q2 младших разрядов обнулятся, вследствие чего достаточно передать q1= qq2 старших разрядов. При этом по правилам округления данный коэффициент увеличится или уменьшится не более чем на величину ∆=2(q-q1)/2.  Согласно принятой интерпретации округления отношения ∆/2q=2(-q1-1) определяет индекс частотной модуляции. Тогда искажения, вызванные округлением, не будут ощущаться на слух, если это отношение не превышает допустимый коэффициент модуляции, то есть если 2-(q1+1) £ m. Отсюда и допустимая степень ограничения разрядности [4]:

где      |x| – наименьшее целое, не меньше х.

Итак, при условии сохранения качества источника цифрового звука для кодирования модуля каждого немаскируемого коэффициента ДОП независимо от его величины необходимо и достаточно отвести q1+1 двоичных разрядов с учетом знака.

Алгоритм расчета количество необходимых разрядов для кодирования спектральных компонент представлен на рисунке 3. На основе этого алгоритма, была написана программа и произведен расчет количества разрядов округления спектральных компонент для различного качества воспроизведения звукового сигнала. Расчеты показали, что для кодирования модуля коэффициентов ДОП музыкальных сигналов достаточно двух двоичных разрядов, для кодирования речи – от одного до двух.

Рисунок 3. Блок-схема расчета количество необходимых разрядов для кодирования спектральных компонент

Для проверки полученных результатов теоретических исследований, была создана модель округления спектральных компонент. Моделирование проводилось с использованием пакета MATLAB, с интегрированными инструментами Simulink.

Рис. 4. Модель округления спектральные компонент с системой управления

Модель содержит следующие блоки:

–  From Multimedia File  – считывающий выборки цифровых аудио данных из файла с расширением *.wav 32-битовой операционной системы Windows с последующим представлением каждой из выборок в виде массива данных и блок To Multimedia File – записывающий новый файл после округления отсчетов;

– FFT  –  реализующий дискретное преобразование Фурье (ДПФ) и переводит дискретные составляющие из временной области в частотную область, блок IFFT, выполняющий обратные действия;

–  Complex to Magnitude – Angle вычисляет модуль и (или) аргумент комплексного числа и Magnitude – Angle to Complex, объединяющий   модуль и аргумент в комплексное число;

–  Interpreted MATLAB Fcn – это функциональный блок MATLAB, с помощью которого был реализован процесс округления спектральных компонент. Функция округления была написана, сохранена в виде M-файла и вызывается посредством установки параметров блока MATLAB Fcn в Simulink – модель.

Как показали теоретических и эмпирические исследования допустимая степень округления спектральных компонент (q), для кодирования музыкальных и речевых сигналов может изменяться в пределах от q=0 до q=3. Эти значения q являются максимально допустимыми, при которых человеческий слух не слышит искажения сигнала. Поэтому в основу системы управления  вошли четыре блока Interpreted MATLAB Fcn. Каждый блок ссылается на собственный М – файл (fnc1, fcn2, fcn3, fcn4) (рисунок 4), которые отличаются друг от друга степенью округления спектральных компонент.

Для реализации выбора функции с нужной степенью округления в модель был добавлен блок Multiport Switch – блок многовходового переключателя пропускающего на выход сигнал с того входного порта, номер которого равен текущему значению управляющего сигнала. Для считывания команд управления, задаваемых пользователем, в модели используется блок In.

Управляющие команды задаются пользователем с клавиатуры в рабочем поле MATLAB. Блок Inport осуществляет ее считывание и передачу в Simulink – модель. Здесь команда поступает на управляющий вход Multiport Switch и в зависимости от полученного кода, многовходовый переключатель открывает соответствующий порт. Через открытый порт проходит сигнал, обработанный одной из функций округления, а затем этот сигнал формируется в музыкальный файл. Если после прослушивания аудиофайла, пользователя не устраивает качество полученного результата, то он вводит другую управляющею команду, которая соответствует другому порту с другой степенью округления q. Эксперимент может многократно продолжаться до получения требуемого результата. Таким образом, данная модель позволит не только осуществлять округления спектральных компонент, но и управлять выбором степени округления этих компонент. Что существенно экономит время пользователя, не увеличивая при этом количество файлов, подлежащих экспертизе.

Субъективно – статистическая оценка ухудшения качества сжатия звука проводилась в соответствии с рекомендациями сектора радиосвязи (МСЭ-Р) по пятибалльной шкале: 0 – незаметное; 1 – заметное, но не раздражающее; 2 – слегка разрежающее; 3 – разряжающее; 4 – очень раздражающее.

Эксперимент проводился с группой студентов по схеме А – В – А – В, где А – исходный звуковой фрагмент, а В – синтезированный в результате моделирования. Экспертов извещают о том, когда они слушают А фрагмент и когда В – фрагмент. Это делается для того, что бы эксперты более точно оценили разницу в звучание файлов.

В качестве тестовых фрагментов использовались монофоническая запись голоса диктора на английском языке и стереофонические музыкальные фразы, разного жанра  (рисунок 5). Фрагменты были представлены в формате .wav,  частотой дискретизации равной 44100 кГц.

Рисунок 5. Результаты эксперимента

На основе субъективно – статистической оценки можно сделать выводы:

  1. Для кодирования модуля спектральных компонент музыкальных фраз без ухудшения качества источника цифрового звука достаточно двух двоичных разрядов.
  2. В случае речевых сигналов и учета только разборчивости речи может быть приемлемым кодирование модуля спектральных компонент одним двоичным разрядом.

Список литературы:

404: Not Found404: Not Found