Смекни!
smekni.com

Кодеры речи (стр. 12 из 16)

Главное отличие речевых традиционных вокодеров от модели МВЕ состоит в сигнале возбуждения. В обычных речевых моделях для каждого речевого сегмента используется единственное решение вокал/невокал. В отличие от этого речевая модель МВЕ разделяет сигнал возбуждения на несколько неперекрывающихся частотных полос и принимает решение вокал/невокал для каждой частотной полосы. Это позволяет представить сигнал возбуждения для определенного речевого сегмента в виде смеси периодической (вокализованной) энергии и шумоподобной (невокализованной) энергии. Из-за этих множественных определений вокал/невокал эта модель называется моделью с многополосным возбуждением. Такая речевая модель позволяет синтезировать речь с более качеством, чем традиционные модели. Кроме того, речевая модель МВЕ более устойчива к фоновому шуму.

В речевой модели MBE сигнал возбуждения формируется из сигнала основного тона (или основной частоты) и решений вокал/невокал. Для вокализованной речи сигнал возбуждения является периодической импульсной последовательностью, в которой расстояние между импульсами определяется периодом основного тона

. Для невокализованной речи сигнал возбуждения представляет собой белый шум. Периодический спектр создается из взвешенной периодической последовательности импульсов, которая полностью определяется окном взвешивания и периодом основного тона. Его спектр формируется из взвешенной последовательности случайного шума.

Обычно алгоритмы для оценки параметров возбуждения и алгоритмы для оценки параметров огибающей спектра работают независимо. Эти параметры оцениваются на основе нескольких критериев без ясных оснований, насколько синтезированная речь должна быть близка к исходной. Это может проявиться в том, что синтезированный спектр будет слегка отличаться от исходного.

В речевом IMBE-кодере параметры возбуждения и огибающей спектра оцениваются одновременно так, что синтезированный спектр является самым близким к исходному речевому спектру.

Блок-схема алгоритма анализа показана на рис. 5.7.

Рисунок 5.7

Параметры МВЕ модели речи, которые должны быть оценены для каждого речевого фрейма следующие:

период основного тона (или основная частота);

решение вокал/невокал;

спектральные амплитуды, харак­теризующие огибающую спектра.

В декодере вокализированная и невокализированная компоненты син­тезируются отдельно и на заключи­тельной стадии объединяются для по­лучения полного речевого сигнала. Алгоритмы, которые используются для синтеза вокализированных и невокализированных частей речи, осно­ваны на двух различных способах.

Невокализованная часть речи ге­нерируется из гармоник, которые объ­явлены невокализованными. Для ка­ждого фрейма речи блок случайно­го шума взвешивается и преобразует­ся с помощью быстрого преобразова­ния Фурье. Области спектра, которые соответствуют вокализованным гармо­никам, принимаются равными нулю.

Так как вокализованная речь мо­делируется ее индивидуальными гар­мониками в частотной области, на сто­роне декодера она восстанавливается как совокупный сигнал регулируемых генераторов. Каждой гармонике вокализованной области фрейма поставлен в соответствие генератор, который характеризуется частотой и фазой. Однако из-за того, что вокализованная часть речи не является периодической на интервалах, состоящих нескольких фреймов анализа, отклонения от ожидаемых параметров соседних фреймов могут вызвать скачки по концам фреймов, что приведет к значительному ухудшению качества речи. Для разрешения этой проблемы во время синтеза проверяются параметры текущего и предыдущего фреймов для уверенности, что на границе фреймов происходит плавный переход. Это делается для того, чтобы на границах фреймов вокализированная речь была непрерывной. Для обеспечения непрерывности в начале и конце фрейма речи функция амплитуды линейно интерполируется между значениями оценок для текущего и предыдущего фреймов.

Синтез речи в IMBE-декодере требует информации об основной частоте, решении вокал/невокал, величине спектральных составляющих и фазе вокализованных гармоник. Так как фазы вокализованных гармоник можно предсказать, информация о фазе не передается между кодером и декодером. Основная частота (основой тон) квантуется с половинной точностью выборки во временной области, причем возможный диапазон тона перекрывается восемью битами. Peшение вокал/невокал является двоичным числом и не требует квантования. Об­щее распределение бит для каждого фрейма приведено в табл. 5.4.

Таблица 5.4.

Распределение бит IMBE-кодера в системе АРСО 25

Параметр Число бит
Основная частота 8
Информация вокал/невокал b
Спектральные амплитуды 79 – b
Синхронизация 1

Число полос, на которые разбива­ется речевой фрейм в частотной обла­сти, зависит от основного тона фрейма, но не превышает 12.

Таким образом, в кодере IMBE фрейм речи имеет длительность 20 мс, содержит 144 бита, из которых 56 ис­пользуются для канального кодирова­ния, 88 – для кодирования параме­тров речевой модели. Кодер работает на скорости 4,4 кбит/с. Скорость пере­дачи в канале – 7,2 кбит/с.

Кодирование речи в системе INMARSAT-M

Для системы мобильной спутни­ковой связи INMARSAT была выбра­на улучшенная версия речевого коде­ра МВЕ, описанного в предыдущем параграфе как вер­сия стандарта на скорости 6,4 кбит/с для наземных систем подвижной свя­зи. Размер фрейма кодера 20 мс. При этом обеспечивается кодирование ис­точника и канала с помощью 128 бит на каждый фрейм. Из этих 128 бит 45 (2,25 кбит/с) зарезервированы для коррекции ошибок, а оставшиеся 83 би­та (4,15 кбит/с) разделены между раз­личными параметрами речи, как пока­зано в табл. 5.5.


Таблица 5.5

Распределение бит в системе INMARSAT-M

Параметр Число бит
Основная частота 8
Информация вокал/невокал b
Спектральные амплитуды 75 – b

Синтез речи в МВЕ декодере тре­бует информации об основной частоте, решении вокал/невокал, спектраль­ных величинах и фазах вокализиро­ванных гармоник. Так как фазы вока­лизированных гармоник можно пред­сказать, информация о фазе не пере­дается от кодера к декодеру. Основная частота (основной тон) обычно кван­туется с половинной точностью вы­борки во временной области, причем возможный диапазон тона перекры­вается восемью битами. Решение во­кал/невокал является двоичным чи­слом и не требует квантования. Набор спектральных величин требует большей точности и эффективности кван­тования. Общее распределение бит для каждого фрейма следующее:

1) восемь бит для точного кванто­вания тона;

2) b бит для решения вокал/не­вокал, где b – число полос принятия решения вокал/невокал;

3) оставшиеся биты для квантова­ния гармоник.

Так как число гармоник зависит от основного тона, который изменя­ется, число бит, присваиваемых для решения вокал/невокал, может так­же изменяться. Типичное число вокализированных/невокализированных полос равно 12 (4), что означает, что максимальное число бит для описания вокал/невокал равно 12. Общее чи­сло бит

для квантования гармоник определяется формулой

где максимум b равен 12;

– общее число бит для фрейма.

Рассмотрим способ квантования, ис­пользуемый в системе INMARSAT-M.

Квантование основной часто­ты. Основная частота квантуется при преобразовании ее в эквивалентный период основного тона

. Значения периода основного тона обычно ограни­чены диапазоном
. В си­стеме МВЕ, предназначенной для ра­боты на скорости 6,4 кбит/с, этот пара­метр равномерно квантуется с исполь­зованием 8 бит при размере шага 0,5, что дает возможность обеспечить поло­винную точность выборки.

Кодирование решений во­кал/невокал. b решений вокал/не­вокал являются двоичными числами, поэтому могут быть закодированы с использованием одного бита для ка­ждой полосы решения. Система на скорости передачи 2,4 кбит/с исполь­зует максимум 12 полос, каждая с ши­риной

Гармоники вне b полос во­кал/невокал приняты невокализированными.

Квантование спектральных величин. Перед квантованием спек­тральных величин для уменьшения их изменения используется этап предска­зания.

Остатки предсказания группиру­ются в шесть последовательных бло­ков, содержащих

остаточных выборок каждый. Каждый блок преобразуется по частоте с использованием дискретного косинусоидального преобразования (ДКП) размером
.

Постоянные составляющие L шести ДКП-блоков (первые коэффициенты) группируются как вектор и квантуются с использованием кодовой книги шестибитового скалярного усиления и десятибитового вектора формы. Коэффициенты более высокого порядка М квантуются с использованием скалярных квантователей, где в процессе присвоения бит распределяются оставшиеся биты в соответствии с важностью для субъективного восприятия каждой величины. Блок-схема общей процесса квантования величин показана на рис. 5.8.