Главное отличие речевых традиционных вокодеров от модели МВЕ состоит в сигнале возбуждения. В обычных речевых моделях для каждого речевого сегмента используется единственное решение вокал/невокал. В отличие от этого речевая модель МВЕ разделяет сигнал возбуждения на несколько неперекрывающихся частотных полос и принимает решение вокал/невокал для каждой частотной полосы. Это позволяет представить сигнал возбуждения для определенного речевого сегмента в виде смеси периодической (вокализованной) энергии и шумоподобной (невокализованной) энергии. Из-за этих множественных определений вокал/невокал эта модель называется моделью с многополосным возбуждением. Такая речевая модель позволяет синтезировать речь с более качеством, чем традиционные модели. Кроме того, речевая модель МВЕ более устойчива к фоновому шуму.
В речевой модели MBE сигнал возбуждения формируется из сигнала основного тона (или основной частоты) и решений вокал/невокал. Для вокализованной речи сигнал возбуждения является периодической импульсной последовательностью, в которой расстояние между импульсами определяется периодом основного тона
. Для невокализованной речи сигнал возбуждения представляет собой белый шум. Периодический спектр создается из взвешенной периодической последовательности импульсов, которая полностью определяется окном взвешивания и периодом основного тона. Его спектр формируется из взвешенной последовательности случайного шума.Обычно алгоритмы для оценки параметров возбуждения и алгоритмы для оценки параметров огибающей спектра работают независимо. Эти параметры оцениваются на основе нескольких критериев без ясных оснований, насколько синтезированная речь должна быть близка к исходной. Это может проявиться в том, что синтезированный спектр будет слегка отличаться от исходного.
В речевом IMBE-кодере параметры возбуждения и огибающей спектра оцениваются одновременно так, что синтезированный спектр является самым близким к исходному речевому спектру.
Блок-схема алгоритма анализа показана на рис. 5.7.
Рисунок 5.7
Параметры МВЕ модели речи, которые должны быть оценены для каждого речевого фрейма следующие:
период основного тона (или основная частота);
решение вокал/невокал;
спектральные амплитуды, характеризующие огибающую спектра.
В декодере вокализированная и невокализированная компоненты синтезируются отдельно и на заключительной стадии объединяются для получения полного речевого сигнала. Алгоритмы, которые используются для синтеза вокализированных и невокализированных частей речи, основаны на двух различных способах.
Невокализованная часть речи генерируется из гармоник, которые объявлены невокализованными. Для каждого фрейма речи блок случайного шума взвешивается и преобразуется с помощью быстрого преобразования Фурье. Области спектра, которые соответствуют вокализованным гармоникам, принимаются равными нулю.
Так как вокализованная речь моделируется ее индивидуальными гармониками в частотной области, на стороне декодера она восстанавливается как совокупный сигнал регулируемых генераторов. Каждой гармонике вокализованной области фрейма поставлен в соответствие генератор, который характеризуется частотой и фазой. Однако из-за того, что вокализованная часть речи не является периодической на интервалах, состоящих нескольких фреймов анализа, отклонения от ожидаемых параметров соседних фреймов могут вызвать скачки по концам фреймов, что приведет к значительному ухудшению качества речи. Для разрешения этой проблемы во время синтеза проверяются параметры текущего и предыдущего фреймов для уверенности, что на границе фреймов происходит плавный переход. Это делается для того, чтобы на границах фреймов вокализированная речь была непрерывной. Для обеспечения непрерывности в начале и конце фрейма речи функция амплитуды линейно интерполируется между значениями оценок для текущего и предыдущего фреймов.
Синтез речи в IMBE-декодере требует информации об основной частоте, решении вокал/невокал, величине спектральных составляющих и фазе вокализованных гармоник. Так как фазы вокализованных гармоник можно предсказать, информация о фазе не передается между кодером и декодером. Основная частота (основой тон) квантуется с половинной точностью выборки во временной области, причем возможный диапазон тона перекрывается восемью битами. Peшение вокал/невокал является двоичным числом и не требует квантования. Общее распределение бит для каждого фрейма приведено в табл. 5.4.
Таблица 5.4.
Распределение бит IMBE-кодера в системе АРСО 25
Параметр | Число бит |
Основная частота | 8 |
Информация вокал/невокал | b |
Спектральные амплитуды | 79 – b |
Синхронизация | 1 |
Число полос, на которые разбивается речевой фрейм в частотной области, зависит от основного тона фрейма, но не превышает 12.
Таким образом, в кодере IMBE фрейм речи имеет длительность 20 мс, содержит 144 бита, из которых 56 используются для канального кодирования, 88 – для кодирования параметров речевой модели. Кодер работает на скорости 4,4 кбит/с. Скорость передачи в канале – 7,2 кбит/с.
Для системы мобильной спутниковой связи INMARSAT была выбрана улучшенная версия речевого кодера МВЕ, описанного в предыдущем параграфе как версия стандарта на скорости 6,4 кбит/с для наземных систем подвижной связи. Размер фрейма кодера 20 мс. При этом обеспечивается кодирование источника и канала с помощью 128 бит на каждый фрейм. Из этих 128 бит 45 (2,25 кбит/с) зарезервированы для коррекции ошибок, а оставшиеся 83 бита (4,15 кбит/с) разделены между различными параметрами речи, как показано в табл. 5.5.
Таблица 5.5
Распределение бит в системе INMARSAT-M
Параметр | Число бит |
Основная частота | 8 |
Информация вокал/невокал | b |
Спектральные амплитуды | 75 – b |
Синтез речи в МВЕ декодере требует информации об основной частоте, решении вокал/невокал, спектральных величинах и фазах вокализированных гармоник. Так как фазы вокализированных гармоник можно предсказать, информация о фазе не передается от кодера к декодеру. Основная частота (основной тон) обычно квантуется с половинной точностью выборки во временной области, причем возможный диапазон тона перекрывается восемью битами. Решение вокал/невокал является двоичным числом и не требует квантования. Набор спектральных величин требует большей точности и эффективности квантования. Общее распределение бит для каждого фрейма следующее:
1) восемь бит для точного квантования тона;
2) b бит для решения вокал/невокал, где b – число полос принятия решения вокал/невокал;
3) оставшиеся биты для квантования гармоник.
Так как число гармоник зависит от основного тона, который изменяется, число бит, присваиваемых для решения вокал/невокал, может также изменяться. Типичное число вокализированных/невокализированных полос равно 12 (4), что означает, что максимальное число бит для описания вокал/невокал равно 12. Общее число бит
для квантования гармоник определяется формулойгде максимум b равен 12;
– общее число бит для фрейма.Рассмотрим способ квантования, используемый в системе INMARSAT-M.
Квантование основной частоты. Основная частота квантуется при преобразовании ее в эквивалентный период основного тона
. Значения периода основного тона обычно ограничены диапазоном . В системе МВЕ, предназначенной для работы на скорости 6,4 кбит/с, этот параметр равномерно квантуется с использованием 8 бит при размере шага 0,5, что дает возможность обеспечить половинную точность выборки.Кодирование решений вокал/невокал. b решений вокал/невокал являются двоичными числами, поэтому могут быть закодированы с использованием одного бита для каждой полосы решения. Система на скорости передачи 2,4 кбит/с использует максимум 12 полос, каждая с шириной
Гармоники вне b полос вокал/невокал приняты невокализированными.Квантование спектральных величин. Перед квантованием спектральных величин для уменьшения их изменения используется этап предсказания.
Остатки предсказания группируются в шесть последовательных блоков, содержащих
остаточных выборок каждый. Каждый блок преобразуется по частоте с использованием дискретного косинусоидального преобразования (ДКП) размером .Постоянные составляющие L шести ДКП-блоков (первые коэффициенты) группируются как вектор и квантуются с использованием кодовой книги шестибитового скалярного усиления и десятибитового вектора формы. Коэффициенты более высокого порядка М квантуются с использованием скалярных квантователей, где в процессе присвоения бит распределяются оставшиеся биты в соответствии с важностью для субъективного восприятия каждой величины. Блок-схема общей процесса квантования величин показана на рис. 5.8.