Смекни!
smekni.com

Кодеры речи (стр. 6 из 16)

Таким образом, и на стороне коде­ра, и на стороне декодера синтезирует­ся речь, что необходимо для обновле­ния содержимого памяти нестационар­ных фильтров. В результате и кодер, и декодер имеют идентичное содержа­ние памяти. В противном случае для общей синхронности содержимое памя­ти пришлось бы передавать на деко­дер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и деко­дере, когда средства передачи несовер­шенны, например, в системах подвиж­ной радиосвязи, где очень высока доля ошибок.

Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связа­но с тем, что в действительности про­цедуры последовательны, т.е. сначала вычисляются параметры фильтра, ко­торые фиксируются, и только затем следует вычисление методом «анали­за через синтез» вторичного возбужде­ния. Хотя вторичное возбуждение вы­полняется по исходному сигналу, оно ограничено оптимальностью использу­емых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, по­этому ее обычно разбивают на после­довательные этапы.

Главное отличие классических во­кодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах воз­буждение разделяется на вокализован­ные (импульсное возбуждение) и не­вокализованные (возбуждение случай­ным шумом), что является первопри­чиной точности модели. В AbS-LPC такое деление не явно, и поэтому воз­буждающий сигнал может носить лю­бой характер — от псевдоимпульсного до шумоподобного, что позволяет син­тезировать речь более высокого каче­ства.

Векторное квантование и кодовые книги

Когда набор значений амплитуд, дискретизированных по времени, кван­туется совместно как единичный век­тор, такой процесс называется век­торным квантованием (VQ – vector quantisation), известный также как блочное квантование.

Будем считать, что

N-мерный вектор с дей­ствительными значениями («т» озна­чает транспонирование);
– случайным образом меняющий­ся компонент с непрерывной амплиту­дой. При векторном квантовании век­тору
ставится в соответствие другой N-размерный вектор
, имеющий дей­ствительные значения и дискретную амплитуду. Таким образом,
кванту­ется как
. Другими словами,
ис­пользуется для представления
.

Обычно

выбирается из конечного набора значений
, где
– размер кодовой книги, а
– набор векторов кодовой книги. Набор Y называется кодовой книгой или шаблоном.

Размер кодовой книги можно счи­тать равным числу уровней скалярных квантователей. Для создания подоб­ной кодовой книги N-размерное про­странство разделяется на L областей или ячеек

, и вектор
однозначно связывается с ячейкой
. Квантователь обозначается вектором кодовой книги
, если
находит­ся в
:

, если
.

Процесс создания кодовой книги известен также как «обучение» или «настройка» кодовой книги. В каче­стве примера на рис. 2.9 иллюстриру­ется разделение двумерного простран­ства (N = 2) для целей векторно­го квантования. Область, обведенная жирной линией, — ячейка

. При векторном квантовании любой входной вектор
, лежащий в ячейке
, кван­туется как
. Другие векторы кодовой книги, соответствующие другим ячей­кам, показаны точками.

Если размер вектора

, век­торное квантование трансформируется в скалярное квантование. Скалярное квантование имеет особое свойство, за­ключающееся в том, что хотя ячейки могут иметь разные размеры (размеры ступеней), все они имеют одинаковую форму. Однако при векторном кванто­вании ячейки в двух измерениях могут иметь разные формы, что дает векторному квантованию преимущество над скалярным квантованием.

Гибридные кодеры

Чтобы избавиться от недостатков кодеров формы и вокодеров, был раз­работан гибридный метод кодирова­ния, объединяющий преимущества обоих методов. По виду анализа гибрид­ные кодеры подразделяются на два класса: с частотным разделением и временным разделением.

Гибридные кодеры с частотным разбиением

Главная концепция кодирования с частотным разбиением состоит в раз­делении речевого спектра на частот­ные полосы или компоненты. Со­ответственно могут использоваться либо набор фильтров, либо блок-преобразователь. После кодирования и декодирования эти составляющие ис­пользуются для точного воспроизве­дения модели входного сигнала путем суммирования сигналов, полученных на выходе фильтров, или инверсных значений, полученных после преобра­зования. Главное допущение при ко­дировании с частотным разбиением со­стоит в том, что сигнал, подвергаемый кодированию, очень медленно изменя­ется во времени и может быть описан мгновенным спектром. Это связано с тем, что в большинстве систем, а осо­бенно в системах реального времени, в текущий момент доступен только крат­ковременный сегмент входного сигна­ла.

В случае использования набора фильтров частота ω фиксирована, так что

, а сигнал частотного доме­на
представляет собой сигнал на выходе постоянного во времени ли­нейного фильтра с импульсной харак­теристикой
, возбуждаемого моду­лированным сигналом
:

(3.1)

где

определяет ширину полосы ре­чевого сигнала
вокруг централь­ной частоты
и является импульс­ной характеристикой анализирующе­го фильтра; знак
означает свертку функций.

При использовании блока, реали­зующего преобразование Фурье, вре­менной индекс h фиксируется на зна­чении h = ho, a

представляет собой обычное преобразование Фурье взвешенной последовательности
:

(3.2)

где

– преобразование Фурье.

Здесь

определяет отрезок времени анализа относительно момен­та времени h = ho и является «окном анализа»
.

Уравнение синтезирующего набо­ра фильтров

(3.3)

может быть представлено как инте­грал (или сумма) компонентов – крат­ковременных спектров

с не­сущими частотами
.

Для синтеза с помощью блока пре­образования уравнение выглядит сле­дующим образом:

(3.4)

Его можно интерпретировать как сум­му инверсных преобразований Фурье, примененных к временным сигналам

.

CELP (Code Excited Linear Prediction)

Метод кодирования CELP основан на линейной авторегрессионной моде­ли процесса формирования и воспри­ятия речи и входит в группу мето­дов анализа через синтез, реализую­щих современные и эффективные ал­горитмы информационного сжатия ре­чевых сигналов. Алгоритмы данного класса занимают промежуточное поло­жение между кодерами формы сигна­ла, в которых сохраняется форма коле­бания речевого сигнала в процессе его дискретизации и квантования, и пара­метрическими вокодерами, основанны­ми на процедурах оценки и кодирова­ния небольшого числа параметров ре­чи, объединяя преимущества каждого из них.