Кодеры речи (стр. 6 из 16)

Таким образом, и на стороне кодера, и на стороне декодера синтезируется речь, что необходимо для обновления содержимого памяти нестационарных фильтров. В результате и кодер, и декодер имеют идентичное содержание памяти. В противном случае для общей синхронности содержимое памяти пришлось бы передавать на декодер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и декодере, когда средства передачи несовершенны, например, в системах подвижной радиосвязи, где очень высока доля ошибок.

Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связано с тем, что в действительности процедуры последовательны, т.е. сначала вычисляются параметры фильтра, которые фиксируются, и только затем следует вычисление методом «анализа через синтез» вторичного возбуждения. Хотя вторичное возбуждение выполняется по исходному сигналу, оно ограничено оптимальностью используемых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, поэтому ее обычно разбивают на последовательные этапы.

Главное отличие классических вокодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах возбуждение разделяется на вокализованные (импульсное возбуждение) и невокализованные (возбуждение случайным шумом), что является первопричиной точности модели. В AbS-LPC такое деление не явно, и поэтому возбуждающий сигнал может носить любой характер — от псевдоимпульсного до шумоподобного, что позволяет синтезировать речь более высокого качества.

Векторное квантование и кодовые книги

Когда набор значений амплитуд, дискретизированных по времени, квантуется совместно как единичный вектор, такой процесс называется векторным квантованием (VQ – vector quantisation), известный также как блочное квантование.

Будем считать, что

N-мерный вектор с действительными значениями («т» означает транспонирование);

– случайным образом меняющийся компонент с непрерывной амплитудой. При векторном квантовании вектору

ставится в соответствие другой N-размерный вектор

, имеющий действительные значения и дискретную амплитуду. Таким образом,

квантуется как

. Другими словами,

используется для представления

Обычно

выбирается из конечного набора значений

, где

– размер кодовой книги, а

– набор векторов кодовой книги. Набор Y называется кодовой книгой или шаблоном.

Размер кодовой книги можно считать равным числу уровней скалярных квантователей. Для создания подобной кодовой книги N-размерное пространство разделяется на L областей или ячеек

, и вектор

однозначно связывается с ячейкой

. Квантователь обозначается вектором кодовой книги

, если

находится в

, если

Процесс создания кодовой книги известен также как «обучение» или «настройка» кодовой книги. В качестве примера на рис. 2.9 иллюстрируется разделение двумерного пространства (N = 2) для целей векторного квантования. Область, обведенная жирной линией, — ячейка

. При векторном квантовании любой входной вектор

, лежащий в ячейке

, квантуется как

. Другие векторы кодовой книги, соответствующие другим ячейкам, показаны точками.

Если размер вектора

, векторное квантование трансформируется в скалярное квантование. Скалярное квантование имеет особое свойство, заключающееся в том, что хотя ячейки могут иметь разные размеры (размеры ступеней), все они имеют одинаковую форму. Однако при векторном квантовании ячейки в двух измерениях могут иметь разные формы, что дает векторному квантованию преимущество над скалярным квантованием.

Гибридные кодеры

Чтобы избавиться от недостатков кодеров формы и вокодеров, был разработан гибридный метод кодирования, объединяющий преимущества обоих методов. По виду анализа гибридные кодеры подразделяются на два класса: с частотным разделением и временным разделением.

Гибридные кодеры с частотным разбиением

Главная концепция кодирования с частотным разбиением состоит в разделении речевого спектра на частотные полосы или компоненты. Соответственно могут использоваться либо набор фильтров, либо блок-преобразователь. После кодирования и декодирования эти составляющие используются для точного воспроизведения модели входного сигнала путем суммирования сигналов, полученных на выходе фильтров, или инверсных значений, полученных после преобразования. Главное допущение при кодировании с частотным разбиением состоит в том, что сигнал, подвергаемый кодированию, очень медленно изменяется во времени и может быть описан мгновенным спектром. Это связано с тем, что в большинстве систем, а особенно в системах реального времени, в текущий момент доступен только кратковременный сегмент входного сигнала.

В случае использования набора фильтров частота ω фиксирована, так что

, а сигнал частотного домена

представляет собой сигнал на выходе постоянного во времени линейного фильтра с импульсной характеристикой

, возбуждаемого модулированным сигналом

(3.1)

где

определяет ширину полосы речевого сигнала

вокруг центральной частоты

и является импульсной характеристикой анализирующего фильтра; знак

означает свертку функций.

При использовании блока, реализующего преобразование Фурье, временной индекс h фиксируется на значении h = h_o, a

представляет собой обычное преобразование Фурье взвешенной последовательности

(3.2)

где

– преобразование Фурье.

Здесь

определяет отрезок времени анализа относительно момента времени h = h_o и является «окном анализа»

Уравнение синтезирующего набора фильтров

(3.3)

может быть представлено как интеграл (или сумма) компонентов – кратковременных спектров

с несущими частотами

Для синтеза с помощью блока преобразования уравнение выглядит следующим образом:

(3.4)

Его можно интерпретировать как сумму инверсных преобразований Фурье, примененных к временным сигналам

CELP (Code Excited Linear Prediction)

Метод кодирования CELP основан на линейной авторегрессионной модели процесса формирования и восприятия речи и входит в группу методов анализа через синтез, реализующих современные и эффективные алгоритмы информационного сжатия речевых сигналов. Алгоритмы данного класса занимают промежуточное положение между кодерами формы сигнала, в которых сохраняется форма колебания речевого сигнала в процессе его дискретизации и квантования, и параметрическими вокодерами, основанными на процедурах оценки и кодирования небольшого числа параметров речи, объединяя преимущества каждого из них.