Таким образом, и на стороне кодера, и на стороне декодера синтезируется речь, что необходимо для обновления содержимого памяти нестационарных фильтров. В результате и кодер, и декодер имеют идентичное содержание памяти. В противном случае для общей синхронности содержимое памяти пришлось бы передавать на декодер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и декодере, когда средства передачи несовершенны, например, в системах подвижной радиосвязи, где очень высока доля ошибок.
Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связано с тем, что в действительности процедуры последовательны, т.е. сначала вычисляются параметры фильтра, которые фиксируются, и только затем следует вычисление методом «анализа через синтез» вторичного возбуждения. Хотя вторичное возбуждение выполняется по исходному сигналу, оно ограничено оптимальностью используемых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, поэтому ее обычно разбивают на последовательные этапы.
Главное отличие классических вокодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах возбуждение разделяется на вокализованные (импульсное возбуждение) и невокализованные (возбуждение случайным шумом), что является первопричиной точности модели. В AbS-LPC такое деление не явно, и поэтому возбуждающий сигнал может носить любой характер — от псевдоимпульсного до шумоподобного, что позволяет синтезировать речь более высокого качества.
Когда набор значений амплитуд, дискретизированных по времени, квантуется совместно как единичный вектор, такой процесс называется векторным квантованием (VQ – vector quantisation), известный также как блочное квантование.
Будем считать, что
N-мерный вектор с действительными значениями («т» означает транспонирование); – случайным образом меняющийся компонент с непрерывной амплитудой. При векторном квантовании вектору ставится в соответствие другой N-размерный вектор , имеющий действительные значения и дискретную амплитуду. Таким образом, квантуется как . Другими словами, используется для представления .Обычно
выбирается из конечного набора значений , где – размер кодовой книги, а – набор векторов кодовой книги. Набор Y называется кодовой книгой или шаблоном.Размер кодовой книги можно считать равным числу уровней скалярных квантователей. Для создания подобной кодовой книги N-размерное пространство разделяется на L областей или ячеек
, и вектор однозначно связывается с ячейкой . Квантователь обозначается вектором кодовой книги , если находится в : , если .Процесс создания кодовой книги известен также как «обучение» или «настройка» кодовой книги. В качестве примера на рис. 2.9 иллюстрируется разделение двумерного пространства (N = 2) для целей векторного квантования. Область, обведенная жирной линией, — ячейка
. При векторном квантовании любой входной вектор , лежащий в ячейке , квантуется как . Другие векторы кодовой книги, соответствующие другим ячейкам, показаны точками.Если размер вектора
, векторное квантование трансформируется в скалярное квантование. Скалярное квантование имеет особое свойство, заключающееся в том, что хотя ячейки могут иметь разные размеры (размеры ступеней), все они имеют одинаковую форму. Однако при векторном квантовании ячейки в двух измерениях могут иметь разные формы, что дает векторному квантованию преимущество над скалярным квантованием.Чтобы избавиться от недостатков кодеров формы и вокодеров, был разработан гибридный метод кодирования, объединяющий преимущества обоих методов. По виду анализа гибридные кодеры подразделяются на два класса: с частотным разделением и временным разделением.
Главная концепция кодирования с частотным разбиением состоит в разделении речевого спектра на частотные полосы или компоненты. Соответственно могут использоваться либо набор фильтров, либо блок-преобразователь. После кодирования и декодирования эти составляющие используются для точного воспроизведения модели входного сигнала путем суммирования сигналов, полученных на выходе фильтров, или инверсных значений, полученных после преобразования. Главное допущение при кодировании с частотным разбиением состоит в том, что сигнал, подвергаемый кодированию, очень медленно изменяется во времени и может быть описан мгновенным спектром. Это связано с тем, что в большинстве систем, а особенно в системах реального времени, в текущий момент доступен только кратковременный сегмент входного сигнала.
В случае использования набора фильтров частота ω фиксирована, так что
, а сигнал частотного домена представляет собой сигнал на выходе постоянного во времени линейного фильтра с импульсной характеристикой , возбуждаемого модулированным сигналом : (3.1)где
определяет ширину полосы речевого сигнала вокруг центральной частоты и является импульсной характеристикой анализирующего фильтра; знак означает свертку функций.При использовании блока, реализующего преобразование Фурье, временной индекс h фиксируется на значении h = ho, a
представляет собой обычное преобразование Фурье взвешенной последовательности : (3.2)где
– преобразование Фурье.Здесь
определяет отрезок времени анализа относительно момента времени h = ho и является «окном анализа» .Уравнение синтезирующего набора фильтров
(3.3)может быть представлено как интеграл (или сумма) компонентов – кратковременных спектров
с несущими частотами .Для синтеза с помощью блока преобразования уравнение выглядит следующим образом:
(3.4)Его можно интерпретировать как сумму инверсных преобразований Фурье, примененных к временным сигналам
.Метод кодирования CELP основан на линейной авторегрессионной модели процесса формирования и восприятия речи и входит в группу методов анализа через синтез, реализующих современные и эффективные алгоритмы информационного сжатия речевых сигналов. Алгоритмы данного класса занимают промежуточное положение между кодерами формы сигнала, в которых сохраняется форма колебания речевого сигнала в процессе его дискретизации и квантования, и параметрическими вокодерами, основанными на процедурах оценки и кодирования небольшого числа параметров речи, объединяя преимущества каждого из них.