Линейная авторегрессионная модель процесса формирования речевых сигналов с локально постоянными на интервалах 10. . .30 мс параметрами получила в настоящее время наибольшее распространение. Для этой модели
(3.5)где М — порядок модели;
– последовательность отсчетов речевого сигнала; – коэффициенты линейного предсказания, характеризующие свойства голосового тракта; – порождающая последовательность или сигнал возбуждения голосового тракта.Авторегрессионная модель речевого сигнала описывает его с достаточно высокой степенью точности и позволяет применять развитый математический аппарат линейного предсказания. При этом обеспечивается более высокое качество декодированной речи, устойчивость к входному акустическому шуму и ошибкам в канале связи по сравнению с системами с иными принципами кодирования.
В рамках данной модели наиболее перспективными методами кодирования считаются методы «анализа через синтез» с использованием многоимпульсного возбуждения. Новизна многоимпульсного возбуждения заключается в том, что в сигнале остатка линейного предсказания выбираются такие его значения, которые наиболее важны для повышения качества синтезированной речи. При этом используемая в процедуре анализа через синтез схема кодирования, помимо учета ошибок квантования, включает критерии субъективной оценки качества речевого сигнала, что обеспечивает естественное звучание синтезированной речи.
При многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и положение этих импульсов определяются на покадровой основе (кадр за кадром). Основным преимуществом многоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не требуется знаний ни о вокализованности данного сегмента, ни о периоде основного тона.
Методы анализа через синтез используют синтезатор (декодер) речевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи параметров речи, проводимой в соответствии с некоторым критерием рассогласования между исходным и декодированным сигналами. Для учета специфики слухового восприятия в качестве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка
(3.6)где
и – преобразование Фурье исходного и синтезированного речевых сигналов; – весовая функция. Принимая во внимание важность для восприятия речи не только формант, но и межформантных областей, для алгоритмов анализа речи через синтез в качестве эталонной была предложена весовая функция следующего вида: (3.7)где
– передаточная характеристика синтезирующего фильтра; γ – параметр, регулирующий энергию ошибки или шум квантования. Фактически при таком окне взвешивания подчеркивается ошибка в межформантных областях и тем самым обеспечивается более равномерное по частоте распределение отношения мощности полезного сигнала к мощности ошибки кодирования.В алгоритмах кодирования с «анализом через синтез» повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности x(h), которая осуществляет возбуждение синтезирующего фильтра
линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи (3.8)Для этой цели применяется также дополнительный фильтр с характеристикой
(3.9)с коэффициентом предсказания
и задержкой на период основного тона T. Фильтр выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков.В зависимости от способа описания сигнала x(h), поступающего на вход фильтра (3.9), можно выделить алгоритмы кодирования:
с возбуждением прореженной последовательности импульсов — MPLP (Multi Pulses Linear Prediction);
ссамовозбуждением — SELP (Self Excited Linear Prediction);
с кодовым возбуждением — CELP
Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество кодирования речевого сигнала, в том числе и при наличии входных акустических помех.
CELP наиболее эффективно применяется при передаче речевого сигала в диапазоне скоростей от 4 до 6 кбит/с.
По существу, в алгоритме CELP производится векторное квантование последовательности
, т.е. позиции выборок и их амплитуды в сигнале многоимпульсного возбуждения оптимизируются одновременно. При том отрезок (сегмент) сигнала возбуждения выбирается из предварительно формированной постоянной совокупности – кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (3.9) и (3.8).Поиск оптимальных значений
и Т синтезатора основного тона, коэффициента усиления и номера элемента кодовой книги осуществляется посредством «анализа через синтез». В канал связи передаются номер (индекс) элемента кодовой книги с соответствующим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракта.Являясь одной из самых распространенных, схема с линейным предсказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяющимися во времени параметрами для выделения грубой и точной спектральной информации. Возбуждение выполняется путем перебора всех векторов из возбуждающей кодовой книги. Векторная последовательность, обеспечивающая минимальную взвешенную ошибку, считается оптимальным возбуждением. Процедура AbS в CELP требует больших вычислительных ресурсов, а основная кодовая книга является результатом очень большой исследовательской работы. Хотя CELP является сложным методом, он способен синтезировать речь с высоким качеством даже на низких скоростях. Вариант кодирования CELP выбран для многих систем голосовой связи.
Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базируются многие стандарты. Испытания показывают его приемлемость и для высоких скоростей. Стандарт для скорости 16 кбит/с с малой задержкой (LD-CELP — Low-Delay CELP) будет рассмотрен ниже.
Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоростях для компрессии речевых или других аудиосигналов в средствах мультимедиа. В кодере, реализующем рекомендации G.723.1, принципиальным приложением является низкоскоростная видеотелефония как часть общего семейства стандартов Н.324.
Кодер обеспечивает работу на двух скоростях — 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и более низкая скорость обеспечивает хорошее качество и предоставляет разработчикам систем связи дополнительные возможности. И кодер и декодер должны обязательно поддерживать обе скорости. Существует возможность переключения скоростей. Возможно также изменение рабочей скорости с использованием прерывистой передачи и заполнение шумом пауз.
Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограниченной полосе. Музыка и другие аудиосигналы также могут быть подвергнуты компрессии с использованием этого кодера, однако, не с таким же высоким качеством, как речь.
Кодер G .723.1 преобразует речь или другие аудиосигналы во фреймы длительностью 30 мс. Кроме того, существует возможность просмотра фреймов на скорости 7,5 мс, что приводит к общей алгоритмической задержке 37,5 мс. Дополнительные задержки возникают из-за:
времени, затрачиваемого на обработку данных в кодере и декодере;
времени передачи по линии связи;