Смекни!
smekni.com

Кодеры речи (стр. 7 из 16)

Линейная авторегрессионная мо­дель процесса формирования речевых сигналов с локально постоянными на интервалах 10. . .30 мс параметрами получила в настоящее время наиболь­шее распространение. Для этой моде­ли

(3.5)

где М — порядок модели;

– последовательность отсчетов речево­го сигнала;
– коэффициенты линейного предсказания, характери­зующие свойства голосового тракта;
– порождающая последователь­ность или сигнал возбуждения голосо­вого тракта.

Авторегрессионная модель речево­го сигнала описывает его с достаточ­но высокой степенью точности и по­зволяет применять развитый матема­тический аппарат линейного предска­зания. При этом обеспечивается более высокое качество декодированной ре­чи, устойчивость к входному акустиче­скому шуму и ошибкам в канале свя­зи по сравнению с системами с иными принципами кодирования.

В рамках данной модели наибо­лее перспективными методами кодиро­вания считаются методы «анализа че­рез синтез» с использованием многоимпульсного возбуждения. Новизна мно­гоимпульсного возбуждения заключа­ется в том, что в сигнале остатка ли­нейного предсказания выбираются та­кие его значения, которые наиболее важны для повышения качества синте­зированной речи. При этом использу­емая в процедуре анализа через син­тез схема кодирования, помимо учета ошибок квантования, включает крите­рии субъективной оценки качества ре­чевого сигнала, что обеспечивает есте­ственное звучание синтезированной ре­чи.

При многоимпульсном возбужде­нии сигнал остатка линейного предска­зания представляется в виде последо­вательности импульсов с неравномер­но распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и по­ложение этих импульсов определяют­ся на покадровой основе (кадр за ка­дром). Основным преимуществом мно­гоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не тре­буется знаний ни о вокализованности данного сегмента, ни о периоде основ­ного тона.

Методы анализа через синтез ис­пользуют синтезатор (декодер) ре­чевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи па­раметров речи, проводимой в соответ­ствии с некоторым критерием рассо­гласования между исходным и декоди­рованным сигналами. Для учета спе­цифики слухового восприятия в каче­стве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка

(3.6)

где

и
– преобразование Фу­рье исходного и синтезированного ре­чевых сигналов;
– весовая функ­ция. Принимая во внимание важ­ность для восприятия речи не только формант, но и межформантных обла­стей, для алгоритмов анализа речи че­рез синтез в качестве эталонной была предложена весовая функция следую­щего вида:

(3.7)

где

– передаточная харак­теристика синтезирующего фильтра; γ – параметр, регулирующий энер­гию ошибки или шум квантования. Фактически при таком окне взвешива­ния подчеркивается ошибка в межфор­мантных областях и тем самым обеспе­чивается более равномерное по часто­те распределение отношения мощности полезного сигнала к мощности ошибки кодирования.

В алгоритмах кодирования с «анализом через синтез» повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности x(h), которая осуществляет возбуждение синтезирующего фильтра

линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи

(3.8)

Для этой цели применяется также дополнительный фильтр с характеристикой

(3.9)

с коэффициентом предсказания

и задержкой на период основного тона T. Фильтр выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков.

В зависимости от способа описания сигнала x(h), поступающего на вход фильтра (3.9), можно выделить алгоритмы кодирования:

с возбуждением прореженной последовательности импульсов — MPLP (Multi Pulses Linear Prediction);

ссамовозбуждением — SELP (Self Excited Linear Prediction);

с кодовым возбуждением — CELP

Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество кодирования речевого сигнала, в том числе и при наличии входных акустических помех.

CELP наиболее эффективно применяется при передаче речевого сиг­ала в диапазоне скоростей от 4 до 6 кбит/с.

По существу, в алгоритме CELP производится векторное квантование последовательности

, т.е. позиции выборок и их амплитуды в сигнале многоимпульсного возбуждения оптимизируются одновременно. При том отрезок (сегмент) сигнала возбу­ждения выбирается из предварительно формированной постоянной совокупности – кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (3.9) и (3.8).

Поиск оптимальных значений

и Т синтезатора основного тона, коэф­фициента усиления и номера элемента кодовой книги осуществляется посредством «анализа через синтез». В канал связи передаются номер (индекс) элемента кодовой книги с соответству­ющим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракта.

Являясь одной из самых распро­страненных, схема с линейным пред­сказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяю­щимися во времени параметрами для выделения грубой и точной спектраль­ной информации. Возбуждение выпол­няется путем перебора всех векто­ров из возбуждающей кодовой кни­ги. Векторная последовательность, обеспечивающая минимальную взве­шенную ошибку, считается оптималь­ным возбуждением. Процедура AbS в CELP требует больших вычислитель­ных ресурсов, а основная кодовая кни­га является результатом очень боль­шой исследовательской работы. Хо­тя CELP является сложным методом, он способен синтезировать речь с высо­ким качеством даже на низких скоро­стях. Вариант кодирования CELP вы­бран для многих систем голосовой свя­зи.

Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базируются многие стандарты. Испытания показывают его приемле­мость и для высоких скоростей. Стан­дарт для скорости 16 кбит/с с ма­лой задержкой (LD-CELP — Low-Delay CELP) будет рассмотрен ниже.

Рекомендации G.723.1 и G.729

Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоро­стях для компрессии речевых или дру­гих аудиосигналов в средствах муль­тимедиа. В кодере, реализующем ре­комендации G.723.1, принципиальным приложением является низкоскорост­ная видеотелефония как часть общего семейства стандартов Н.324.

Кодер обеспечивает работу на двух скоростях — 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и бо­лее низкая скорость обеспечивает хо­рошее качество и предоставляет разра­ботчикам систем связи дополнитель­ные возможности. И кодер и декодер должны обязательно поддерживать обе скорости. Существует возможность пе­реключения скоростей. Возможно так­же изменение рабочей скорости с ис­пользованием прерывистой передачи и заполнение шумом пауз.

Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограни­ченной полосе. Музыка и другие ау­диосигналы также могут быть под­вергнуты компрессии с использовани­ем этого кодера, однако, не с таким же высоким качеством, как речь.

Кодер G .723.1 преобразует речь или другие аудиосигналы во фрей­мы длительностью 30 мс. Кроме то­го, существует возможность просмотра фреймов на скорости 7,5 мс, что приво­дит к общей алгоритмической задерж­ке 37,5 мс. Дополнительные задержки возникают из-за:

времени, затрачиваемого на обра­ботку данных в кодере и декодере;

времени передачи по линии связи;