Смекни!
smekni.com

Кодеры речи (стр. 4 из 16)

Ортогональные вокодеры

Речевой сигнал

можно промо­делировать откликом на возбуждаю­щий сигнал линейной системы с им­пульсной характеристикой
с пере­менными параметрами, так что выход­ной сигнал
равен свертке возбу­ждающего сигнала и импульсного от­клика голосового тракта при условии, что форма голосового тракта неизмен­на.

Все разнообразие звуков получа­ется путем изменения формы голосо­вого тракта. Если форма голосового тракта изменяется медленно, то на ко­ротких временных интервалах аппрок­симация выходного сигнала сверткой возбуждающего сигнала и импульсно­го отклика голосового тракта справед­лива. Если на коротком отрезке вре­мени входной сигнал является перио­дическим, с постоянной входной часто­той, то выходной сигнал также являет­ся периодическим. Такая модель спра­ведлива для описания звонких звуков. Аналогично временному, преобразова­ние речи может быть описано в частот­ной области, поскольку преобразова­ние Фурье речевого сигнала равно про­изведению преобразований Фурье воз­буждающего сигнала и импульсного отклика голосового тракта.

Частотная характеристика голо­сового тракта является гладкой функ­цией частоты и характеризуется аку­стическими резонансами, называемы­ми формантными частотами.

Поскольку при изменении различ­ных звуков форма голосового тракта изменяется, то с течением времени бу­дет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, воз­буждающего звонкие звуки, частотный разнос между гармониками спектра бу­дет также изменяться.

Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени.

Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основно­го тона, а характеристики голосового тракта достаточно полно определяют­ся частотами формант.

Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременно­го спектрального анализа.

Рассмотрим основные принципы, положенные в основу построения орто­гональных вокодеров.

Запишем кратковременное пре­образование Фурье

дискретизированного речевого процесса
в виде

(2.1)

Здесь

весовая функция, сдвига­емая во времени.

Соотношение (2.1) может быть пе­реписано в двух формах. Первая фор­ма имеет вид свертки

(2.2)

где

– обозначает свертку.

Реализация (2.2) может быть представлена в виде рис. 2.2,а и озна­чает, что спектр речевого процесса со­ответствует свертке весовой функции

с сигналом
, промодулированным колебанием
.

Другая форма записи (2.1) получается, если ее переписать в виде

(2.3)

Система (2.3) может быть реализована в виде, представленном на рис. 2.2,б и означает преобразование речевого сигнала

полосовым фильтром центральной частотой ω и импульсной характеристикой
.

Реализации, представленные на рис. 2.2,а,б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой

, а во втором – полосовой фильтр, что удобно при параллельном измерении
на нескольких частотах ω.

Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах

можно записать в виде

(2.4)

где

Формулу (2.4) можно преобразовать к виду

где

(2.5)

можно рассматривать как характери­стику комплексного ПФ с центральной частотой

.

Исходный речевой сигнал

можно восстановить, сложив сигналы

на всех выходах гребенки ПФ так, что

(2.6)

Формула (2.4) является осно­вополагающим уравнением анализа с кратковременным преобразованием Фурье, а формула (2.6) – основным уравнением синтезатора.

Гомоморфные вокодеры

В основе гомоморфных вокодеров лежит метод нелинейной (гомоморфной) фильтрации. Общая структу­ра гомоморфных систем, предназначенных для инверсной фильтрации речевых сообщений, представлена на рис. 2.4.

Свойства системы

определяется соотношением
, где
и
– Z-преобразования
и
соответственно.

Сигнал на выходе системы

обычно называют комплексным кепстром. Система
является линейной, а система
– обратной к системе
.

Удобства подобных преобразова­ний для анализа и синтеза рече­вых процессов обусловлены рядом свойств комплексного кепстра. В част­ности: комплексный спектр последова­тельностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет комплексный кепстр того же вида; для вычисления комплексного кепстра последовательности с мини­мальной фазой можно обойтись ло­гарифмом действительной, а не ком­плексной функции.

Выше было показано, что отрез­ки речевых сигналов могут быть пред­ставлены откликом линейной системы.

Так, в случае звонких звуков возбу­ждаемый сигнал имеет вид последова­тельности импульсов. В случае глу­хих звуков возбуждающий сигнал мо­жет быть смоделирован в виде шума.

Обычно предполагают, что пере­даточная функция линейной системы, имитирующей голосовой тракт, опи­сывается рациональной функцией Z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голосово­го тракта сосредоточен вблизи нуля.

В случае звонкого звука комплекс­ный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и им­пульсного отклика голосового тракта занимают неперекрывающиеся времен­ные сигналы и могут быть извлечены из общего кепстра с помощью линей­ной системы L.

Механизм восстановления речево­го сигнала с помощью кепстров может быть пояснен следующим образом.

Поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосово­го тракта, на функцию, описывающую тонкую структуру спектра возбужда­ющего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сиг­нала.

Логарифм спектра возбуждающе­го сигнала изменяется с ростом часто­ты гораздо быстрее логарифма огиба­ющей спектра. Кроме того, он пери­одичен. В результате обратное пре­образование Фурье от логарифма оги­бающей спектра сконцентрировано по оси времени вблизи нуля, в то вре­мя как обратное преобразование от ло­гарифма спектра возбуждающего сиг­нала является линейчатым, отража­ющим его периодичность в частотной области.

Для выделения логарифма огиба­ющей спектра из полного спектра ло­гарифма его «взвешивают» окном, от­крытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра».