Кодеры речи (стр. 4 из 16)

Ортогональные вокодеры

Речевой сигнал

можно промоделировать откликом на возбуждающий сигнал линейной системы с импульсной характеристикой

с переменными параметрами, так что выходной сигнал

равен свертке возбуждающего сигнала и импульсного отклика голосового тракта при условии, что форма голосового тракта неизменна.

Все разнообразие звуков получается путем изменения формы голосового тракта. Если форма голосового тракта изменяется медленно, то на коротких временных интервалах аппроксимация выходного сигнала сверткой возбуждающего сигнала и импульсного отклика голосового тракта справедлива. Если на коротком отрезке времени входной сигнал является периодическим, с постоянной входной частотой, то выходной сигнал также является периодическим. Такая модель справедлива для описания звонких звуков. Аналогично временному, преобразование речи может быть описано в частотной области, поскольку преобразование Фурье речевого сигнала равно произведению преобразований Фурье возбуждающего сигнала и импульсного отклика голосового тракта.

Частотная характеристика голосового тракта является гладкой функцией частоты и характеризуется акустическими резонансами, называемыми формантными частотами.

Поскольку при изменении различных звуков форма голосового тракта изменяется, то с течением времени будет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, возбуждающего звонкие звуки, частотный разнос между гармониками спектра будет также изменяться.

Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени.

Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосового тракта достаточно полно определяются частотами формант.

Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременного спектрального анализа.

Рассмотрим основные принципы, положенные в основу построения ортогональных вокодеров.

Запишем кратковременное преобразование Фурье

дискретизированного речевого процесса

в виде

(2.1)

Здесь

весовая функция, сдвигаемая во времени.

Соотношение (2.1) может быть переписано в двух формах. Первая форма имеет вид свертки

(2.2)

где

– обозначает свертку.

Реализация (2.2) может быть представлена в виде рис. 2.2,а и означает, что спектр речевого процесса соответствует свертке весовой функции

с сигналом

, промодулированным колебанием

Другая форма записи (2.1) получается, если ее переписать в виде

(2.3)

Система (2.3) может быть реализована в виде, представленном на рис. 2.2,б и означает преобразование речевого сигнала

полосовым фильтром центральной частотой ω и импульсной характеристикой

Реализации, представленные на рис. 2.2,а,б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой

, а во втором – полосовой фильтр, что удобно при параллельном измерении

на нескольких частотах ω.

Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах

можно записать в виде

(2.4)

где

Формулу (2.4) можно преобразовать к виду

где

(2.5)

можно рассматривать как характеристику комплексного ПФ с центральной частотой

Исходный речевой сигнал

можно восстановить, сложив сигналы

на всех выходах гребенки ПФ так, что

(2.6)

Формула (2.4) является основополагающим уравнением анализа с кратковременным преобразованием Фурье, а формула (2.6) – основным уравнением синтезатора.

Гомоморфные вокодеры

В основе гомоморфных вокодеров лежит метод нелинейной (гомоморфной) фильтрации. Общая структура гомоморфных систем, предназначенных для инверсной фильтрации речевых сообщений, представлена на рис. 2.4.

Свойства системы

определяется соотношением

, где

– Z-преобразования

соответственно.

Сигнал на выходе системы

обычно называют комплексным кепстром. Система

является линейной, а система

– обратной к системе

Удобства подобных преобразований для анализа и синтеза речевых процессов обусловлены рядом свойств комплексного кепстра. В частности: комплексный спектр последовательностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет комплексный кепстр того же вида; для вычисления комплексного кепстра последовательности с минимальной фазой можно обойтись логарифмом действительной, а не комплексной функции.

Выше было показано, что отрезки речевых сигналов могут быть представлены откликом линейной системы.

Так, в случае звонких звуков возбуждаемый сигнал имеет вид последовательности импульсов. В случае глухих звуков возбуждающий сигнал может быть смоделирован в виде шума.

Обычно предполагают, что передаточная функция линейной системы, имитирующей голосовой тракт, описывается рациональной функцией Z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голосового тракта сосредоточен вблизи нуля.

В случае звонкого звука комплексный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и импульсного отклика голосового тракта занимают неперекрывающиеся временные сигналы и могут быть извлечены из общего кепстра с помощью линейной системы L.

Механизм восстановления речевого сигнала с помощью кепстров может быть пояснен следующим образом.

Поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосового тракта, на функцию, описывающую тонкую структуру спектра возбуждающего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала.

Логарифм спектра возбуждающего сигнала изменяется с ростом частоты гораздо быстрее логарифма огибающей спектра. Кроме того, он периодичен. В результате обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано по оси времени вблизи нуля, в то время как обратное преобразование от логарифма спектра возбуждающего сигнала является линейчатым, отражающим его периодичность в частотной области.

Для выделения логарифма огибающей спектра из полного спектра логарифма его «взвешивают» окном, открытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра».