Смекни!
smekni.com

Кодеры речи (стр. 5 из 16)

В системе анализа-синтеза, осно­ванной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состоя­ние голосового тракта или огибающую спектра речевого процесса.

Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала.

Таким образом, основная идея го­моморфной обработки заключается в разделении или обратной свертке сег­мента речевого сигнала с компонента­ми, представляющими собой импульс­ную характеристику и источник возбу­ждения. Это достигается путем линей­ной фильтрации обратного преобразо­вания Фурье логарифма спектра сигна­ла (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в ко­торых осуществляется разделение па­раметров речи на сигнал возбуждения и параметры речевого тракта, позволя­ют достигнуть малой скорости переда­чи и дополнительной гибкости при об­работке речи ценой усложнения алго­ритмов преобразований.

Кодирование с линейным предсказанием (LPC — Linear Predictive Coding). Рекомендации G.728, G.729, G.723

При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. Следует заметить, что буферы, необходимые для хранения потоков данных, увеличивают задержку кодирова­ния.

Первые реализации LPC, такие как LPC-вокодер, были предназначены ля передачи данных на низких скоростях – 2,4 и 4,8 кбит/с. На скорости 2,4 кбит/с обеспечивался приемлемый уровень разборчивости речи, однако качество, естественность и узнаваемость речи недостаточны. Поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов неречевого происхождения, например сигналов модема.

Широко используемый в настоящее время метод кодирования с линейным предсказанием работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия.

Структура синтезатора речи с линейным предсказанием показана на рис. 2.5. Здесь управляющий вход или сигнал возбуждения смоделирован в виде последовательности импульсов на частоте основного тона (для вокализо­ванной речи) или случайный шум (для невокализированной речи).

Комбинированные спектральные составляющие потока от голосовых связок, голосового тракта и звукообра­зования за счет губ могут быть пред­ставлены цифровым фильтром с изме­няющимися параметрами и передаточ­ной функцией

(2.7)

где

Параметрами, характеризующими голосовой тракт, являются коэффици­енты знаменателя и масштабный мно­житель G.

Преобразуя уравнение (2.7) во вре­менную область, можно получить раз­ностное уравнение для импульсной ха­рактеристики

, соответствующей
:

(2.8)

Уравнение (2.8) называют раз­ностным уравнением LPC. Оно устана­вливает, что текущее значение выход­ного сигнала

может быть опреде­лено суммированием взвешенного те­кущего входного значения и взвешен­ной суммы предыдущих выходных вы­борок. Следовательно, в LPC анализе проблема может быть сформулирова­на так: даны измерения сигнала
, требуется определить параметры пере­даточной функции системы
.

Линейное предсказание при ана­лизе речевых сигналов обычно исполь­зуется в двух направлениях. Одно из них – проведение кратковременно­го спектрального анализа речи. Вто­рое направление – построение систем анализа-синтеза.

Параметры, входящие в функцию предсказания, через формулу (2.7) определяют параметры передаточной функции голосового тракта. Может быть предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (2.7) можно преобразовать в произведение и получить структуру каскадной формы.

Во всех случаях параметры синтезатора непрерывно обновляются при смене анализируемых кадров речи. Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного участка речи к другому. При прямой форме синтеза может возникать ситуация, соответствующая неустойчивому фильтру, хотя исходные значения относились к устойчивому фильтру. В каскадной структуре устойчивость обеспечивается проще.Определение параметров возбу­ждающего сигнала в системе анализа-синтеза с линейным предсказанием, как правило, основывается на иссле­довании сигнала ошибки, получаемого пропусканием исходного речевого сиг­нала через фильтр с характеристикой, обратной той характеристике, которая аппроксимирует передаточную функ­цию голосового тракта. Полученный сигнал ошибки является аппроксима­цией сигнала, возбуждающего речевое колебание. Для определения параме­тров возбуждающего сигнала можно применить один из известных алгорит­мов различения звонкой и глухой ре­чи, а также оценки периода основного тона, например на основе рассмотрен­ного выше корреляционного анализа сигналов во временной области.

Кодирование речи методами анализа через синтез (AbS)

При классификации методов ко­дирования речи на скоростях 4,8... ...16 кбит/с выделяют две основные группы — методы анализа и синтеза (AaS — Analysis-and-Synthesis) и ме­тоды анализа через синтез (AbS – Analysis-by-Synthesis). Хотя такие схе­мы AaS, как RELP, АРС, АТС и SBC успешно работают на скоростях 9,6... 16 кбит/с, при скоростях ниже 9,6 кбит/с они не могут обеспечивать хорошее качество речи. Это объясняется двумя причинами: 1) кодируе­мая речь не анализируется на предмет эффективности, т.е. не производится коррекция искажений в восстановлен­ной речи; 2) ошибки, накопленные в предыдущих фреймах, не учитывают­ся в момент анализа текущего фрейма и беспрепятственно переходят в следу­ющие фреймы. В схемах AbS, особенно в AbS-LPC, эти факторы, как правило, учтены. В этих схемах используется процедура оптимизации типа «замкну­тая петля» для нахождения возбужда­ющего сигнала, который при возбужде­нии моделирующего фильтра создает оптимальный речевой сигнал. Это по­зволяет схемам AbS более успешно ра­ботать на скоростях 4,8.. .9,6 кбит/с.

Методы AbS подходят не только для кодирования речи, но могут так­же использоваться для оценки и идентификации. Основная идея AbS такова. Во-первых, допускается, что сигнал можно исследовать и представить в какой-либо форме, например в виде временных или частотных доменов. Затем созданная модель сигнала подвергается оптимизации (подгонке), как показано на рис. 2.6.

Модель имеет несколько параметров, изменение которых приводит к изменению формы моделируемого сигнала. Для нахождения модели сигнала, которая имеет ту же форму, что и модель истинного сигнала, используют процедуры минимизации ошибки. Путем изменении параметров модели находят такой их набор, при котором синтезированный сигнал с минимальной погрешностью совпадает с реальным. Следовательно, когда достигнуто такое совпадение, параметры модели принимаются за параметры истинного сигнала.

Базовая структура системы кодирования AbS-LPC представлена на рис. 2.7. В этой модели есть три компонента, которые можно изменять, добиваясь максимального подобия синтезированного сигнала с исходным:

1) нестационарный фильтр;

2) возбуждающий сигнал;

3) процедура минимизации, основанная на восприятии.

Так как эта модель требует ча­стого обновления параметров для по­лучения хорошего совпадения с исход­ным сигналом, процедура анализа вы­полняется поблочно, т.е. входной рече­вой сигнал разбивается на блоки вы­борок. Длина анализируемых блоков (фреймов) и периодичность их обно­вления определяют скорость передачи (емкость) схемы кодирования. Алго­ритм работы AbS-LPC следующий:

1. Инициализировать LPC и то­нальный фильтры (нестационарные фильтры), т.е. установить уровень ну­ля или минимального случайного шу­ма;

2. Фрейм выборок речи заносится в буфер и на основании LPC-анализа вычисляется набор LPC-коэффициентов;

3. Используя вычисленные LPC-коэффициенты, формируется инверс­ный LPC-фильтр для вычисления пер­вого восстановленного после квантова­ния остатка. Если для поиска подхо­дящего тона используется «замкнутая петля», надобность в этом шаге отпа­дает.

4. Так как LPC фрейм обычно слишком велик для эффективного ана­лиза, при определении возбуждения фрейм разделяется на целое число подфреймов;

5. Для каждого подфрейма:

а) рассчитываются параметры тонального фильтра (долгосрочного предсказателя), такие, как задержка и связанный с ней коэффициент мас­штабирования;

б) тональный фильтра вместе с LPC-фильтром образуют каскадный фильтр, с помощью которого опре­деляется наилучшее вторичное возбу­ждение, т.е. такое, которое минимизи­рует разницу между синтезированной и исходной речью.

6. Окончательно синтезирован­ная речь получается при пропускании оптимального вторичного возбуждения через каскадный фильтр, параметры которого остались от синтеза предыду­щего подфрейма.

7. Повторение шагов 2-6 для сле­дующего фрейма последовательности.