Вокодеры с линейным предсказанием (стр. 5 из 9)

Это уравнение второго порядка может быть решено относительно g. Приведем алгоритм вычисления отклика синтезирующего фильтра прямой формы.

1.Вычислить выходной сигнал фильтра q(n) при n=0, 1, ..., М—1 в отсутствие возбуждения (используя только данные из памяти о предшествующем периоде) и без обновления коэффициентов фильтра.

2. Вычислить выходной сигнал фильтра и(п) при n=0, 1, 1, ..., N—1 по сигналу возбуждения {е(п)}, а память фильтра обнулить.

3. Вычислить коэффициенты уравнения второго порядка относительно gи решить его:

_{___________ ______________ _____ _____}

g²u²(n) + 2gq(n)u(n) + q²(n) – s²(n) = 0

4. Предполагая, что gдействительно и неотрицательно, определить выходной сигнал синтезатора в соответствии с выражением

s(n) = q(n) + gu(n) при n = 0, 1, .... N—1.

5. Записать в память фильтра прямой формы значения

s(N— 1), s(N—2),..., s(N—M).

Вернемся к третьему шагу. Если s²(n)>q²(n), то корни квадратного уравнения будут иметь противоположные знаки и, следовательно, всегда будет положительный действительный корень. Это условие выполняется, когда истинная энергия больше, чем энергия затухающего переходного процесса. Если это условие не удовлетворяется, что может случиться с сигналом, амплитуда которого уменьшается, то необходимо, чтобы

_{___________ _____}

q(n)u(n) / u²(n) было отрицательным и, кроме того,

При отсутствии действительных положительных корней модель не имеет физического смысла. Если решения не существует, то Атал и Ханауэр предложили устанавливать g=0. Такая процедура требует моделирования работы синтезирующего фильтра дважды, в дополнение к трем суммам по N отсчетов и решению квадратного уравнения. Передаваемый коэффициент усиления а определяется по формуле a²=s²(n). Алгоритм, описанный выше, затем полностью реализуется в приемнике.

Такой подход можно распространить и на другие структуры синтезирующих фильтров. При этом необходимо осуществлять дополнительные вычисления при преобразовании значений задержанной синтезированной речи в сигналы, содержащиеся в элементах памяти фильтров. Изменение алгоритма при использовании предыскажения заключается в замене коэффициентов A(z) коэффициентами A(z)—(1—μz^-1), где (1— μz^-1) определяет характеристику предыскажающего фильтра.

Несколько более простой (и менее точный) метод заключается в возбуждении синтезирующего фильтра входной последовательностью {е(п)}, чтобы вычислить и(п), где и(п) теперь содержит отклик как от предшествующего сегмента, так и от текущего сигнала возбуждения

Поскольку в указанных методах непосредственно согласуется энергия сигналов на входе и выходе, то можно ожидать точного согласования огибающих исходной и синтезированной речи. Однако необходимо тщательно следить за тем, чтобы величина разрывов непрерывности была минимальна, поскольку на коэффициенты усиления в конце одного периода ОТ и начале следующего не накладывается никаких энергетических ограничений, кроме косвенных.

Глава 3: Виды липредеров на примере устройств с низкой скоростью передачи информации..

Одним из возможных и наиболее важных применений линейного предсказания является низкоскоростная (2400—3600 бит/с) надежная передача речи по телефонным каналам. Так как одноканальная высококачественная передача речи требует скорости от 40 000 до 200 000 бит/с, очевидно, что некоторые характеристики речи должны быть учтены в модели, в то время как другие могут быть исключены с целью уменьшения скорости передачи информации более чем на порядок. Важно понимать все обстоятельства, связанные с этим соображением, чтобы отчетливо представлять возможности и ограничения вокодерных систем с линейными предсказаниями. Некоторые из этих моментов далее будут рассмотрены.

На каждом сегменте необходимо максимально точно оценивать сигнал ОТ (отсутствие вокализованности означает, что Р=0). Эта оценка представляет собой единственный параметр, который обеспечивает наибольшее снижение скорости передачи информации. Если она достаточно точна, то натуральность звучания синтезированной речи снижается незначительно. Однако точное оценивание предполагает, что посторонние шумы должны быть сведены к минимуму. Музыка, лай собак или внятные помехи от разговоров других абонентов приведут к значительному ухудшению точности оценивания сигнала ОТ. Кроме того, диапазон изменения частоты основного тона оказывается ограниченным. Его величина зависит от сложности алгоритма выделения ОТ.

Обычно в процессе выделения ОТ каждый сегмент классифицируется как полностью вокализованный (тон V=1) или как полностью невокализованный шум (V=0). Очевидно, существуют звуки, которые следовало бы рассматривать как промежуточные, например /v/ в слове thieves. Применение бинарного правила классификации обусловлено практическими соображениями. Трудно автоматически установить правильное соотношение между периодической и шумовой компонентами, да и качество синтеза при этом часто ухудшается ненамного.

Если не применяется схема с переменной скоростью передачи информации, при которой учитываются паузы и другие свойства речи, то скорость не может быть уменьшена ниже 1200 — 1400 бит/с. Системы с постоянной скоростью передачи (с синхронной передачей), описываемые в этом параграфе, могут сохранять высокое качество синтеза (при отсутствии операций кодирования, квантования или вычислений с конечной длиной слова) приблизительно до 3300 бит/с, обеспечивая, по существу, незначительное ухудшение качества восприятия. Приблизительно от 1400 до 3300 бит/с ухудшение качества может изменяться от незначительного до существенного, в зависимости от отдельных звуков речи и характерных особенностей говорящего. Ниже 1400 бит/с качество речи значительно ухудшается.

В этой части представлены примеры фраз, переданных по вокодерным системам. Существуют различные виды ЛПС вокодеров – вокодеры на основе метода максимального правдоподобия и частных корреляции, вокодеры на основе автокорелляционного метода и вокодеры на основе ковариационного метода. Для понимания ниже разберем более подробно последние.

3.1. Липредеры на основе ковариационного метода.

Одними из видов липредеров с низкой скоростью передачи являются липредеры на основе ковариационного метода. Атал и Ханауэр вработах и впервые представили результаты анализа-синтеза на основе ковариационного метода линейного предсказания. К статье была приложена звукозапись, чтобы продемонстрировать качество синтеза, полученное при различных информационных скоростях. Исходная речь была записана при большом отношении сигнал/шум, пропущена через НЧ фильтр с частотой среза 5 кГц, а затем дискретизирована с частотой f= 10 кГц. Сегмент анализа устанавливался равным одному периоду Р основного тона для вокализованных участков и ' 10 мс для невокализованных. Коэффициенты предсказания {а*} рассчитывались на основековариационного метода, причем N=Pf_s- Коэффициент усиления а вычислялся с помощью первой из процедур, описанных выше, так что энергия речи на каждом синтезируемом сегменте согласовывалась с энергией сигнала на соответствующем анализируемом сегменте. Выделение ОТ выполнялось на основе автокорреляционного анализа сигнала, полученного путем фильтрации исходной речи и возведения в куб для подчеркивания участков речевого колебания с большой амплитудой .

Для проверки на устойчивость фильтра с характеристикой 1/A(z) на анализируемом сегменте применялась процедура пошагового понижения порядка. Если фильтр неустойчив, то корни функции получались по программе нахождения корней полинома. Пусть функции

_М

A(z) = П (1- z_m_*z^-1)

^m⁼¹

опиcывают полиномиальную характеристику фильтра. Если корни z_mлежат вне единичной окружности, т. е. |z_m|>1, то заменим z_mна z*_m/|z_m|². Такая замена гарантирует, что форма спектра останется неизменной, хотя исходный критерий минимизации уже не удовлетворяется.

Полином, все корни которого лежат внутри единичной окружности, может быть тогда составлен рекурсивно

A’_m(z) = A’_m_-1(z)*(1-z_mz^-1)

при m=1, 2, ..., М, причем A_M'(z) заменяет полином A(z). Отметим, что корень обычно оказывается комплексным. Полученные в результате такого преобразования коэффициентов фильтра параметры кодировались и квантовались двумя различными способами: (1) частота и ширина полос корней z_mна сегменте в целом кодировались 60 двоичными единицами (в предположении, что М=\2)\ 2) площади акустической трубы A_mкодировались 60 двоичными единицами. Оба этих способа гарантируют устойчивость фильтра синтезатора, даже если применяется линейная интерполяция. Другими передаваемыми параметрами были период Р основного тона, признак вокализованности «тон-шум» (V/UV) и коэффициент усиления, которые кодировались соответственно шестью, одной и пятью двоичными единицами. Поэтому скорость передачи составляла B_r=f_r_*(6+1+5+60) =72*f_r,.. Так как использовались частоты сегментов, равные 100, 67 и 33 Гц, то результирующие скорости составляли 7200, 4800 и 2400 бит/с соответственно.