Смекни!
smekni.com

Вокодеры с линейным предсказанием (стр. 4 из 9)

Известно, что для многих вокализованных звуков первые ко­эффициенты отражения имеют асимметричное распределение (k1 почти равен — 1, а k2 близок к +1), а коэффициенты более высо­кого порядка имеют центрированное около нуля распределение, близкое к гауссовскому. Это было замечено эмпирически рядом исследователей. Аналитически (используя аппроксимацию) было показано, что такая асимметрия имеет место для k1и k2 в случае отсутствия предыскажения для устранения корреляции. Было также замечено, что при низких частотах дискретизации (10 кГц и меньше) величины коэффициентов отражения kз, k4… с высокой вероятностью меньше 0,7.

Линейное квантование коэффициентов отражения на отрезке [—1, 1] нецелесообразно, так как значения, близкие к единице, обычно характерны только для k1и k2. Поэтому следует приме­нять нелинейное квантование в силу неоднородной спектральной чувствительности. Использовалось несколько схем преобразова­ния и кодирования. Хаски и другие изучили многие типы преобразований и пришли к выводу, что наиболее эффективно логарифмическое кодирование отношений площадей, т. е.:

ln[1-km/(1+k)].

К такому же заключению пришли Висваназан и Макхолл на основании экспериментальной оценки спектральной чувствитель­ности коэффициентов отражения. Велч использовал моди­фицированный логарифм отношения площадей ln[F-km/(F+km)]со значениями Fболее единицы из-за того, что для коэф­фициентов отражения, близких к единице, квантование логариф­ма отношений площадей может стать настолько точным, что пре­высит точность исходных данных.

Для облегчения процедуры синтеза при использовании нор­мализованной структуры фильтра Маркел и Грэй предло­жили кодирование коэффициентов отражения по закону аркси­нуса θm=sin-1(km). При этом достигается большая точность квантования коэффициентов отражения, близких к единице, и та­кое кодирование является единственным преобразованием, осу­ществляющим равномерное распределение углов для непосред­ственного поиска параметров фильтра в приемнике по тригоно­метрической таблице (такие таблицы в виде стандартных про­грамм имеются в памяти ПЗУ высокоскоростных процессорных систем). Несмотря на то, что такое кодирование не соответству­ет усредненным кривым чувствительности Висваназана и Макхолла так же, как и кодированию логарифма отношения площадей, тем не менее оно приемлемо и более эффективно, чем линейное квантование коэффициентов отражения. Кодирование по закону арксинуса встречает такую же трудность, связанную с чрезмерной точностью квантования при значениях модулей, близ­ких к единице, как и кодирование логарифма площади.

Некоторые подходы, применяемые для сокращения числа передаваемых двоичных единиц, относительно просты, в то вре­мя как другие являются более сложными. Маркел и Грэй устранили смещение k1и k2(путем добавления и вычитания 0,3 соответственно), а затем равномерно квантовали несмещенные результаты для всех коэффициентов отражения от —0,7 до + 0,7, используя меньшее число бит для коэффициентов отражения высокого порядка. Итакура и Саито применили дина­мическое программирование для распределения двоичных еди­ниц, предназначенных для кодирования коэффициентов отраже­ния. Было обнаружено, что предыскажение речевого сигнала зна­чительно сокращает разницу между распределением двоичных единиц при динамическом программировании и равномерном рас­пределении. Макхолл и другие использовали метод кодиро­вания Хаффмана применительно к логарифму отношения функ­ции площади для повышения эффективности представления. Эта процедура имеет то преимущество, что используется меньшее число двоичных единиц без какого-либо ухудшения точности представления. Мак-Кендлес использовал метод равномерного кодирова­ния площадей, основанный на гистограммах, полученных стати­стическим путем. При этом методе требуется отличное от других (но эффективное) кодирование каждого отдельного коэффици­ента отражения. Специфический вид такого кодирования зависит от статистических средних значений, полученных путем обработ­ки большого числа сегментов данных, и зависит от таких пара­метров системы, как частота дискретизации, характеристики предыскажающего фильтра и типа записывающей аппаратуры.

Маловероятно, что можно определить единственную опти­мальную схему кодирования-декодирования в том смысле, что получится наилучшее субъективное качество восприятия синтези­рованной речи при самой низкой скорости передачи. Когда кри­терий качества основывается на восприятии, выбор схемы коди­рования-декодирования зависит от разных факторов и всегда имеется различие в мнениях слушателей.

При моделировании неквантованные параметры (при исполь­зовании системы счисления с плавающей запятой или целых чи­сел с максимальной точностью) обычно преобразуются в группу целых чисел {0, 1, ..., 2β—1}, где β — число бит, используемых для представления параметра. Такое представление соответству­ет преобразованию множества значений в одно и может быть эф­фективно выполнено с помощью таблицы, например, на основе двоичного поиска. Эти передаваемые параметры однозначно со­ответствуют декодируемым параметрам и могут быть, следова­тельно, использованы в приемнике для табличного декодирования с помощью таблицы.

Специальные примеры передачи речи с минимальной скоро­стью на основе различных преобразований параметров будут представлены ниже при рассмотрении вокодерных систем и мо­делирования.

2.3. Передача параметров с переменной скоростью.

Большая часть разговорной речи содержит паузы. Кроме то­го информация, необходимая для точного представления исходного речевого сигнала, существенно изменяется во времени. На­пример, при анализе переходов между вокализованными и невокализованными звуками их необходимо разбить на сегменты ана­лиза малой длительности (например, fr=100 Гц), иначе такое слово, как pea, при синтезе может звучать как fee. Однако для протяжных звуков, таких, как в сочетании ahh, квазистационар­ный речевой сигнал может быть удовлетворительно представлен при более низкой частоте анализа. Если учесть паузы и перемен­ный во времени характер создания информации в системах с ком­мутацией сообщений, то скорость передачи параметров речевого сигнала в этом случае можно существенно снизить без потери качества по сравнению со скоростью передачи в системах с коммутацией каналов (на­пример, в телефонной сети).

Для того чтобы использовать изменяющиеся во времени свой­ства речевого сигнала для снижения скорости передачи, необхо­димо располагать некоторой мерой этого изменения. С ее помо­щью можно было бы сравнивать спектры или параметры на каж­дом новом сегменте анализа с аналогичными характеристиками в уже обработанных сегментах. Если эта мера превышает задан­ный порог, то отсюда следует, что характеристики сигнала пре­терпевают достаточно большое изменение, которое требует пере­дачи нового набора параметров. Поскольку наибольший процент передаваемых двоичных единиц приходится на параметры, не­сущие информацию о спектре (например, коэффициенты отраже­ния или логарифм отношения площадей), то основное внимание должно быть обращено на них.

Можно предложить большое число возможных мер, каждая из которых основана на некоторых характеристиках, описываю­щих анализируемый сегмент. Такие меры, например, могут осно­вываться на средних значениях, суммах абсолютных разностей или квадратов параметров. Параметрами могут являться коэффи­циенты отражения, коэффициенты автокорреляции (возможно нормированные для устранения влияния фактора усиления), ко­эффициенты обратного фильтра или кепстральные коэффициенты.

2.4. Возбуждение синтезатора и выбор коэффициента усиления.

Атал и Ханауэр предложили способ согласования энер­гии синтезированной речи в пределах периода основного тона с соответствующей энергией речевого сигнала с помощью переда­чи энергии входного сигнала, измеренной за один период ОТ. Хотя они ограничились рассмотрением ковариационного метода без предыскажающей фильтрации, однако этот способ применим как в ковариационном, так и в автокорреляционном методах и легко может быть модифицирован для случая применения преды­скажения и прямой формы синтезирующего фильтра.

Способ основан на том, что каждый отсчет синтезированной речи имеет две основные составляющие: 1). затухающие комплек­сные экспоненты {q(n)} предшествующего синтезированного пе­риода ОТ и 2). выходной сигнал синтезатора {и(п)}, являющийся откликом на возбуждающую последовательность {е(п)}, без уче­та влияния предшествующего сегмента.

В нашем случае источником возбуждения является либо по­следовательность периодических единичных отсчетов (следую­щий за нулевыми отсчетами) при синтезе вокализованных звуков, либо последовательность выходных отсчетов генератора псевдо­случайных чисел при синтезе невокализованных звуков (период ОТ для невокализованных звуков считается постоянным). Если ввести коэффициент усиления g, то полный отклик синтезатора {s(n)} для нового сегмента определяется выражением

s(n) = q(n) + gu(n).

Если использовать черту для обозначения суммы N отсчетов, например,

__ N-1

u(n) = Σu(n)

n=0

то требование равенства энергий исходного и синтезируемого сигналов запишется в следующем виде:

____ _____ ______________ ___________ ______________ _____

s2(n)= s2(n) = [q(n)+gu(n)]2 = g2u2(n) + 2gq(n)u(n) + q2(n)