Известно, что для многих вокализованных звуков первые коэффициенты отражения имеют асимметричное распределение (k1 почти равен — 1, а k2 близок к +1), а коэффициенты более высокого порядка имеют центрированное около нуля распределение, близкое к гауссовскому. Это было замечено эмпирически рядом исследователей. Аналитически (используя аппроксимацию) было показано, что такая асимметрия имеет место для k1и k2 в случае отсутствия предыскажения для устранения корреляции. Было также замечено, что при низких частотах дискретизации (10 кГц и меньше) величины коэффициентов отражения kз, k4… с высокой вероятностью меньше 0,7.
Линейное квантование коэффициентов отражения на отрезке [—1, 1] нецелесообразно, так как значения, близкие к единице, обычно характерны только для k1и k2. Поэтому следует применять нелинейное квантование в силу неоднородной спектральной чувствительности. Использовалось несколько схем преобразования и кодирования. Хаски и другие изучили многие типы преобразований и пришли к выводу, что наиболее эффективно логарифмическое кодирование отношений площадей, т. е.:
ln[1-km/(1+k)].
К такому же заключению пришли Висваназан и Макхолл на основании экспериментальной оценки спектральной чувствительности коэффициентов отражения. Велч использовал модифицированный логарифм отношения площадей ln[F-km/(F+km)]со значениями Fболее единицы из-за того, что для коэффициентов отражения, близких к единице, квантование логарифма отношений площадей может стать настолько точным, что превысит точность исходных данных.
Для облегчения процедуры синтеза при использовании нормализованной структуры фильтра Маркел и Грэй предложили кодирование коэффициентов отражения по закону арксинуса θm=sin-1(km). При этом достигается большая точность квантования коэффициентов отражения, близких к единице, и такое кодирование является единственным преобразованием, осуществляющим равномерное распределение углов для непосредственного поиска параметров фильтра в приемнике по тригонометрической таблице (такие таблицы в виде стандартных программ имеются в памяти ПЗУ высокоскоростных процессорных систем). Несмотря на то, что такое кодирование не соответствует усредненным кривым чувствительности Висваназана и Макхолла так же, как и кодированию логарифма отношения площадей, тем не менее оно приемлемо и более эффективно, чем линейное квантование коэффициентов отражения. Кодирование по закону арксинуса встречает такую же трудность, связанную с чрезмерной точностью квантования при значениях модулей, близких к единице, как и кодирование логарифма площади.
Некоторые подходы, применяемые для сокращения числа передаваемых двоичных единиц, относительно просты, в то время как другие являются более сложными. Маркел и Грэй устранили смещение k1и k2(путем добавления и вычитания 0,3 соответственно), а затем равномерно квантовали несмещенные результаты для всех коэффициентов отражения от —0,7 до + 0,7, используя меньшее число бит для коэффициентов отражения высокого порядка. Итакура и Саито применили динамическое программирование для распределения двоичных единиц, предназначенных для кодирования коэффициентов отражения. Было обнаружено, что предыскажение речевого сигнала значительно сокращает разницу между распределением двоичных единиц при динамическом программировании и равномерном распределении. Макхолл и другие использовали метод кодирования Хаффмана применительно к логарифму отношения функции площади для повышения эффективности представления. Эта процедура имеет то преимущество, что используется меньшее число двоичных единиц без какого-либо ухудшения точности представления. Мак-Кендлес использовал метод равномерного кодирования площадей, основанный на гистограммах, полученных статистическим путем. При этом методе требуется отличное от других (но эффективное) кодирование каждого отдельного коэффициента отражения. Специфический вид такого кодирования зависит от статистических средних значений, полученных путем обработки большого числа сегментов данных, и зависит от таких параметров системы, как частота дискретизации, характеристики предыскажающего фильтра и типа записывающей аппаратуры.
Маловероятно, что можно определить единственную оптимальную схему кодирования-декодирования в том смысле, что получится наилучшее субъективное качество восприятия синтезированной речи при самой низкой скорости передачи. Когда критерий качества основывается на восприятии, выбор схемы кодирования-декодирования зависит от разных факторов и всегда имеется различие в мнениях слушателей.
При моделировании неквантованные параметры (при использовании системы счисления с плавающей запятой или целых чисел с максимальной точностью) обычно преобразуются в группу целых чисел {0, 1, ..., 2β—1}, где β — число бит, используемых для представления параметра. Такое представление соответствует преобразованию множества значений в одно и может быть эффективно выполнено с помощью таблицы, например, на основе двоичного поиска. Эти передаваемые параметры однозначно соответствуют декодируемым параметрам и могут быть, следовательно, использованы в приемнике для табличного декодирования с помощью таблицы.
Специальные примеры передачи речи с минимальной скоростью на основе различных преобразований параметров будут представлены ниже при рассмотрении вокодерных систем и моделирования.
2.3. Передача параметров с переменной скоростью.
Большая часть разговорной речи содержит паузы. Кроме того информация, необходимая для точного представления исходного речевого сигнала, существенно изменяется во времени. Например, при анализе переходов между вокализованными и невокализованными звуками их необходимо разбить на сегменты анализа малой длительности (например, fr=100 Гц), иначе такое слово, как pea, при синтезе может звучать как fee. Однако для протяжных звуков, таких, как в сочетании ahh, квазистационарный речевой сигнал может быть удовлетворительно представлен при более низкой частоте анализа. Если учесть паузы и переменный во времени характер создания информации в системах с коммутацией сообщений, то скорость передачи параметров речевого сигнала в этом случае можно существенно снизить без потери качества по сравнению со скоростью передачи в системах с коммутацией каналов (например, в телефонной сети).
Для того чтобы использовать изменяющиеся во времени свойства речевого сигнала для снижения скорости передачи, необходимо располагать некоторой мерой этого изменения. С ее помощью можно было бы сравнивать спектры или параметры на каждом новом сегменте анализа с аналогичными характеристиками в уже обработанных сегментах. Если эта мера превышает заданный порог, то отсюда следует, что характеристики сигнала претерпевают достаточно большое изменение, которое требует передачи нового набора параметров. Поскольку наибольший процент передаваемых двоичных единиц приходится на параметры, несущие информацию о спектре (например, коэффициенты отражения или логарифм отношения площадей), то основное внимание должно быть обращено на них.
Можно предложить большое число возможных мер, каждая из которых основана на некоторых характеристиках, описывающих анализируемый сегмент. Такие меры, например, могут основываться на средних значениях, суммах абсолютных разностей или квадратов параметров. Параметрами могут являться коэффициенты отражения, коэффициенты автокорреляции (возможно нормированные для устранения влияния фактора усиления), коэффициенты обратного фильтра или кепстральные коэффициенты.
2.4. Возбуждение синтезатора и выбор коэффициента усиления.
Атал и Ханауэр предложили способ согласования энергии синтезированной речи в пределах периода основного тона с соответствующей энергией речевого сигнала с помощью передачи энергии входного сигнала, измеренной за один период ОТ. Хотя они ограничились рассмотрением ковариационного метода без предыскажающей фильтрации, однако этот способ применим как в ковариационном, так и в автокорреляционном методах и легко может быть модифицирован для случая применения предыскажения и прямой формы синтезирующего фильтра.
Способ основан на том, что каждый отсчет синтезированной речи имеет две основные составляющие: 1). затухающие комплексные экспоненты {q(n)} предшествующего синтезированного периода ОТ и 2). выходной сигнал синтезатора {и(п)}, являющийся откликом на возбуждающую последовательность {е(п)}, без учета влияния предшествующего сегмента.
В нашем случае источником возбуждения является либо последовательность периодических единичных отсчетов (следующий за нулевыми отсчетами) при синтезе вокализованных звуков, либо последовательность выходных отсчетов генератора псевдослучайных чисел при синтезе невокализованных звуков (период ОТ для невокализованных звуков считается постоянным). Если ввести коэффициент усиления g, то полный отклик синтезатора {s(n)} для нового сегмента определяется выражением
s(n) = q(n) + gu(n).
Если использовать черту для обозначения суммы N отсчетов, например,
__ N-1
u(n) = Σu(n)
n=0
то требование равенства энергий исходного и синтезируемого сигналов запишется в следующем виде:
____ _____ ______________ ___________ ______________ _____s2(n)= s2(n) = [q(n)+gu(n)]2 = g2u2(n) + 2gq(n)u(n) + q2(n)