Смекни!
smekni.com

Вокодеры с линейным предсказанием (стр. 6 из 9)

Для синтеза речи применялся фильтр прямой формы, управ­ляемый синхронно с периодом ОТ. Функция возбуждения пред­ставляла собой выходной сигнал генератора в виде единичных отсчетов в начале каждого периода, умноженных на коэффици­ент усиления о, или равномерно распределенных псевдослучай­ных отсчетов с нулевым средним значением и единичной дис­персией. По признаку вокализованности V(«тон-шум») опреде­лялось, какой вид функции возбуждения применять. Поскольку параметры передаются с постоянной частотой fr, то для осущест­вления синтеза синхронно с периодом ОТ использовалась линей­ная интерполяция.

Для того чтобы гарантировать устойчивость, последователь­ность {ai} пересчитывалась в первые М+1 отсчеты автокорре­ляционной последовательности {r(п)}. После интерполяции по­следовательность {r(п)} пересчитывалась обратно в интерполированный ряд параметров {ai}, а затем последний применялся для синтеза в фильтре прямой формы.

Субъективно оцениваемое качество синтезированной речи бы­ло очень близко к качеству исходной речи. Некоторые факторы, касающиеся качества синтезированной речи, полученной в этой системе, будут рассмотрены далее. При построении этой системы преследовалась цель получения наивысшего возможного качест­ва при заданной информационной скорости без учета сложности вычислений. Для проведения анализа с длительностью временно­го окна, зависящей от периода ОТ, требуется очень точно опре­делять этот период. Как отмечал Шредер, частота воз­никновения ошибок, равная 1%, при выделении ОТ может быть недопустимой. Используемый алгоритм анализа периода ОТ тре­бует много логических операций и обработки четырех или пяти задержанных в буферной памяти сегментов для определения того, классифицировать сегмент как вокализованный или как невокализованный и т. д. Чтобы достигнуть такого же качества синтеза, как в исходной записи, необходимо обеспечить большое отношение сигнал/шум (45—50 дБ). Более того, результаты от­части зависят от того, насколько хорошо речь описывается ком­плексно-экспоненциальной моделью в пределах одного периода ОТ. Следует отметить, что все операции выполнялись в режиме с плавающей запятой с полной точностью.

При реализации такой системы можно не получить ожидае­мых хороших результатов, если рассчитывать на то, что прове­дение вычислительных операций с малыми ошибками устранит потери качества восприятия. В настоящее время не существует прямых процедур (в тем смысле, что алгоритм может быть пред­ставлен последовательностью алгебраических соотношений) для реализации систем с высоким качеством и низкими скоростями. Например, автокорреляционный анализ является прямым в том смысле, что если при вычислении обеспечивается достаточная точность, то устойчивость фильтра с характеристикой 1/A(z) те­оретически гарантируется. Но, к сожалению, качество синтеза при этом часто ниже, чем при ковариационном методе при иде­альных условиях (например, анализ синхронный с ОТ, большое отношение сигнал/шум). С другой стороны, ковариационный ме­тод требует проведения дополнительных операций для обеспече­ния устойчивости синтезирующих фильтров (проверка корней по­линомов и смещение корней внутрь единичной окружности, пос­ле которого критерий минимума ошибки предсказаний уже не удовлетворяется).

Вокодерная система на основе линейного предсказания, ис­пользующая такой принцип анализа-синтеза, была исследована Хаски и другими. При этом была поставлена задача опти­мизировать систему с точки зрения качества ее работы и точно­сти реализации для самых разных дикторов при скоростях пере­дачи информации 3600 и 7200 бит/с. В этом исследовании речь была ограничена полосой до 4000 Гц и дискретизировалась с частотой fs= 8000 Гц. Кроме того, длительность сегмента анализа была фиксирована. С целью определения требуемого числа коэф­фициентов фильтра М и длины сегмента анализа N было обра­ботано шесть различных предложений от разных дикторов.

Из набора возможных значений длины сегмента N=64, 128 и 256 отсчетов был выбран сегмент с N= 128 (16 мс). Выбор более короткого интервала приводил к неустойчивости синтезирующего фильтра, в то время как при сегменте большей длительности по­являлось чрезмерное сглаживание спектра. Порядок предсказа­теля М был выбран равным 12 при частоте дискретизации fs=8 кГц для обеспечения хоро­шего качества синтеза в различных условиях. При этом не на­блюдалось существенного улучшения в синтезе при частоте сег­ментов выше 200 Гц и качество речи плавно снижалось при уменьшении частоты анализа от 200 до 30 Гц.

С точки зрения объема вычислений было целесообразно не определять корни полиномов. Вначале характеристика фильтра A (z) пересчитывалась в характеристику соответствующей акусти­ческой трубы. Необходимым и достаточным условием устойчивости фильтра l/A(z) является положительность Затем вычисляется новая функция площадей. Эта процедура продолжается до тех пор, пока модифициро­ванный полином не будет иметь все функции пло­щадей положительными. Кроме того, была установлена необхо­димость того, чтобы ширина каждой полосы была больше 30 Гц. Это требование удовлетворяется, если сжатие единичной окруж­ности в 1,01 раза не приводит к неустойчивым функциям площа­дей.

Значительные усилия были приложены для определения эф­фективного метода кодирования функций площадей. Было уста­новлено, что наиболее эффективным законом кодирования явля­ется логарифмическое кодирование отношений площадей. Было найдено, что наилучшим выбором распределения бит при скоро­сти передачи данных 3600 бит/с и частоте анализа fr=50 Гц яв­ляется следующее:

отношение площадей 1—2 6 бит;

—»—3—8 5 бит;

—»— 9—12 4 бит;

ОТ и «тон-шум» 8 бит;

коэффициент усиления 5 бит.

Для получения системы со скоростью передачи 7200 бит/с было ре­шено просто удвоить частоту анализа, чтобы получить наилучшие результаты.

Качество восприятия сигнала в системе со скоростью передачи 3600 бит/с оценивалось при помощи сбора мнений слушателей. Бы­ло обработано 30 предложений (десять дикторов произносили по три предложения каждый). Слушатели (30) оценивали эти пред­ложения (каждый 2 раза) по тексту, содержащему 60 пунктов, при использовании следующих категорий: отлично, хорошо, удовлет­ворительно, плохо, очень плохо. Слушатели были «настроены» на экспериментальные категории с помощью прослушивания речи стандартного телефонного канала и речи, полученной в полосном вокодере со скоростью 3600 бит/с. Результаты показывают, что ка­чество, полученное при моделировании системы со скоростью пе­редачи 3600 бит/с, находится между удовлетворительным и хоро­шим. Имеются основания полагать, что эти оценки чувствительны к дикторам и, в меньшей степени, к тексту. Обычно мужские голо­са получают более высокие оценки, чем женские, но существуют и исключения из этого правила. Для большинства дикторов и тек­стов система со скоростью 3600 бит/с обеспечивает улучшение ка­чества по сравнению с предшествующими полосными вокодерами.

Была проведена также сравнительная проверка для того, чтобы оценить разницу в качестве между системами со скоростями 3600 и 7200 бит/с. Тридцать предложений, использовавшихся при про­верке по установлению категорий, были обработаны в модели во­кодера со скоростью 7200 бит/с, в которой длительность сегмента была равна 10 мс, причем на сегмент отводилось по 72 двоичных единицы. Предложения для обеих систем (с 3600 и 7200 бит/с) бы­ли объединены в тест, включающий 30 разделов.

Результаты для всех дикторов и предложений показали, что в 53% случаев предпочтение было отдано системе с более высокой скоростью передачи данных. Когда же рассматривались только дикторы женщины, в результате получили цифру 58%. Этот резуль­тат объясняется ухудшением интерполяции коротких периодов ОТ в сигнале, соответствующем женскому голосу при сегменте анали­за длительностью 20 мс. Такое небольшое предпочтение показыва­ет, что нет существенного роста в субъективном качестве при уве­личении скорости передачи свыше 3600 бит/с.

Исследование соображений по реализации вокодеров привели кследующей оценке числа операций на сегмент: 4200 операций для передатчика и 5000 операций для приемника (всего 9200 опе­раций на сегмент или, при скорости передачи 3600 бит/с, 461 000 операций в секунду). Предполагалось, что для выполнения всех этих операций необходим процессор, работающий в режиме с пла­вающей запятой.

Уэлч и другие, основываясь на системе Атала — Ханауэра и исследовании Хаски и других, ввели некоторые модифи­кации, которые позволили реализовать систему при использовании быстродействующего цифрового процессора.


Глава 4: Методы анализа речи на основе использования вокодеров с линейным предсказанием.

Прямое использование предсказания позволяет воспроизводить звук, но с плохим качеством. Поэтому этот метод имеет много различных разновидностей, улучшающих это качество. Эти методы касаются улучшения параметров возбуждения генераторов на приемном конце. Поэтому из трех составляющих системы с предсказанием — аппроксимации, предсказания и методов восстановления (возбуждения генераторов) речи — все усовершенствования метода линейного предсказания касаются последней составляющей. Поэтому они иногда называются гибридными кодерами, ибо представляют собой гибриды вокодеров и кодеров сигнала. Рассмотрим коротко каждый из них.

Все методы анализа речи предполагают достаточно медленное изменение свойств речевого сигнала во времени. Характеристики голосового тракта можно считать неизменными на интервале 10-20 мс, то есть параметры надо измерять с частотой порядка 1/20 мс = 50 Гц.

Известно несколько разновидностей метода линейного предсказания, а именно: