Для синтеза речи применялся фильтр прямой формы, управляемый синхронно с периодом ОТ. Функция возбуждения представляла собой выходной сигнал генератора в виде единичных отсчетов в начале каждого периода, умноженных на коэффициент усиления о, или равномерно распределенных псевдослучайных отсчетов с нулевым средним значением и единичной дисперсией. По признаку вокализованности V(«тон-шум») определялось, какой вид функции возбуждения применять. Поскольку параметры передаются с постоянной частотой fr, то для осуществления синтеза синхронно с периодом ОТ использовалась линейная интерполяция.
Для того чтобы гарантировать устойчивость, последовательность {ai} пересчитывалась в первые М+1 отсчеты автокорреляционной последовательности {r(п)}. После интерполяции последовательность {r(п)} пересчитывалась обратно в интерполированный ряд параметров {ai}, а затем последний применялся для синтеза в фильтре прямой формы.
Субъективно оцениваемое качество синтезированной речи было очень близко к качеству исходной речи. Некоторые факторы, касающиеся качества синтезированной речи, полученной в этой системе, будут рассмотрены далее. При построении этой системы преследовалась цель получения наивысшего возможного качества при заданной информационной скорости без учета сложности вычислений. Для проведения анализа с длительностью временного окна, зависящей от периода ОТ, требуется очень точно определять этот период. Как отмечал Шредер, частота возникновения ошибок, равная 1%, при выделении ОТ может быть недопустимой. Используемый алгоритм анализа периода ОТ требует много логических операций и обработки четырех или пяти задержанных в буферной памяти сегментов для определения того, классифицировать сегмент как вокализованный или как невокализованный и т. д. Чтобы достигнуть такого же качества синтеза, как в исходной записи, необходимо обеспечить большое отношение сигнал/шум (45—50 дБ). Более того, результаты отчасти зависят от того, насколько хорошо речь описывается комплексно-экспоненциальной моделью в пределах одного периода ОТ. Следует отметить, что все операции выполнялись в режиме с плавающей запятой с полной точностью.
При реализации такой системы можно не получить ожидаемых хороших результатов, если рассчитывать на то, что проведение вычислительных операций с малыми ошибками устранит потери качества восприятия. В настоящее время не существует прямых процедур (в тем смысле, что алгоритм может быть представлен последовательностью алгебраических соотношений) для реализации систем с высоким качеством и низкими скоростями. Например, автокорреляционный анализ является прямым в том смысле, что если при вычислении обеспечивается достаточная точность, то устойчивость фильтра с характеристикой 1/A(z) теоретически гарантируется. Но, к сожалению, качество синтеза при этом часто ниже, чем при ковариационном методе при идеальных условиях (например, анализ синхронный с ОТ, большое отношение сигнал/шум). С другой стороны, ковариационный метод требует проведения дополнительных операций для обеспечения устойчивости синтезирующих фильтров (проверка корней полиномов и смещение корней внутрь единичной окружности, после которого критерий минимума ошибки предсказаний уже не удовлетворяется).
Вокодерная система на основе линейного предсказания, использующая такой принцип анализа-синтеза, была исследована Хаски и другими. При этом была поставлена задача оптимизировать систему с точки зрения качества ее работы и точности реализации для самых разных дикторов при скоростях передачи информации 3600 и 7200 бит/с. В этом исследовании речь была ограничена полосой до 4000 Гц и дискретизировалась с частотой fs= 8000 Гц. Кроме того, длительность сегмента анализа была фиксирована. С целью определения требуемого числа коэффициентов фильтра М и длины сегмента анализа N было обработано шесть различных предложений от разных дикторов.
Из набора возможных значений длины сегмента N=64, 128 и 256 отсчетов был выбран сегмент с N= 128 (16 мс). Выбор более короткого интервала приводил к неустойчивости синтезирующего фильтра, в то время как при сегменте большей длительности появлялось чрезмерное сглаживание спектра. Порядок предсказателя М был выбран равным 12 при частоте дискретизации fs=8 кГц для обеспечения хорошего качества синтеза в различных условиях. При этом не наблюдалось существенного улучшения в синтезе при частоте сегментов выше 200 Гц и качество речи плавно снижалось при уменьшении частоты анализа от 200 до 30 Гц.
С точки зрения объема вычислений было целесообразно не определять корни полиномов. Вначале характеристика фильтра A (z) пересчитывалась в характеристику соответствующей акустической трубы. Необходимым и достаточным условием устойчивости фильтра l/A(z) является положительность Затем вычисляется новая функция площадей. Эта процедура продолжается до тех пор, пока модифицированный полином не будет иметь все функции площадей положительными. Кроме того, была установлена необходимость того, чтобы ширина каждой полосы была больше 30 Гц. Это требование удовлетворяется, если сжатие единичной окружности в 1,01 раза не приводит к неустойчивым функциям площадей.
Значительные усилия были приложены для определения эффективного метода кодирования функций площадей. Было установлено, что наиболее эффективным законом кодирования является логарифмическое кодирование отношений площадей. Было найдено, что наилучшим выбором распределения бит при скорости передачи данных 3600 бит/с и частоте анализа fr=50 Гц является следующее:
отношение площадей 1—2 6 бит;
—»—3—8 5 бит;
—»— 9—12 4 бит;
ОТ и «тон-шум» 8 бит;
коэффициент усиления 5 бит.
Для получения системы со скоростью передачи 7200 бит/с было решено просто удвоить частоту анализа, чтобы получить наилучшие результаты.
Качество восприятия сигнала в системе со скоростью передачи 3600 бит/с оценивалось при помощи сбора мнений слушателей. Было обработано 30 предложений (десять дикторов произносили по три предложения каждый). Слушатели (30) оценивали эти предложения (каждый 2 раза) по тексту, содержащему 60 пунктов, при использовании следующих категорий: отлично, хорошо, удовлетворительно, плохо, очень плохо. Слушатели были «настроены» на экспериментальные категории с помощью прослушивания речи стандартного телефонного канала и речи, полученной в полосном вокодере со скоростью 3600 бит/с. Результаты показывают, что качество, полученное при моделировании системы со скоростью передачи 3600 бит/с, находится между удовлетворительным и хорошим. Имеются основания полагать, что эти оценки чувствительны к дикторам и, в меньшей степени, к тексту. Обычно мужские голоса получают более высокие оценки, чем женские, но существуют и исключения из этого правила. Для большинства дикторов и текстов система со скоростью 3600 бит/с обеспечивает улучшение качества по сравнению с предшествующими полосными вокодерами.
Была проведена также сравнительная проверка для того, чтобы оценить разницу в качестве между системами со скоростями 3600 и 7200 бит/с. Тридцать предложений, использовавшихся при проверке по установлению категорий, были обработаны в модели вокодера со скоростью 7200 бит/с, в которой длительность сегмента была равна 10 мс, причем на сегмент отводилось по 72 двоичных единицы. Предложения для обеих систем (с 3600 и 7200 бит/с) были объединены в тест, включающий 30 разделов.
Результаты для всех дикторов и предложений показали, что в 53% случаев предпочтение было отдано системе с более высокой скоростью передачи данных. Когда же рассматривались только дикторы женщины, в результате получили цифру 58%. Этот результат объясняется ухудшением интерполяции коротких периодов ОТ в сигнале, соответствующем женскому голосу при сегменте анализа длительностью 20 мс. Такое небольшое предпочтение показывает, что нет существенного роста в субъективном качестве при увеличении скорости передачи свыше 3600 бит/с.
Исследование соображений по реализации вокодеров привели кследующей оценке числа операций на сегмент: 4200 операций для передатчика и 5000 операций для приемника (всего 9200 операций на сегмент или, при скорости передачи 3600 бит/с, 461 000 операций в секунду). Предполагалось, что для выполнения всех этих операций необходим процессор, работающий в режиме с плавающей запятой.
Уэлч и другие, основываясь на системе Атала — Ханауэра и исследовании Хаски и других, ввели некоторые модификации, которые позволили реализовать систему при использовании быстродействующего цифрового процессора.
Глава 4: Методы анализа речи на основе использования вокодеров с линейным предсказанием.
Прямое использование предсказания позволяет воспроизводить звук, но с плохим качеством. Поэтому этот метод имеет много различных разновидностей, улучшающих это качество. Эти методы касаются улучшения параметров возбуждения генераторов на приемном конце. Поэтому из трех составляющих системы с предсказанием — аппроксимации, предсказания и методов восстановления (возбуждения генераторов) речи — все усовершенствования метода линейного предсказания касаются последней составляющей. Поэтому они иногда называются гибридными кодерами, ибо представляют собой гибриды вокодеров и кодеров сигнала. Рассмотрим коротко каждый из них.
Все методы анализа речи предполагают достаточно медленное изменение свойств речевого сигнала во времени. Характеристики голосового тракта можно считать неизменными на интервале 10-20 мс, то есть параметры надо измерять с частотой порядка 1/20 мс = 50 Гц.
Известно несколько разновидностей метода линейного предсказания, а именно: