Кодеры речи (стр. 3 из 16)

Детектор тона и перехода. С целью улучшения рабочих характеристик для сигналов, поступающих с выходов модемов с частотной манипуляцией, работающих в режиме кодовых комбинаций, определен двухступенчатый процесс декодирования. Сначала производится детектирование сигнала с ограниченной полосой (например, тона), в результате чего квантователь может быть переведен в быстрый режим адаптации.

Упрощенная и развернутая структурные схемы декодера АДНКМ приведены на рис. 1.6,а и 1.7,б соответственно. Декодер включает схему, идентичную цепи обратной связи кодера, преобразователь линейной ИКМ в сигнал по законам А или μ и устройство установки синхронного кодирования.

Устройство установки синхронного кодирования предотвращает накопление искажений, имеющих место при синхронном последовательном кодировании (АДИКМ-ИКМ-АДИКМ, другие цифровые соединения). Установка синхронного кодирования достигается путем подстройки проходного кода ИКМ таким образом, чтобы попытаться устранить искажения квантования в следующем каскаде кодирования АДИКМ.

Функции основных блоков декодера и кодера совпадают и поэтому ниже не рассматриваются.

Вокодеры

Вокодер (от английских слов voice – голос и coder – кодировщик) представляет собой устройство, осуществляющее параметрическое компандирование речевых сигналов. Компрессия речевых сигналов на передающем конце канала связи производится в анализаторе, выделяющем из речевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью местных источников сигналов, управляемых принятыми параметрами, синтезируется речевой сигнал.

Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует входной сигнал в некий другой, похожий на исходный. Причем измеряемые характеристики речевого сигнала используются для подгонки параметров в принятой модели речевого сигнала. Именно эти параметры и передаются приемнику, который по ним восстанавливает исходный речевой сигнал. По существу, речь идет о синтезе речи. Естественно, что измерение искажений отношения сигнал/шум бесполезно для вокодеров, и, следовательно, необходимы другие субъективные оценки, такие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметрические.

В речеэлементных вокодерах при передаче распознаются произнесенные элементы речи (например, фонемы) и передаются только их номера. На приеме эти элементы создаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных вокодеров – линии командной связи, речевое управление и говорящие автоматы информационно-справочной службы. Практически в таких вокодерах происходит автоматическое распознавание слуховых образов, а не определение параметров речи.

В параметрических вокодерах из речевого сигнала выделяют два типа параметров:

параметры, характеризующие огибающую спектра речевого сигнала, (фильтровую функцию);

параметры, характеризующие источник речевых колебаний (генераторную функцию), – частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона, шумового сигнала.

По этим параметрам на приеме синтезируют речь.

По принципу определения параметров фильтровой функции речи различают вокодеры:

• полосные канальные (channel);

• формантные;

• ортогональные;

• липредеры (с линейным предсказанием речи);

• гомоморфные.

В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза F_cp. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее F_cp. Их передача возможна в аналоговом или цифровом виде.

В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.

В ортогональных вокодерах огибающая мгновенного спектра раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону. Распространение получили гармонические вокодеры, использующие разложение в ряд Фурье.

Вокодеры с линейным предсказанием (LPC — Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппарате. Они получили наибольшее распространение и будут ниже рассмотрены более подробно.

Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.

Из-за сложности определения параметров генераторной функции появились полувокодеры (VE — Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигнала. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известныразныетипыполувокодеров-липредеров: VELP — Voice Excite Linear Prediction; RELP — Residue Excited Linear Prediction.

Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка).

Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные.

Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и данных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирования. Общим решением является использование фиксированной скорости для речи и низкой скорости для фоновых шумов. Способ выполнения механизма сжатия пауз важен для повышения качества передачи речи, однако часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между речью и шумом. Другая проблема заключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи.

Алгоритм	Описание
Детектор активности речи (VAD)	Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости
Генерация комфортного шума	Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума

Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизированными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.

Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процессоров (ЦСП). В соответствии с компьютерной терминологией их производительность может быть измерена в млн. операций в секунду, объеме памяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэтому при определении типа вокодера для тех или иных приложений разработчик должен сделать соответствующий выбор. В случаях, когда вокодер совместно использует процессор с другими приложениями, разработчик должен решить, сколько ресурсов можно выделить для вокодера. Вокодеры, использующие менее 15 млн. операций/с, считаются низкопроизводительными. Использующие 30 или более млн. операций/с – высокопроизводительными.

Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энергетические затраты важны для приложений в портативной аппаратуре, так как при больших затратах энергии сокращается время между подзарядками батарей или возникает необходимость использовать батареи большей емкости, что, в свою очередь, приводит к большей цене и весу.

При синтезе и исследовании полосных вокодеров и полосных вокодеров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет собой нестационарный случайный процесс с медленно меняющейся дисперсией и спектральной плотностью. При использовании подобной модели можно получить наиболее точный результат оценки качества вокодера.