Смекни!
smekni.com

Кодеры речи (стр. 3 из 16)

Детектор тона и перехода. С целью улучшения рабочих характери­стик для сигналов, поступающих с вы­ходов модемов с частотной манипуля­цией, работающих в режиме кодовых комбинаций, определен двухступенча­тый процесс декодирования. Снача­ла производится детектирование сиг­нала с ограниченной полосой (напри­мер, тона), в результате чего квантова­тель может быть переведен в быстрый режим адаптации.

Упрощенная и развернутая струк­турные схемы декодера АДНКМ при­ведены на рис. 1.6,а и 1.7,б соответ­ственно. Декодер включает схему, идентичную цепи обратной связи коде­ра, преобразователь линейной ИКМ в сигнал по законам А или μ и устрой­ство установки синхронного кодирова­ния.

Устройство установки синхрон­ного кодирования предотвращает нако­пление искажений, имеющих место при синхронном последовательном кодиро­вании (АДИКМ-ИКМ-АДИКМ, дру­гие цифровые соединения). Установ­ка синхронного кодирования достига­ется путем подстройки проходного ко­да ИКМ таким образом, чтобы попы­таться устранить искажения квантова­ния в следующем каскаде кодирования АДИКМ.

Функции основных блоков декоде­ра и кодера совпадают и поэтому ниже не рассматриваются.


Вокодеры

Вокодер (от английских слов voice – голос и coder – кодировщик) пред­ставляет собой устройство, осуще­ствляющее параметрическое компандирование речевых сигналов. Ком­прессия речевых сигналов на переда­ющем конце канала связи производит­ся в анализаторе, выделяющем из ре­чевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью мест­ных источников сигналов, управляе­мых принятыми параметрами, синте­зируется речевой сигнал.

Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует вход­ной сигнал в некий другой, похожий на исходный. Причем измеряемые харак­теристики речевого сигнала использу­ются для подгонки параметров в при­нятой модели речевого сигнала. Имен­но эти параметры и передаются прием­нику, который по ним восстанавливает исходный речевой сигнал. По суще­ству, речь идет о синтезе речи. Есте­ственно, что измерение искажений от­ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо­димы другие субъективные оценки, та­кие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри­ческие.

В речеэлементных вокодерах при передаче распознаются произне­сенные элементы речи (например, фо­немы) и передаются только их но­мера. На приеме эти элементы со­здаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных воко­деров – линии командной связи, ре­чевое управление и говорящие автома­ты информационно-справочной служ­бы. Практически в таких вокодерах происходит автоматическое распозна­вание слуховых образов, а не опреде­ление параметров речи.

В параметрических вокодерах из речевого сигнала выделяют два ти­па параметров:

параметры, характеризующие оги­бающую спектра речевого сигнала, (фильтровую функцию);

параметры, характеризующие ис­точник речевых колебаний (генератор­ную функцию), – частота основного тона, ее изменение во времени, момен­ты появления и исчезновения основно­го тона, шумового сигнала.

По этим параметрам на приеме синтезируют речь.

По принципу определения параме­тров фильтровой функции речи разли­чают вокодеры:

• полосные канальные (channel);

• формантные;

• ортогональные;

• липредеры (с линейным предска­занием речи);

• гомоморфные.

В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо­выми фильтрами. Большее число ка­налов в вокодере дает большую нату­ральность и разборчивость. С каждо­го полосового фильтра сигнал поступа­ет на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала из­меняются с частотой менее Fcp. Их пе­редача возможна в аналоговом или ци­фровом виде.

В формантных вокодерах оги­бающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.

В ортогональных вокодерах огибающая мгновенного спектра рас­кладывается в ряд по выбранной си­стеме ортогональных базисных функ­ций. Вычисленные коэффициенты это­го разложения передаются на прием­ную сторону. Распространение полу­чили гармонические вокодеры, исполь­зующие разложение в ряд Фурье.

Вокодеры с линейным пред­сказанием (LPC — Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппа­рате. Они получили наибольшее рас­пространение и будут ниже рассмотре­ны более подробно.

Гомоморфная обработка позво­ляет разделить генераторную и филь­тровую функции, образующие речевой сигнал.

Из-за сложности определения па­раметров генераторной функции по­явились полувокодеры (VE — Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна­ла. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известныразныетипыполувокодеров-липредеров: VELP — Voice Excite Linear Prediction; RELP — Residue Excited Linear Prediction.

Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка).

Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные.

Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и дан­ных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирова­ния. Общим решением является ис­пользование фиксированной скорости для речи и низкой скорости для фо­новых шумов. Способ выполнения ме­ханизма сжатия пауз важен для повы­шения качества передачи речи, одна­ко часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между ре­чью и шумом. Другая проблема за­ключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи.

Алгоритм Описание
Детектор активности речи (VAD) Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости
Генерация комфортного шума Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума

Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизи­рованными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.

Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процес­соров (ЦСП). В соответствии с ком­пьютерной терминологией их произво­дительность может быть измерена в млн. операций в секунду, объеме па­мяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэто­му при определении типа вокодера для тех или иных приложений разработ­чик должен сделать соответствующий выбор. В случаях, когда вокодер со­вместно использует процессор с дру­гими приложениями, разработчик дол­жен решить, сколько ресурсов мож­но выделить для вокодера. Вокодеры, использующие менее 15 млн. опера­ций/с, считаются низкопроизводитель­ными. Использующие 30 или более млн. операций/с – высокопроизводи­тельными.

Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энерге­тические затраты важны для прило­жений в портативной аппаратуре, так как при больших затратах энергии со­кращается время между подзарядками батарей или возникает необходимость использовать батареи большей емко­сти, что, в свою очередь, приводит к большей цене и весу.

При синтезе и исследовании по­лосных вокодеров и полосных вокоде­ров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет со­бой нестационарный случайный про­цесс с медленно меняющейся дисперси­ей и спектральной плотностью. При использовании подобной модели мож­но получить наиболее точный резуль­тат оценки качества вокодера.