Вокодеры с линейным предсказанием (стр. 9 из 9)

Современные продукты для IP-телефонии применяют самые разные кодеки, стандартные и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом Н.323 для связи по IP-сети. Единственным обязательным для применения кодеком в Н.323-совместимых продуктах остается стандарт G.711: выдаваемые им массивы данных составляют от 56 до 64 кбит/с. В качестве дополнительных высокопроизводительных кодеков стандарт Н.323 рекомендует G.723 и G.729 - последние способны сжимать оцифрованную 16-разрядную ИКМ-речь длительностью 10 мс всего в 10 байт. Стандарт G.729 уже получил широкое распространение в системах передачи голоса по IP; его поддерживают значительное число производителей продуктов для IP-телефонии.

Глава 6: Вокодеры в современности.

В таблице 5 приведены основные виды вокодеров и требуемая пропускная способность канала связи.

Сегодня вокодеры применяют для кодировании телефонных сигналов в военных и коммерческих цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1 200 - 2 400 бит/с. Формантные и полосные вокодеры находят применение также при цифровой передаче телефонных сигналов по КВ-каналам радиосвязи.

Таблица 5. Основные виды вокодеров

Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 4 800 - 2 400 бит/с и качество речи, пригодное для ведения служебных переговоров, при скорости передачи 1 200 бит/с.В таблице 6 приведен краткий список вокодеров, которые производятся в настоящее время.

Таблица 6. Перечень вокодеров, которые производятся в настоящее время.

Рассмотрим теперь в качестве примера один из выпускаемых вокодеров-липредеров вокодер LSP2400.

Разработчики для скорости 2400 бит/с выбрали вокодер с линейным предсказанием.

Структурно вокодер состоит из двух частей. Первая часть - анализатор, функции которого заключаются в выделении текущих параметров речевого сигнала и их упаковке в кадр соответствующего формата.

Вторая часть - синтезатор по принятому кадру восстанавливает с некоторой ошибкой параметры текущего фрагмента сигнала и с их помощью воспроизводит синтетическую речь.

Цифровой сигнал поступает на предыскажающий фильтр (1-0.9375*z-1) и далее из него посредством полусинхронной с основным тоном процедуры выделяется фрагмент анализа. Предыскажение, кроме компенсации высокочастотной части спектра речевого сигнала, служит для снижения необходимой точности вычислений.

Полусинхронная с основным тоном процедура выделения фрагмента анализа заключается во взвешивании фрагмента треугольным окном переменной длины, зависящей от текущего основного тона. Треугольное окно в данном варианте алгоритма располагается в центре фрагмента. После получения фрагмента анализа коэффициенты линейного предсказания вычисляются путем использования ковариационного метода. Выбор ковариационного метода (среди двух возможных: автокорреляционного и ковариационного) обусловлен тем, что длина фрагмента анализа определяется основным тоном, а при возможных малых значениях длины фрагмента автокорреляционный метод даст значительные искажения текущего спектра сигнала.

Оценка периода основного тона производится по алгоритму, основанному на базе метода Голда-Рабинера.

В канал связи передаются линейные спектральные частоты (LSF). Квантование спектральных частот выполняется на основе метода динамического программирования. В качестве конкретных квантователей использованы неравномерные квантователи из 34-битного независимого квантования LSF стандарта USFS-1016.

В синтезаторе производится задержка на 1 кадр, поэтому сглаживание канальных ошибок производится на основе принятых параметров из трех текущих кадров - прошлого, настоящего и будущего. Степень сглаживания параметров зависит от числа детектированных канальных ошибок. При увеличении числа ошибок в канале степень сглаженности возрастает.

В качестве возбуждения на невокализованных фрагментах используется белый шум, а на вокализованных - импульсный отклик фазового звена.

Синтезирующий фильтр реализуется в прямом виде. Его коэффициенты представлены с 16-разрядной точностью. Выходной сигнал пропускается через фильтр, обратный предыскажающему, и после цифро-аналогового преобразования синтетический сигнал поступает на выход.

Более подробное описание алгоритма речевого кодирования LSP2400 на скорости 2400 бит/с можно найти в книгах:

-Linear-Rrediction Vocoder for Speech Transmission with 2.4(1.2) kbit/sec rate, St.Petersburg State University of Telecommunication DSP Center, St.Petersburg, 1994

-Implementation of HF Modem for Digital Data Transmission, St.Petersburg Bonch-Bruevich State University of Telecommunication DSP Center, St.Petersburg, 1996

Заключение.

Алгоритмы кодирования формы сигнала основываются на наличии корреляционных связей между отсчетами сигнала, которые дают возможность линейного предсказания. В сочетании с адаптивным квантованием этот подход позволяет обеспечить хорошее качество речи при скорости передачи битов порядка 24-32 Кбит/с. По сравнению с другими подобными устройствами LPC-вокодеры (липредеры) используют простую математическую модель голосового тракта и позволяют использовать очень низкие скорости передачи информации 1200-2400 бит/с, однако ценой «синтетического» характера речи.

Список используемой литературы.

1. Дж.Д.Маркел, А.Х.Грэй, «Линейное предсказание речи», перевод под редакцией Ю.Н.Прохорова и В.С.Звездина, М., изд. «Связь», 1980.

2. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991.

3. М.А.Сапожков, «Акустика.Справочник», М.,изд. «Радио и связь», 1989.

4. Интернет-сайт http://www.intuit.ru. Интернет-Университет Информационных Технологий.

5. Интернет-сайт http://www.bnti.ru/. Бюро научно-технической информации. По материалам 2-ой Всероссийской конференции "Теория и практика речевых исследований".

6. Интернет-сайт http://www.wikipedia.org/. Свободная энциклопедия.

7. Разные интернет-ресурсы, посвященные вокодерным технологиям.