Современные продукты для IP-телефонии применяют самые разные кодеки, стандартные и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом Н.323 для связи по IP-сети. Единственным обязательным для применения кодеком в Н.323-совместимых продуктах остается стандарт G.711: выдаваемые им массивы данных составляют от 56 до 64 кбит/с. В качестве дополнительных высокопроизводительных кодеков стандарт Н.323 рекомендует G.723 и G.729 - последние способны сжимать оцифрованную 16-разрядную ИКМ-речь длительностью 10 мс всего в 10 байт. Стандарт G.729 уже получил широкое распространение в системах передачи голоса по IP; его поддерживают значительное число производителей продуктов для IP-телефонии.
Глава 6: Вокодеры в современности.
В таблице 5 приведены основные виды вокодеров и требуемая пропускная способность канала связи.
Сегодня вокодеры применяют для кодировании телефонных сигналов в военных и коммерческих цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1 200 - 2 400 бит/с. Формантные и полосные вокодеры находят применение также при цифровой передаче телефонных сигналов по КВ-каналам радиосвязи.
Таблица 5. Основные виды вокодеровСовременные вокодеры обеспечивают хорошее качество речи при скорости передачи 4 800 - 2 400 бит/с и качество речи, пригодное для ведения служебных переговоров, при скорости передачи 1 200 бит/с.В таблице 6 приведен краткий список вокодеров, которые производятся в настоящее время.
Таблица 6. Перечень вокодеров, которые производятся в настоящее время.Рассмотрим теперь в качестве примера один из выпускаемых вокодеров-липредеров вокодер LSP2400.
Разработчики для скорости 2400 бит/с выбрали вокодер с линейным предсказанием.
Структурно вокодер состоит из двух частей. Первая часть - анализатор, функции которого заключаются в выделении текущих параметров речевого сигнала и их упаковке в кадр соответствующего формата.
Вторая часть - синтезатор по принятому кадру восстанавливает с некоторой ошибкой параметры текущего фрагмента сигнала и с их помощью воспроизводит синтетическую речь.
Цифровой сигнал поступает на предыскажающий фильтр (1-0.9375*z-1) и далее из него посредством полусинхронной с основным тоном процедуры выделяется фрагмент анализа. Предыскажение, кроме компенсации высокочастотной части спектра речевого сигнала, служит для снижения необходимой точности вычислений.
Полусинхронная с основным тоном процедура выделения фрагмента анализа заключается во взвешивании фрагмента треугольным окном переменной длины, зависящей от текущего основного тона. Треугольное окно в данном варианте алгоритма располагается в центре фрагмента. После получения фрагмента анализа коэффициенты линейного предсказания вычисляются путем использования ковариационного метода. Выбор ковариационного метода (среди двух возможных: автокорреляционного и ковариационного) обусловлен тем, что длина фрагмента анализа определяется основным тоном, а при возможных малых значениях длины фрагмента автокорреляционный метод даст значительные искажения текущего спектра сигнала.
Оценка периода основного тона производится по алгоритму, основанному на базе метода Голда-Рабинера.
В канал связи передаются линейные спектральные частоты (LSF). Квантование спектральных частот выполняется на основе метода динамического программирования. В качестве конкретных квантователей использованы неравномерные квантователи из 34-битного независимого квантования LSF стандарта USFS-1016.
В синтезаторе производится задержка на 1 кадр, поэтому сглаживание канальных ошибок производится на основе принятых параметров из трех текущих кадров - прошлого, настоящего и будущего. Степень сглаживания параметров зависит от числа детектированных канальных ошибок. При увеличении числа ошибок в канале степень сглаженности возрастает.
В качестве возбуждения на невокализованных фрагментах используется белый шум, а на вокализованных - импульсный отклик фазового звена.
Синтезирующий фильтр реализуется в прямом виде. Его коэффициенты представлены с 16-разрядной точностью. Выходной сигнал пропускается через фильтр, обратный предыскажающему, и после цифро-аналогового преобразования синтетический сигнал поступает на выход.
Более подробное описание алгоритма речевого кодирования LSP2400 на скорости 2400 бит/с можно найти в книгах:
-Linear-Rrediction Vocoder for Speech Transmission with 2.4(1.2) kbit/sec rate, St.Petersburg State University of Telecommunication DSP Center, St.Petersburg, 1994
-Implementation of HF Modem for Digital Data Transmission, St.Petersburg Bonch-Bruevich State University of Telecommunication DSP Center, St.Petersburg, 1996
Заключение.
Алгоритмы кодирования формы сигнала основываются на наличии корреляционных связей между отсчетами сигнала, которые дают возможность линейного предсказания. В сочетании с адаптивным квантованием этот подход позволяет обеспечить хорошее качество речи при скорости передачи битов порядка 24-32 Кбит/с. По сравнению с другими подобными устройствами LPC-вокодеры (липредеры) используют простую математическую модель голосового тракта и позволяют использовать очень низкие скорости передачи информации 1200-2400 бит/с, однако ценой «синтетического» характера речи.
Список используемой литературы.
1. Дж.Д.Маркел, А.Х.Грэй, «Линейное предсказание речи», перевод под редакцией Ю.Н.Прохорова и В.С.Звездина, М., изд. «Связь», 1980.
2. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991.
3. М.А.Сапожков, «Акустика.Справочник», М.,изд. «Радио и связь», 1989.
4. Интернет-сайт http://www.intuit.ru. Интернет-Университет Информационных Технологий.
5. Интернет-сайт http://www.bnti.ru/. Бюро научно-технической информации. По материалам 2-ой Всероссийской конференции "Теория и практика речевых исследований".
6. Интернет-сайт http://www.wikipedia.org/. Свободная энциклопедия.
7. Разные интернет-ресурсы, посвященные вокодерным технологиям.