Кодеры речи (стр. 10 из 16)

С помощью более эффективных классификаторов входного сигнала может более детально осуществляться классификация фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (соответственно большую скорость), для менее ответственных – меньше бит (меньшую скорость). В результате могут быть достигнуты еще более низкие средние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи.

Передатчик состоит из кодера речи, VAD, усреднителя фоновых шумов и переключателя на канал, который управляется выходом VAD. Когда на вход есть речь, передатчик постоянно включен. Во время пауз передатчик выключается, но после определенного времени, которое должно быть достаточно коротким, передатчик снова включается на один фрейм, чтобы передать информацию о среднем фоне для точного генерирования в приемнике комфортного шума. На приемной стороне, если определено наличие речи, происходит нормальный синтез. Если определено наличие паузы, выполняется одно из двух действий. Если не передается новой информации о фоне, используются существующие параметры шума, генерируется комфортный шум и используется для текущего фрейма. Если передаются новые параметры фонового шума, то старые параметры заменяются на вновь декодированные, а за тем генерируется новый комфортный шум. Обычно, на стороне декодера также используется индикатор «хороший/плохой» фрейм, чтобы показать верны или нет декодированные параметры, и если нет, используется замена фрейма. Эффективность DTX зависит от точности VAD.

Кодеры стандарта D-AMPS

Цифровой стандарт мобильной радиосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональным возможностям и предоставляемым услугам приближается к стандарту GSM. Стандарт D-AMPS не принят в европейских странах, за исключением России, где он в основном ориентирован на региональное использование.

Блок предварительной обработки выполняет следующие функции:

предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю которых в спектре речевого сигнала приходится меньшая мощность;

«нарезание» сигнала на сегменты по 160 выборок (20 мс).

Для каждого 20-мс сегмента оцениваются параметры фильтра кратковременного линейного предсказания – 10 коэффициентов частичной корреляции

(порядок предсказания М = 10), которые непосредственно кодируются для передачи в канал связи без каких-либо дополнительных преобразований, и оценивается амплитудный множитель р, определяющий энергию сегмента речи.

Сигнал с выхода предварительной обработки фильтруется фильтром-анализатором кратковременного линейного предсказания A(z), имеющего форму трансверсального линейного фильтра, для чего коэффициенты частичной корреляции

преобразуются в коэффициенты линейного предсказания

Выходной сигнал фильтра кратковременного предсказания (остаток предсказания

) используется для оценки параметров фильтра

долговременного предсказания – задержки τ и коэффициента предсказания

, причем параметры долговременного предсказания оцениваются в отдельности для каждого из четырех подсегментов по 40 выборок, на которые разделяется сегмент из 160 выборок.

Для каждого из подсегментов определяются параметры сигнала возбуждения. Для этого в составе кодера используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы кратковременного

и долговременного

предсказания и две кодовые книги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сигнала возбуждения содержит 128 кодовых векторов, по 40 элементов в каждом.

Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства в 40-мерном пространстве. Каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.

Сигнал возбуждения фильтр синтезатора кратковременного предсказания, в соответствии со схемой декодера рис. 5.4, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра синтезатора долговременного предсказания. Векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления

, а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтр или суммарный сигнал возбуждения фильтра-синтезатора кратковременного предсказания. Параметры сигнала возбуждения – номера векторов возбуждения

из первой и второй кодовых книг и соответствующие коэффициенты усиления

– определяются по критерию минимума среднеквадратичной ошибки на выходе фильтра-синтезатора кратковременного предсказания, входящего в состав кодера. Предварительно базисные векторы обеих кодовых книг ортогонализируются: для первой книги – по отношению к выходному вектору фильтра-синтезатора долговременного предсказания, для второй книги – по отношению к тому же выходному вектору и к базисным векторам первой книги.

В результате выходная информация кодера речи для 20-мс сегмента включает:

• параметры фильтра кратковременного линейного предсказания – 10 коэффициентов частичной корреляции

, и амплитудный множитель р – один набор на весь сегмент;

• параметры фильтра долговременного линейного предсказания – коэффициент предсказания

и задержку τ – для каждого из четырех подсегментов;

• параметры сигнала возбуждения – номера

векторов возбуждения из двух кодовых книг и соответствующие коэффициенты усиления

– для каждого из четырех подсегментов.

В табл. 5.2 приведено содержание выходной информации кодера с указанием числа бит, используемых для кодирования.

Таблица 5.2

Кодирование выходной информации кодера речи стандарта D-AMPS

Передаваемые параметры	Число бит	Примечание
Параметры кратковременного предсказания (коэффициенты частичной корреляции , )	38	– 6 бит; – по 5 бит; – по 4 бита; – по 3 бита; – 2 бита
Амплитудный множитель (энергия сегмента) р	5
Задержка фильтра долговременного предсказания τ (для каждого из четырех подсегментов)	28	7 бит на каждый подсегмент
Номера векторов возбуждения и из двух кодовых книг (для каждого из четырех подсегментов	56	h и i2 по 7 бит
Коэффициенты усиления , и (для каждого из четырех подсегментов)	32	8 бит на каждый подсегмент; векторному квантованию и кодированию подвергаются некоторые функции от , и
Всего на 20-мс сегмент	159

Общий объем информации, выдаваемой для 20-мс сегмента речи, составляет 159 бит. Поскольку исходный объем информации на входе кодера составляет 1280 бит (160 выборок по 8 бит), кодер осуществляет сжатие информации более чем в 8 раз. Перед передачей в канал связи выходная информация кодера речи подвергается дополнительному канальному кодированию, причем разные параметры в зависимости от их важности для обеспечения качества речи кодируются с различной степенью избыточности.