Смекни!
smekni.com

Кодеры речи (стр. 10 из 16)

С помощью более эффективных классификаторов входного сигнала мо­жет более детально осуществляться классификация фрагментов, соответ­ствующих активной речи. Это позво­ляет оптимизировать выбор стратегии кодирования (скорости передачи дан­ных), выделяя для особо ответствен­ных за качество речи участков рече­вого сигнала большее число бит (соответственно большую скорость), для менее ответственных – меньше бит (меньшую скорость). В результате мо­гут быть достигнуты еще более низкие средние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи.


Передатчик состоит из кодера речи, VAD, усреднителя фоновых шумов и переключателя на канал, который управляется выходом VAD. Когда на вход есть речь, передатчик постоянно включен. Во время пауз передатчик выключается, но после определенного времени, которое должно быть достаточно коротким, передатчик снова включается на один фрейм, чтобы передать информацию о среднем фоне для точного генерирования в приемнике комфортного шума. На приемной стороне, если определено наличие речи, происходит нормальный синтез. Если определено наличие паузы, выполняется одно из двух действий. Если не передается новой информации о фоне, используются существующие параметры шума, генерируется комфортный шум и используется для текущего фрейма. Если передаются новые параметры фонового шума, то старые параметры заменяются на вновь декодированные, а за тем генерируется новый комфортный шум. Обычно, на стороне декодера также используется индикатор «хоро­ший/плохой» фрейм, чтобы показать верны или нет декодированные пара­метры, и если нет, используется заме­на фрейма. Эффективность DTX зависит от точности VAD.

Кодеры стандарта D-AMPS

Цифровой стандарт мобильной ра­диосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональ­ным возможностям и предоставляе­мым услугам приближается к стандар­ту GSM. Стандарт D-AMPS не принят в европейских странах, за исключени­ем России, где он в основном ориенти­рован на региональное использование.

Блок предварительной обработки выполняет следующие функции:

предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю кото­рых в спектре речевого сигнала прихо­дится меньшая мощность;

«нарезание» сигнала на сегменты по 160 выборок (20 мс).

Для каждого 20-мс сегмента оце­ниваются параметры фильтра кратко­временного линейного предсказания – 10 коэффициентов частичной корреля­ции

,
(порядок предсказа­ния М = 10), которые непосредствен­но кодируются для передачи в канал связи без каких-либо дополнительных преобразований, и оценивается ампли­тудный множитель р, определяющий энергию сегмента речи.

Сигнал с выхода предваритель­ной обработки фильтруется фильтром-анализатором кратковременного ли­нейного предсказания A(z), имеюще­го форму трансверсального линейного фильтра, для чего коэффициенты ча­стичной корреляции

преобразуются в коэффициенты линейного предсказа­ния
.

Выходной сигнал фильтра крат­ковременного предсказания (остаток предсказания

) используется для оценки параметров фильтра
дол­говременного предсказания – задерж­ки τ и коэффициента предсказания
, причем параметры долговременного предсказания оцениваются в отдель­ности для каждого из четырех подсегментов по 40 выборок, на которые раз­деляется сегмент из 160 выборок.

Для каждого из подсегментов определяются параметры сигнала воз­буждения. Для этого в составе коде­ра используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы крат­ковременного

и долговременного
предсказания и две кодовые кни­ги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сиг­нала возбуждения содержит 128 кодо­вых векторов, по 40 элементов в ка­ждом.

Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства в 40-мерном пространстве. Каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.

Сигнал возбуждения фильтр синтезатора кратковременного предсказания, в соответствии со схемой декодера рис. 5.4, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра синтезатора долговременного предсказания. Векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления

и
, а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтр или суммарный сигнал возбуждения фильтра-синтезатора кратковременно­го предсказания. Параметры сигна­ла возбуждения – номера векторов возбуждения
и
из первой и вто­рой кодовых книг и соответствующие коэффициенты усиления
и
– определяются по критерию миниму­ма среднеквадратичной ошибки на вы­ходе фильтра-синтезатора кратковре­менного предсказания, входящего в со­став кодера. Предварительно базис­ные векторы обеих кодовых книг ортогонализируются: для первой книги – по отношению к выходному вектору фильтра-синтезатора долговременно­го предсказания, для второй книги – по отношению к тому же выходному вектору и к базисным векторам первой книги.

В результате выходная информа­ция кодера речи для 20-мс сегмента включает:

• параметры фильтра кратковре­менного линейного предсказания – 10 коэффициентов частичной корреляции

,
, и амплитудный множи­тель р – один набор на весь сегмент;

• параметры фильтра долговре­менного линейного предсказания – ко­эффициент предсказания

и задержку τ – для каждого из четырех подсегментов;

• параметры сигнала возбуждения – номера

и
векторов возбуждения из двух кодовых книг и соответствую­щие коэффициенты усиления
и
– для каждого из четырех подсегментов.

В табл. 5.2 приведено содержание выходной информации кодера с указа­нием числа бит, используемых для ко­дирования.

Таблица 5.2

Кодирование выходной информации кодера речи стандарта D-AMPS

Передаваемые параметры Число бит Примечание
Параметры кратковременного предсказания (коэффициенты частичной корреляции
,
)
38
– 6 бит;
– по 5 бит;
– по 4 бита;
– по 3 бита;
– 2 бита
Амплитудный множитель (энергия сегмента) р 5
Задержка фильтра долговременного предска­зания τ (для каждого из четырех подсегментов) 28 7 бит на каждый подсегмент
Номера векторов возбуждения
и
из двух кодовых книг (для каждого из четырех подсег­ментов
56 h и i2 по 7 бит
Коэффициенты усиления
,
и
(для каждо­го из четырех подсегментов)
32 8 бит на каждый подсегмент; векторно­му квантованию и кодированию подвер­гаются некоторые функции от
,
и
Всего на 20-мс сегмент 159

Общий объем информации, выдаваемой для 20-мс сегмента речи, составляет 159 бит. Поскольку исход­ный объем информации на входе коде­ра составляет 1280 бит (160 выборок по 8 бит), кодер осуществляет сжатие информации более чем в 8 раз. Пе­ред передачей в канал связи выходная информация кодера речи подвергается дополнительному канальному кодиро­ванию, причем разные параметры в за­висимости от их важности для обеспе­чения качества речи кодируются с раз­личной степенью избыточности.