Кодеры речи (стр. 11 из 16)

Функционирование декодера осуществляется по следующему алгоритму. Сигнал возбуждения фильтра-синтезатора кратковременного предсказания формируется таким же образом, как и в синтезирующей схеме кодера:

по номерам

из кодовых книг выбираются векторы возбуждения, которые умножаются соответственно на коэффициенты усиления

и складываются с выходным вектором фильтра-синтезатора долговременного предсказания, определяемого параметрами

и τ.

Окончательно сигнал возбуждения фильтруется фильтром-синтезатором кратковременного предсказания, выполненного в форме трансверсального фильтра, т.е. параметры фильтра преобразуются из коэффициентов частотной корреляции

в коэффициенты предсказания

. Для улучшения субъективного качества синтезированной речи выходной сигнал фильтра-синтезатора подвергается цифровой адаптивной постфильтрации и с выхода постфильтра получается восстановленный цифровой речевой сигнал.

Кодеры TETRA

TETRA (Trans-European Trunked Radio) представляет собой стандарт цифровой транкинговой радиосвязи, состоящий из ряда спецификаций, разработанных Европейским институтом телекоммуникационных стандартов ETSI.

TETRA — открытый стандарт, т.е. доступ к спецификациям TETRA свободен для всех заинтересованных сторон. В связи с этим оборудование различных производителей должно быть совместимо.

Стандарт TETRA создавался как единый общеевропейский цифровой стандарт. Стандарт разработай на основе технических решений и рекомендаций стандарта GSM и ориентирован на создание систем связи, эффективно и экономично поддерживающих совместное использование сетей различными группами пользователей с обеспечением секретности и защищенности информации.

Речевой кодер TETRA основан на модели кодирования CELP – с линейным предсказанием с кодовым возбуждением. В этой модели блок из N речевых выборок синтезируется путем фильтрации соответствующей обновленной последовательности из кодовой книги, масштабированной коэффициентом усиления

, с помощью двух изменяющихся во времени фильтров.

Первый фильтр является фильтром долгосрочного предсказания (фильтром основного тона), цель которого – моделирование псевдопериодического речевого сигнала, а второй – фильтр краткосрочного предсказания – моделирует огибающую речевого спектра.

Передаточная характеристика долгосрочного фильтра (или фильтра синтеза основного тона) определяется формулой

где Т – задержка основного тона;

– коэффициент усиления основного тона. Фильтр синтеза основного тона выполнен как адаптивная кодовая книга, где для задержек, меньших чем длина подфрейма, повторяется последнее возбуждение.

Краткосрочный фильтр синтеза определяется формулой

где

, – параметры линейного предсказания; р – порядок предсказателя. В кодере TETRA порядок р = 10.

При способе анализа-через-синтез синтезированная речь вычисляется для всех кандидатов – последовательностей, составляя особую последовательность, которая и формирует выходной сигнал, наиболее близкий к исходному, в соответствии с взвешенной величиной измеренных искажений. Фильтр взвешивания, корректирующий ошибку предыскажений в области форманты спектра речи, определяется формулой

(5.1)

где

– обратный (инверсный) фильтр линейного предсказания;

(используется значение

). Для взвешивающего фильтра

и фильтра синтеза формант

используются квантованные параметры линейного предсказания.

В алгебраическом CELP (ACELP) используется специальная кодовая книга, имеющая алгебраическую структуру. Эта алгебраическая структура имеет некоторые преимущества в отношении сохранения, сложности поиска и устойчивости (робастности). Кодер TETRA использует специальную динамическую алгебраическую кодовую книгу возбуждения, посредством которой, а также динамической матрицы формы образуются фиксированные векторы возбуждения. Матрица формы – это функция модели A(z) линейного предсказания. Главная ее роль – формировать векторы возбуждения в частотной области так, чтобы их энергии были сконцентрированы в наиболее важных частотных полосах. Используемая матрица формы является триангулярной Теплицевой матрицей низшего порядка, сформированной из импульсного отклика фильтра:

(5.2)

где A(z) — инверсный фильтр линейного предсказания (в конкретных реализациях

В кодере TETRA используются фреймы речи по 30 мс. Это требуется для того, чтобы параметры краткосрочного предсказания вычислялись и передавались в каждом речевом фрейме. Речевой фрейм разделен на четыре подфрейма по 7,5 мс (60 выборок). Основной тон и параметры алгебраической кодовой книги также передаются в каждом подфрейме. В табл. 5.3 представлено распределение бит для кодера TETRA. Должно быть сформировано 137 бит для каждого фрейма по 30 мс, что в результате дает скорость 4567 бит/с.

Таблица 5.3

Параметр	Номер сегмента				Всего в кадре
Параметр	1	2	3	4	Всего в кадре
Коэффициенты линейного предсказания	26
Период основного тона	8	5	5	5	23
Индекс алгебраической кодовой книги	16	16	16	16	64
Коэффициенты усиления	6	6	6	6	24
Всего	137

Кодеры стандарта АРСО 25

АРСО 25 – стандарт транкинговой радиосвязи, описывающий структуру цифровой транкинговой системы и некоторые ее интерфейсы. Для цифровой передачи речи стандарт АРСО 25 предусматривает использование кодера IMBE (Improved MultiBand Excitation, модифицированный метод многополосного возбуждения). Кодер формирует цифровой поток со скоростью 4,4 кбит/с. Для исправления ошибок в цифровом речевом сигнале используется избыточное кодирование, порождающее дополнительный цифровой поток со скоростью 2,8 кбит/с.

Цифровой речевой сигнал передается кадрами длительностью 180 мс. Два речевых кадра образует суперкадр длительностью 360 мс. Перед передачей речи следует преамбула длительностью 82,5 мс, которая содержит синхропакет (48 бит), идентификатор сети (64 бита), служащий для предотвращения конфликтов между радиостанциями, работающими на одной частоте; информацию для алгоритма шифрования, идентификатор ключа алгоритма шифрования и другие служебные идентификаторы (всего 126 бит). Кадры речи, кроме собственно речевой информации, содержат дополнительную информацию (управления связью, канала сигнализации и т.д.)

Речевой IMBE-кодер основан на модели речи, которая относится к моделям с многополосным возбуждением (МВЕ). Основная идея работы кодера состоит в разделении цифрового речевого входного сигнала на перекрывающиеся речевые сегменты (или фреймы) с использованием окна Кайзера. Затем для определенного фрейма оценивается набор параметров.

Речевой MBE-кодер является вокодером, т.е. он не кодирует входной речевой сигнал выборка за выборкой, а синтезирует сигнал, который содержит ту же информацию для восприятия человеком, что и исходный речевой сигнал. Заметим, что когда речь не является вокализованнной, исходный и синтезированный сегменты речи могут не иметь никакого сходства во временной области.

Речевой MBE-кодер имеет два основных преимущества перед ранее используемыми вокодерами: во-первых, он основан на МВЕ речевой модели, которая является более устойчивой, чем традиционные речевые модели в рассмотренных вокодерах; во-вторых, данный метод использует более сложный алгоритм оценки параметров модели речевого синтеза речевого сигнала из параметров модели.