Кодеры формы характеризуются способностью сохранять основную форму речевого сигнала. Кодеры формы не являются специфичными для речи в том смысле, что они с успехом работают с любой формой входного сигнала, и их применение ограничено только пределами амплитуды и шириной полосы. Сохраняя огибающую формы сигнала, подобные кодеры работают по принципу выборка-выборка, и их характеристики эффективно измеряются отношением сигнал/шум (ОСШ), так как квантование является основным источником искажений формы выходного сигнала.
ИКМ — первый мировой стандарт кодирования речи со скоростью 64 кбит/с с логарифмическим сжатием (по μ-закону для Северной Америки и А-закону для Европы). ИКМ-кодер является кодером формы и все еще широко используется в цифровых системах. ИКМ со скоростью 64 кбит/с в основном используется как предварительное звено низкоскоростных речевых кодеров, поскольку ее характеристики считаются очень высококачественными. Позже был разработан стандарт на адаптивную дифференциальную ИКМ (АДИКМ) со скоростью 32 кбит/с. Снижение скорости цифрового потока наполовину было достигнуто благодаря использованию адаптивного предсказания и адаптивных квантователей для устранения избыточности речи. Некоторые другие кодеры, например с дельта-модуляцией и плавно изменяющейся крутизной (CVSDM — Continuous Variable Slope Delta Modulation) на скорости 32 кбит/с, используются для решения специфичных задач. Хотя подобные высокоскоростные алгоритмы кодирования малоэффективны, они, тем не менее, остаются самыми эксплуатируемыми системами и, возможно, будут оставаться таковыми еще некоторое время.
При построении систем цифровой передачи непрерывных сообщений принципиальным моментом является определение полосы частот, требуемой для обеспечения заданного качества воспроизведения переданного сообщения. Вообще говоря, для высококачественной передачи речевого сообщения требуется полоса не менее 10 кГц.
Однако для достижения удовлетворительного уровня разборчивости при передаче речи по телефонным каналам достаточно передать спектр в полосе 300...3400 Гц. Именно такой спектр звуковых частот обычно передается в современных системах передачи речевой информации.
Как правило, максимальная частота передаваемого спектра аудиосигнала выбирается равной
,а частота дискретизации (например, рекомендации G.711, G.721), хотя в ряде случаев с целью повышения качества передачи используются и более высокие значения этих величин (например, рекомендация G.722).При использовании ИКМ дискретизированное сообщение подвергается квантованию по L уровням (рис. 1.1), в результате чего каждому значению
ставится в соответствие число , , представленное n-разрядной комбинацией двоичного кода.Для достижения приемлемого качества восприятия восстановленного речевого сообщения при равномерном (простом) квантовании необходимо
. Столь большое число уровней квантования при требует скорости передачи символов в канале не менее .Рисунок 1.1
Однако в связи с тем, что при восприятии речи человеческим ухом в области больших мгновенных значений
оказываются допустимыми значительно большие искажения сообщения, чем в области малых мгновенных значений, требуемое число уровней квантования может быть существенно снижено путем использования неравномерного квантования, используя компрессию исходного сообщения по логарифмическому закону с последующим равномерным квантованием при сравнительно малом числе уровней (например, при или путем соответствующего цифрового преобразования (цифровой компрессии) сообщения, предварительно преобразованного в цифровую форму при сравнительно большом исходном числе уровней квантования (например, при ).Оптимальный квантователь имеет преимущества, если динамический диапазон входного сигнала фиксирован и достаточно мал. Характеристики квантователя быстро ухудшаются, мощность сигнала изменяется относительно значения, на которое он был рассчитан. Хотя этим процессом можно управлять, нормализуя входной сигнал и приводя его к единому диапазону, для правильного определения масштаба амплитуды восстановленного после квантователя сигнала потребуется дополнительно несколько бит, необходимых для передачи динамического диапазона сигнала в определенные моменты времени.
Для обработки входных речевых сигналов с большим динамическим диапазоном используются два закона сжатия, называемые импульсно-кодовой модуляцией по закону
(А-ИКМ) и по закону μ (μ-ИКМ). В обеих схемах характеристика отношения сигнал/шум квантования (ОСШкв) должна быть близка к характеристике для простого квантователя. Вместе с тем характеристики А-ИКМ и μ-ИКМ существенно не изменяются и остаются сравнительно постоянными в большом диапазоне уровней входного сигнала. По сравнению с простыми квантователями (рис. 1.1) квантователи сжатия требуют меньше бит на входную выборку для определенного динамического диапазона сжатия и меньшего ОСШкв. В квантователях сжатия уровни квантования находятся в области малых амплитуд, которые увеличиваются при увеличении диапазона входного сигнала. Благодаря этому при квантовании речевых сигналов, у которых максимум функции распределения вероятностей находится в начале координат, наиболее часто встречающиеся малые амплитуды квантуются с большей точностью, чем менее вероятные большие амплитуды, что приводит к значительно лучшим, Чем у простого квантователя, характеристикам.Сжатие по А-закону определяется зависимостью:
(1.1)где A — параметр сжатия с типовыми значениями 86 (Северо-Американская ИКМ) и 87,56 (Европейская ИКМ) для семибитных речевых квантователей.
Сжатие по μ-закону определяется выражением
(1.2)где V0 задается формулой
, в которой L – нагрузочный фактор, a – среднеквадратическое значение входного речевого сигнала.Типовое значение фактора сжатия μ равно 255. Выражение (1.1) показывает, что А-закон — это комбинация логарифмической кривой, используемой для больших амплитуд, и линейного участка, используемого на малых амплитудах. μ-закон не является в точности линейным или логарифмическим ни в одном диапазоне, однако является приблизительно линейным для малых амплитуд и приблизительно логарифмическим для больших амплитуд. Сравнение между квантователем по μ-закону и оптимальным квантователем показало, что оптимальный квантователь дает выигрыш 4 дБ, однако может иметь более высокий уровень фонового шума, когда канал свободен, и его динамический диапазон сведен к минимальному диапазону входного сигнала. Поэтому наиболее предпочтителен логарифмический квантователь.
Цифровое преобразование непрерывного речевого сообщения в соответствии с рекомендацией G.711 (рис. 1.2) используется наиболее часто.
Рисунок 1.2
При этом
; частота дискретизации . После равномерного квантования при числе уровней и предварительного кодирования производится цифровая компрессия, в результате чего длина кодовой комбинации уменьшается до разрядов. Результатом преобразования является двоичная последовательность, передаваемая со скоростью 64 кбит/с.Из различных систем адаптивной ИКМ (АИКМ) наибольшее распространение получила система блочной ИКМ (БИКМ), оторую часто называют системой с почти мгновенным компандированием (NIC — Near Instantaneous Companding).
Отсчеты n-разрядного АЦП разбивают на блоки по N отсчетов. В каждом блоке находят отсчет с максимальным для данного блока уровнем. Этому уровню соответствует определенный номер старшего значащего разряда (j), и все старшие разряды в комбинациях этого блока будут нулевыми. Записанный в двоичном коде номер этого разряда образует масштабную информацию, которая из-за своей важности, как правило, защищается помехоустойчивым кодом. В результате масштабная информация вместе с проверочными символами образует m-значную комбинацию, которую добавляют к основной информации.