Министерство Образования и Науки Украины
Курсовой проект
На тему: «Разработка программного канального вокодера»
по курсу «Цифровая обработка сигналов»
2006
АННОТАЦИЯ
В данном проекте описан процесс создания канального вокодера. Описана программа на языке Matlab, модель, созданная с помощью системы Matlab Simulink, а так же программа на DSK TMS320C6711(5402), использующая возможности CODE COMPOSER STUDIO v.2, осуществляющая сжатие и восстановление речевого сигнала в реальном времени до уровня не более 4800 бит/с с удовлетворительным качеством восстановленного речевого сигнала (требуется обеспечить разборчивость речи, при этом узнаваемость диктора не обязательна).
На защиту студент представляет:
- пояснительную записку;
- электронную презентацию проекта в виде файла формата .ppt, .pdf или .ps;
- полностью отлаженное программное обеспечение.
Пояснительная записка должна выполняться в соответствии с требованиями действующих стандартов и содержать следующие разделы:
- введение;
- обзор существующих систем и методов решения задачи в соответствии с темой курсового проекта;
- обоснование метода решения задачи;
- разработка структурной схемы системы и расчет необходимых системных параметров;
- разработка программной модели системы на языке МАТЛАБ;
- результаты тестирования модели системы;
- разработка программного обеспечения системы на языке Си для реализации ее на цифровом сигнальном процессоре;
- анализ вычислительной сложности;
- анализ результатов реализации системы в реальном времени на цифровом сигнальном процессоре;
- краткое руководство пользователя;
- заключение;
- библиографический список;
- приложения:
- тексты программ на языке МАТЛАБ;
- тексты программ на языке Си.
ВВЕДЕНИЕ
В настоящее время, с развитием вычислительной техники, стоимость сигнальных процессоров довольно не велика и постоянно уменьшается, при этом увеличивается производительность вновь выпускаемых моделей процессоров. При этом стоимость каналов связи остается на достаточно высоком уровне, так как создание современных цифровых каналов связи требует значительных капиталовложений, а существующие аналоговые линии связи не выдерживают возрастающей нагрузки. Поэтому разработка систем сжатия речевых сигналов, с целью передачи их по каналам связи, является одной из актуальных задач современности.
Вокодер (от англ. voice — голос, coder — кодировщик) представляет собой электронное устройство, предназначенное для анализа и синтеза звуков человеческого голоса.
Впервые вокодером был назван изобретенный в 1936 году американским инженером Гомером Дадлеем аппарат, сужающий полосу частот, требуемую для передачи речевого сигнала по каналам связи. В последующие десятилетия появилось множество разновидностей вокодера, применяемых в системах связи. В них передается не сама речь, а определенные параметры речевого сигнала, по которым его затем можно восстановить в месте приема. Широко применяют вокодер в акустических исследованиях, при обучении иностранным языкам, в речевой терапии.
Первый раздел пояснительной записки посвящен обзору существующих систем и методов построения сжатие речи с помощью канальных вокодеров обоснование метода решения данной задачи.
Во втором разделе КП разработка структурной схемы системы и расчет необходимых системных параметров для построения канального вокодера;
Разработка программной модели системы на языке Matlab и результаты тестирования модели системы приведены в третьем разделе.
В четвертом разделе описан процесс разработки программного обеспечения проектируемой системы канального вокодера на языке Си для реализации ее на цифровом сигнальном процессоре.
В пятом разделе произведен анализ вычислительной сложности, разработанной системы сжатия речи, а так же анализ результатов реализации данной системы в реальном времени на цифровом сигнальном процессоре, и краткое руководство пользователя системы сжатия.
В приложениях приводятся тексты разработанных программ на языке МАТЛАБ и Си.
ПОСТАНОВКА ЗАДАЧИ НА ПРОЕКТИРОВАНИЕ
Разработать и реализовать на ЦПОС TMS320C6711(5402) систему сжатия речи (рекомендуется реализовать канальный вокодер), осуществляющую сжатие и восстановление речевого сигнала в реальном времени до уровня не более 4800 бит/с. Считать, что исходный речевой сигнал представлен в виде последовательности 16-разрядных отсчетов c частотой дискретизации 8КГц. Необходимо обеспечить удовлетворительное качество восстановленного речевого сигнала (требуется обеспечить разборчивость речи, при этом узнаваемость диктора не обязательна).
1. СИСТЕМЫ СЖАТИЯ РЕЧИ
Голосовой тракт человека представляет собой акустическую трубу, которая с одной стороны оканчивается голосовыми связками, а с другой губами. Форма голосового тракта определяется положением губ, челюстей языка и мягкого неба.
Звуки в этой системе образуются тремя способами. Вокализованные (звонкие) звуки - путем возбуждения голосового тракта квазипериодическими импульсами воздушного давления, создаваемыми вибрациями голосовых связок. Фрикативные звуки образуются проталкиванием воздуха через сужения в определенных областях голосового тракта, в результате чего возникает турбуленция, которая является источником шума, возбуждающего голосовой тракт. Взрывные звуки образуются путем создания избыточного давления в области полного смыкания голосового тракта с последующим его быстрым размыканием. Все эти источники создают широкополосное возбуждение голосового тракта, который в свою очередь действует как линейный фильтр с изменяющимися во времени параметрами.
На рис. 14 приведена модель источника речи на основе цифрового представления речевых сигналов. Предполагается, что в этой модели дискретные отсчеты речевого сигнала формируются на выходе ЦФ с переменными параметрами, который аппроксимирует передаточные свойства голосового тракта, обусловленные формой импульсов возбуждения.
Рисунок 14 - Модель источника речи
На временном интервале порядка 10ms характеристики ЦФ можно считать неизменными. На каждом таком интервале ЦФ может быть охарактеризован совокупностью своих коэффициентов. В случае вокализованной речи ЦФ возбуждается генератором квазиканонической импульсной последовательности, расстояние между соседними импульсами которого соответствует периоду основного тона. На интервалах невокализованной речи ЦФ возбуждается генератором случайных чисел, который вырабатывает шумовой сигнал с равномерной спектральной плотностью. В обоих случаях сигнал, поступивший на ЦФ, управляется по амплитуде.
На рассмотренной модели базируются многочисленные способы представления речевых сигналов. По сложности реализации эти способы кодирования речи занимают широкий диапазон от простейшей периодической дискретизации до оценок параметров модели изображенной на рис.14.
Существует несколько подходов к сжатию речевых сигналов:
- кодирование формы волны речевого сигнала;
- кодирование параметров речевого тракта человека и источника возбуждения;
- кодирование символьной информации (фонем);
- кодирование лингвистической информации (слов, фраз и т.п.).
Исходный речевой сигнал представляет собой акустическую волну (волна давления в воздухе), которую можно преобразовать в электрический сигнал с помощью микрофона. Будем считать, что спектр речевого сигнала лежит в диапазоне от 100 до 4000 гц. Динамический диапазон изменения амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов.
Первым шагом, обеспечивающим сжатие речевого сигнала, является попытка обеспечения равномерной относительной точности измерения значения амплитуды сигнала. Для этого 14-12-ти разрядный динамический диапазон амплитуды разбивают на 8 логарифмических поддиапазонов, в каждом из которых значение амплитуды кодируют 5 разрядами и, таким образом, достигают сокращения информации до 64000 бит/с (кодирование по m- и A- законам в соответствии со стандартом ITU -G.711). Следующим шагом является адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ), (например, в соответствии со стандартами G.721 или G.726 8-40000 бит/с), с помощью которой осуществляют кодирование (аппроксимацию) степени приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32000-16000 бит/сек., причем приемлемое (коммерческое) качество речи (по критерию отношения: полезный_сигнал/шум) обеспечивается до 24000 бит/сек. При более низких скоростях кодирования сохраняется разборчивость речи, но характерны сильные нелинейные и частотные искажения сигнала и ухудшение отношения сигнал/шум. Дальнейшее уменьшение информационной емкости сигнала с помощью данного подхода считается неэффективным.
1.1.2. Параметрическое кодирование
Низкоскоростное кодирование складывается из двух основных процессов:
- параметрическое представление речевого сигнала минимальным набором параметров, характеризующих источник возбуждения и акустический фильтр, определяющий передаточную функцию голосового тракта;
- дискретизация речевых параметров для их передачи по каналу связи при использовании минимальной емкости канала.
Для параметрического описания речи обычно используется подход, основанный на вычислении параметров, описывающих передаточную функцию речевого тракта человека и функцию возбуждения. Такими параметрами могут являться: осредненные значения энергии речевого сигнала, разбитого на ряд частотных полос, или коэффициенты линейного предсказания (или, связанные с ними, коэффициенты отражения). Обычно для кодирования речи используются 8-10 параметров (один из вышеперечисленных наборов), вычисляемых на интервалах порядка 5-30 мс (так как на таком интервале речь может считаться стационарным процессом), кроме того, вычисляется параметр, характеризующий изменение амплитуды либо мощности сигнала, период основного тона речи, а также признак типа тон/шум/пауза, характеризующий способ возбуждения речевого сигнала.