Смекни!
smekni.com

«Разработка алгоритма распознавания фонем русского языка с использованием вейвлет анализа и метода опорных векторов» (стр. 2 из 4)

Преимущество использования фонем в качестве МРЕ очевидно – малый размер словаря и простота фонетической модели. Для построения малого словаря в исследовательских целях нет необходимости в использовании большой базы данных для обучения, что так же является значительным преимуществом, в силу высоких материальных затрат, необходимых для создания большой обучающей базы.

1.2. Построение векторов признаков речевых сигналов на основе вейвлет-преобразования.

Признаком. называется отображение

, где
- пространство возможных значений признака. Вектор
,
называется вектором признаков., отождествляемым с самим объектом, и является математическим описанием образа в системах классификации. Пространство
называется пространством признаков. В зависимости от пространства возможных значений признаков существует несколько обобщенных типов признаков таких, как бинарные, номинальные, порядковые и количественные. Наиболее часто используются количественные признаки, пространством возможных значений которых является пространство рациональных чисел.

В качестве критерия выбора используемых признаков принят принцип наибольшей информативности признака, для получения более устойчивых алгоритмов классификации.

Традиционно, вектора признаков речевых сигналов получают в результате спектрального анализа исследуемого сигнала с использованием преобразования Фурье На данный момент ведутся исследования по извлечению векторов признаков с использованием вейвлет преобразований, однако значительных результатов в данной области на сегодня не достигнуто. Для построения векторов признаков широко используются знания о психоакустическом восприятии человеком звуковых сигналов.

В рамках данной работы разработан следующий алгоритм извлечения векторов признаков для речевых сигналов на основе вейвлет-анализа Определим набор двумерных фильтров в пространстве «частота-время»:

, (1)
где

, (2)
в свою очередь
- ширина фильтра во временной и частотной области соответственно, N – параметр, определяемый экспериментально.

Ширина фильтра во временной области может быть найдена из следующего выражения:

, (3)
где Т – длительность фонемы.

Ширина фильтра в частотной области может быть найдена из выражения

, (4)
где
- ширина частотной области вейвлет образа.

Тогда вектор признаков может быть сформирован как

, (5)
где

, (6)
(7)
Параметры
введены для учета динамических процессов в начале и конце фонемы, обусловленных эффектами редукции и коартикуляции.

Глава 2. Методологические основы распознавания речевых сигналов.

2.1. Основные подходы к решению задачи распознавания речевых сигналов.

Существует большое множество методов решения задачи распознавания речевых сигналов, все они могут быть разделены на два наиболее общих подхода – дискриминантный и структурный. Исторически первым был дискриминатный подход, который в литературе так же называют эталонным или теорико-информационным [10]. Суть данного подхода – формирование пространства признаков речевых образов, в котором схожие речевые образы формируют генеральные совокупности – таксоны или кластеры. Для описания собственных областей таких кластеров используются функции плотности вероятности, которые в своих реализациях приобретают экстремальные значения. Параметры, а также внешний вид функций плотностей вероятностей определяются в ходе обучения на обучающей выборке. Принадлежность поступившего речевого образа к какому-либо конкретному кластеру в ходе процесса распознавания определятся при помощи решающего правила, которое в большинстве случаев записывается в виде дискриминантной функции.

Данный подход обладает рядом недостатков. Во-первых, в силу ограниченности мощности обучающей выборки приводит к использованию оценок вместо истинно статистических характеристик функций плотности вероятностей для каждого кластера, что влечет за собой нарушение условий оптимальности классификаторов, построенных на статистических решающих критериях, а, следовательно, и к ошибкам распознавания. Во-вторых, данный метод не может напрямую применяться к речевым сигналам в задачах распознавания слитной речи в силу высокой вариативности естественной речи и, как следствие, невозможности составления актуальной обучающей выборки со всеми возможными прецедентами.

Данных недостатков лишен структурный подход. Структурный подход – это метод распознавания речевых образов на основе теории формальных грамматик, когда конечный речевой сигнал представляется в виде иерархического набора структурных единиц.

Точность определения отдельной минимальной акустико-фонетической единицы речи, как правило, не высока и не превышает 80% [9], а значит большой вклад в точность окончательного распознавания вносят принятые фонетические, синтаксические и лексические модели языка. Основным преимуществом структурного подхода является тот факт, что акустико-фонетических единиц на несколько порядков меньше, чем всех возможных словоформ, что значительно уменьшает временные затраты полученных алгоритмов, в сравнении дискриминантным подходом.

2.2. Идентификация минимальных речевых единиц.

Задача классификации МРЕ представляет собой классическую задачу распознавания образов, которая может быть сформулирована следующим образом. Пусть имеются

- множество признаковых описаний МРЕ,
- множество наименований классов МРЕ,
- целевая зависимость, значения которой известны для объектов обучающей выборки
. Требуется построить алгоритм
, который будет аппроксимировать целевую зависимость на всем пространстве
.

В данной работе в качестве алгоритма классификации был выбран МОВ [2], что отличается от широко распространенного подхода с использованием скрытых Марковских моделей. Данный подход аргументирован тем фактом, что СММ фактически не является классификатором и не обладает разделяющей способностью. В ходе обучения СММ минимизируются внутриклассовые расстояния, но не максимизируются межклассовые расстояния, в силу чего алгоритм классификации не позволяют распознавать фонемы расположенные рядом на плоскости классификации «место-способ». Предполагается, что МОВ обеспечит более высокую точность классификации близко расположенных фонем в силу максимизации межклассовых отступов в процессе обучения.

Глава 3. Экспериментальное исследование характеристик разработанных алгоритмов

В рамках данной работы проведена серия экспериментов по поиску оптимальных характеристик разработанных методов и алгоритмов анализа и распознавания речевых сигналов. Для проведения данных экспериментов был реализован перечень программ на языке высокоуровнего программирования С++.

3.1. Экспериментальное исследование характеристик алгоритма извлечения векторов признаков.

Для разработанного алгоритма извлечения векторов признаков эксперимент по определению оптимального числа фильтров в частотной области N. В ходе данного эксперимента исследована зависимость точности классификации изолированной фонемы в зависимости от N . Для проведения эксперимента была сформирована база данных из 300 звуковых реализаций фонемы [а] и 700 звуковых реализаций согласных фонем. Выбор фонем в обучающей выборке обусловлен тем фактом, что акустические сигналы фонемы [а] и согласных фонем значительно отличаются, следовательно, в качестве критерия нахождения оптимального параметра можно установить достижение абсолютной разделимости обучающей выборки, то есть достижение стопроцентной точности при тестировании. Для тестирования была сформирована выборка из 50 звуковых реализаций фонемы [а] и 50 реализаций различных согласных фонем. Обучающая и контрольная выборки представляют собой непересекающиеся множества. В качестве классификатора выбран МОВ с ядром eRBF. В качестве базисной функции вейвлет-преобразования использовался вейвлет Хаара. Результаты эксперимента представлены на рисунке Рисунок 1