Смекни!
smekni.com

Речевые технологии (стр. 4 из 5)


Блоки лингвистической Определение Исправление

Обработки языка текста ошибок

Подготовка текста входного текста

к озвучиванию

Нормализация текста

Лингвистический анализ

Формирование Фонемный транскриптор

Просодических Приведение фонем

характеристик к единицам синтеза


Озвучивание Формирование управляющей информации

Получение звукового сигнала

Звук

Она не описывает ни одну из суще­ствующих реально систем, но со­держит компоненты, которые мож­но обнаружить во многих системах.

Модуль лингвистической обработки

Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка , а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях ис­пользуются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделе­ние введенного текста на слова и остальные последовательности символов.Все знаки пунктуации очень информатив­ны.

Для озвучивания цифр разра­батываются специальные подблоки. Преобразование цифр в по­следовательности слов является относительно легкой задачей, но цифры имеющие разное значение и функцию, про­износятся по-разному.

Лингвистический анализ

После процедуры нормализации каждому слову текста необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря, создать его фо­немную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения - правила со­ответствия между буквами и фоне­мами (звуками), которые, однако могут требовать предварительной расстановки словесных ударений. В английском языке правила чте­ния очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов сокращений и аббревиатур возника­ют серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется воз­можным из-за большого объема словаря и контекстных изменении произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графиче­ской омонимии: одна и та же последовательность буквенных сим­волов в различных контекстах по­рой представляет два различных слова/словоформы и читается по- разному (ср. выше приведенный

пример слова «замок»). Часто удается решить проблему неод­нозначности такого рода путем грамматического анализа, однако иногда помогает только исполь­зование более широкой семанти­ческой информации.

Для языков с достаточно регу­лярными правилами чтения од­ним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, пе­реводящих каждую букву/буква - сочетание в ту или иную фонему, то есть автоматический фонем­ный транскриптор. Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения систе­мы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Аль­тернативное подходу «слово - буква-фонема» решение предпо­лагает морфемный анализ слова и перевод в фонемы морфов (то есть значимых частей слова: при­ставок, корней, суффиксов и окон­чаний). Однако в связи с разными пограничными явлениями на сты­ках морфов разложение на эти элементы представляет собой зна­чительные трудности. В то же вре­мя для языков с богатой морфо­логией, например, для русского. словарь морфов был бы компакт­нее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического ана­лиза текста и задания его просодических характеристик. В английских системах синтеза морфем­ный анализ был реализован в сис­теме MiTalk, для которой процент ошибок транскриптора составляет 5%.

Особую проблему для данного этапа обработки текста образуют имена собственные.

Формирование просодических характеристик

К просодическим характеристи­кам высказывания относятся его тональные, акцентные и ритмиче­ские характеристики. Их физиче­скими аналогами являются часто­та основного тона, энергия и дли­тельность. Таким обра­зом, от системы синтеза следует ожидать примерно того же, то есть, что она сможет понимать имею­щийся у нее на входе текст, ис­пользуя методы искусственного интеллекта. Однако этот уровень развития компьютерной техноло­гии еще не достигнут, и большин­ство современных систем автома­тического синтеза стараются корректно синтезировать речь с эмоционально нейтральной интона­цией. Между тем, даже эта задача на сегодняшний день представля­ется очень сложной .

Методы озвучивания

Теперь скажу несколько слов о наиболее распространенных ме­тодах озвучивания, то есть о мето­дах получения информации, управляющей параметрами соз­даваемого звукового сигнала, и способах формирования самого звукового сигнала.

Самое широкое разделение стратегий, применяемых при оз­вучивании речи, - это разделе­ние на подходы, которые направ­лены на построение действующей модели рече-производящей сис­темы человека, и подходы, где ставится задача смоделировать акустический сигнал как таковой. Первый подход известен под на­званием артикуляторного синте­за. Второй подход представляется на сегодняшний день более про­стым, поэтому он гораздо лучше изучен и практически более успе­шен. Внутри него выделяется два основных направления - формантный синтез по правилам и компилятивный синтез.

Формантные синтезаторы ис­пользуют возбуждающий сигнал, который проходит через цифро­вой фильтр, построенный на не­скольких резонансах, похожих на резонансы голосового тракта. Разделение возбуждающего сиг­нала и передаточной функции го­лосового тракта составляет основу классической акустической тео­рии речеобразования.

Компилятивный синтез осуще­ствляется путем склейки нужных единиц компиляции из имеюще­гося инвентаря. На этом принципе построено множество систем, использующих разные типы единиц и различные методы составления инвентаря. В таких системах необ­ходимо применять обработку сиг­нала для приведения частоты ос­новного тона, энергии и длитель­ности единиц к тем, которыми должна характеризоваться синтезируемая речь. Кроме того, требу­ется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантией (и спектральной в целом) структуре на границах сегментов. В системах компилятивного синтеза применяются два разных типа ал­горитмов обработки сигнала: LP (сокр. англ. Linear Prediction - линейное предсказание) и PSQLA (сокр. англ. Pitch Synchronous Overlap and Add). LP-синтез осно­ван в значительной степени на аку­стической теории речеобразования, в отличие от PSOLA-синтеза, который действует путем простого разбиения звуковой волны, состав­ляющей единицу компиляции, на временные окна и их преобразо­вания. Алгоритмы PSOLA позво­ляют добиваться хорошего сохра­нения естественности звучания при модификации исходной звуковой волны.

Наиболее распространенные системы синтеза (иностранные языки)

Наиболее распространенными системами синтеза речи на сего­дня, очевидно, являются системы, поставляемые в комплекте со зву­ковыми платами. Если ваш ком­пьютер оснащен какой-либо из них, существует значительная ве­роятность того, что на нем уста­новлена система синтеза речи - увы, не русской, а английской ре­чи, точнее, ее американского ва­рианта. К большинству оригиналь­ных звуковых плат Sound Blaster прилагается система Creative Text- Assist, а вместе со звуковыми кар­тами других производителей час­то поставляется программа Mono­logue компании FirsfByte.

TexAssist представляет собой реализацию формантного синте­затора по правилам и базируется на системе DECTalk, разработан­ной корпорацией Digital Equip­ment при участии известного аме­риканского фонетиста Денниса Клатта (к сожалению, рано ушед­шего из жизни). DECTalk до сих пор остается своего рода стандар­том качества для синтеза речи аме­риканского варианта английско­го. Компания Creative Technologies предлагает разработчикам использовать TextAssist в своих программах.

Поддерживаемые операционные системы - MS Windows и Windows 95; для Windows NT существует вер­сия системы DECTalk. изначально создававшейся для Digital Unix. Новая версия TextAsslst, объявлен­ная фирмой Associative Computing, Inc. и разработанная с использо­ванием технологий DECtalll и Cre­ative, является в то же время мно­гоязычной системой синтеза, поддерживая английский, немец­кий, испанский и французский языки. Это обеспечивается преж­де всего использованием соот­ветствующих лингвистических мо­дулей. разработчик которых- фирма Lemout & Hausple Speech Produсts признанный лидер в поддержке многоязычных рече­вых технологий. В новой версии будет встроенный редактор сло­варя, а также специализирован­ное устройство TextReader с кно­почным управлением работой синтезатора в разных режима), чтения текста.