Лингвистика

Билет1

1.Сущность прикладнойлингвистикикак особогоподхода к языковымявлениям. Характерныечерты прикладныхметодик.

Вязыкознаниивсегда присутствовалитри глобальныхисследовательскихнаправления:

·теоретическое(объяснениеязыковых системи процессов)

·описательное(конкретноеописание языковыхявлений)

·прикладное(совершенствованиеязыковой системы).

Врамках последнегонаправлениясформироваласьнаучная дисциплина,которая получиланазвание прикладнойлингвистики.Ее отличаетподход к языкукак к деятельности,а не мертвомупродукту.

Прикладнаялингвистика

·этокомплекснаянаучная дисциплина,изучающая языкв различныхситуациях егопримененияи разрабатывающаяметоды совершенствованияязыковых системи языковыхпроцессов.

·учениео методах решенияразнообразныхпрактическихзадач с использованиемзнаний о языке

·учениео совершенствованииязыковой способностичеловека иобщества вцелом.

Терминприкладнаялингвистикапоявился вконце 20 гг. 20 в.,когда былаосознананеобходимостьстрогого научногорешения прикладныхзадач с использованиемметодов формальноголингвистическогоанализа письменныхи акустико-лингвистическогоанализа устныхсообщений.

Зарубежом подПЛ часто понимаютсовершенствованиеметодов преподаванияязыка (дидактическаялингвистика). В нашей странеПЛ понимаюткак компьютернуюлингвистику,которая становитсясейчас всеболее широкойдисциплинойпочти синонимомПЛ.

СинонимыПЛ: компьютернаяЛ, структурнаяЛ, машинная Л,статистическаяЛ, математическаяЛ, искусственныйинтеллект (ИИ),...

ПЛтребует строгогоструктурногоподхода к языкуи отводит важнуюроль математике.

Основныезадачи ПЛ:

·автоматическоераспознаваниеи синтез речи

·автоматическиеметоды переработкитекстовойинформации

·созданиеавтоматизированныхсистем информационногопоиска

·составлениеавтоматическихсловарей исистем машинногоперевода

·разработкаметодов автоматическогоаннотирования,реферированияи перевода

·разработкаэкспертныхсистем

·лингвистическоеобеспечениеАСУ

·стандартизациянаучно-техническойтерминологии

Прикладныемодели отличаютсяопределеннымупрощением,огрублениемязыковой реальности,но это не значит, что они игнорируютреальную сложностьмоделируемогообъекта. Методологияприкладногоисследованиядолжна учитыватьмногоаспектность,многоуровневость,открытостьязыковогомеханизма.

Методология- совокупностьобщих принципов,определяющаяспособ исследованиякакого-либоявления; определяетвзгляд на объект,как к нему подойти;философскиепринципы исследованияявлений.

Метод- определенныйтип способаисследования,определяемыйинструментами,которые используютсяпри изученииобъекта исследования(метод компьютерногомоделирования,статистическийметод)

Собственнолингвистическиеметоды:

·дистрибутивныйметод

·трансформационныйметод

·методкомпонентногоанализа

·методразличительныхпризнаков

Методика- конкретныйспособ исследования,определяемыйцелью исследования;может объединятьнесколькометодов (методикапостроенияассоциативныхтезаурусов).

Характерныечерты прикладныхметодик

·ведущаяроль методамоделирования

·экспериментальныйхарактер прикладныхметодик

·применениеточного метаязыка

·формализованностьсамих операцийисследования(хотя результатможет бытьприближенным)

·использованиеискусственногометаязыкаописания

·комплексноесочетаниеразных наук

2. Автоматизированныепереводныесловари. Принципыпостроения.

АС - это словарь,который припереводе некоторыеоперации делаетза человека.Компьютерныйсловарь - аналогбумажного намагнитныхносителях. АС= ТБД с общеупотребительнойлексикой.EURODICAUTOM (11, 1.200.000 ЛЕ), LEXIS(8, 1.500.000 ЛЕ).

Отличительныесвойства АС:

многоязычие

·обратимость( полная: всякаяЛЕ может выступатьв роли входнойпри запросеи выходной приответе; частичная:наличие индекса)

·гибкость(удобное, упрощенноеобращение ксловарю: нескольковходов в словарь)

·динамичность(постоянноепополнениесловарногосостава; оперативностьредактирования)

·состав(структура)словаря:

макроструктура- структурасловаря:

микроструктура- структурасловарнойстатьи

основная единицасловаря

·слово(композиционно)

·словосочетание(статистически);80% обращений ксловарю - СС;причина -уклонв терминологию

3 главных компонентаАС:

·блокобработкизапроса (блоклемматизации- сведения текстовыхформ к их словарным(каноническим)форме)

·блоклексическихмассивов (вАС ЛЕ могутхраниться ив виде основ,и виде словоформ)

(·блокморфологическогоанализа) (иногда)

·блоквыдачи ответа(ПЭ; главнаязадача - варьированиеответа в зависимостиот пожеланийпользователя)

Желательнотакже, чтобыАС обладал:

·блокомлемматизации

·алгоритмомобработкинекорректныхзапросов

·алгоритмомсловообразовательногоанализа)

АС не СМП, онберет на себятолько работус лексемой,оставляя человекупроблему выбораПЭ и синтезатекста. На входАПС поступаютотдельные словаи СС, с помощьюанализа которыхможно получитьсведения ограмм. классеслова и егограмм. форме. решить на основанииэтой информациипроблемы омонимиии многозначность,определитьсинтас. функциюПЭ в текстеневозможно,поэтому разработчикиАПС таких задачперед собойи не ставят.Тем не менееиндекс тематическойпринадлежностив какой-то мереразрешаетмногозначностьлексики.

Словарнаястатья:

Ее структураи наполнениеопределяетсяназначениемсловаря.

Структурасловарнойстатьи (13 зон):

1. Заголовок- основа, СС (большевсех по количеству),морфема, фрагментытекста

2.Зона лексическогограмматическогокласса - ЛЕ почастям речи,далее - категоризация.

3. Зона морфологическойинформации

4. Рубрика подрубрика стиль (всяинформация- в виде цифровыхкодов)

5. Зона индексанадежностиотражает степеньобщепринятостиданного ПЭ:

А - официальныйстандарт

Б - уважаемыесловари

В - тетради новыхтерминов

Г - плавающие

6. Зона ПЭ (принесколькихПЭ - у каждогосвой номер)

7. Зона пояснительныхпомет - уточнениезначения даннойЛЕ

·семантические

·лексические

·синтаксические(обязат. управление)

8. Зона толкований(для многозначныхслов и новыхтерминов)

9. Зона примеровупотреблениявыполняет двефункции:

·иллюстративную

·смыслоразличительную

10. Зона фразеологии.

11. Составительсловарнойстатьи

12. Источниксоставлениясловарнойстатьи -> необязательные

13. Дата составлениясловарнойстатьи

Билет7

1.Лексикографиякак прикладнаядисциплина.Внутренняяи внешняя типологиясловарей.

Лексикография- прикладнаялингвистическаядисциплина,занимающаясяпрактикой итеорией составлениясловарей.

Словарь- способ организациии представлениязнаний. Чемполнее и адекватнеев словарепредставленызнания, темлучше словарьвыполняет своюфункцию.

Лексикографиякак научнаядисциплинаносит комплексныйхарактер, ноопределяющейчертой лексикографииявляется ееприкладнаянаправленность.Все многообразиеразличных типовсловарей(нормативные,учебные, переводные,терминологические,идеологические,этимологические... ) получаетпрактическуюориентациюисходя из целевойустановкисловаря.

Лексикографияразрабатываетоптимальныесредства выявленияи фиксациисемантическихфактов определенныхпрактическихцелях. Главнаяпроблема вразработкеоптимальнойстратегии новыхсловарей - проблемаобоснованностисловарей какс точки зренияих состава, таки в плане адекватностиподаваемойв них информации.Лексикографияв широком смыслеохватываетвсе множествоинвентарейязыковых единицс приписаннойим информациейтого или иногорода. Наиболеебогата и сложнадля отражениясемантическаяинформация.

Лексикографическаядеятельностьраспадаетсяна ряд этапов:

1.разработкасистемы требований,касающихсявнешних параметровсловаря (назначения,круга пользователей,инф. области...)

2.разработкасистемы требований,касающихсявнутреннейпараметровсловаря (единицописания, основныхсвойств метаязыка.объема, структуры,видов словарнойинформации...)

3.формальнаяинвентаризациявыбранныхподъязыков(отбор текстов,расписываниеконтекстов,характеристикаграмм. форм,составлениепредварительныхсловников ...)

4.экспериментальныеисследованиясемантикиописываемыхединиц (дистрибутивныйанализ текстов,тесты с носителямиязыка ...)

5.обобщениеэкспериментальныхданных

6.построениедефиниций насоответствующемметаязыке иих проверкав ходе новыхэкспериментов

7.сбор и систематизациядополнительнойинформациио каждой языковойединице

8.оформлениесловарныхстатей

9.системныйанализ и упорядочениесловарныхстатей

10.оформлениесловаря в целом,включая вспомогательныеуказатели.

Аспектылексикографии:

·историко-филологический- изучение историисловарей какчасти историикультуры общества

·гносеологический(когнитивный)- изучение словарейкак сокровищницзнаний. накопленныхобществом

·семантико-лексикологический- использованиесловарей длялексико-семантическогоописания языка

·прикладной(самый важный)- прикладнаялексикографиянаправленана совершенствованиесловарей сточки зрениятех или иныхпрактическихтребованийк словарям

Видыинформацииподаваемойв словаре определяютвнутреннюютипологиюсловарей:

I.Объекты описания:

1)формальные/семантические

2)природа объектов(лекс.-семантическийили морфо-семантическийуровень; впарадигматическомили в синтагматическомаспекте)

3) статусобъекта (являетсяли словарьнормативным или описательным)

4)хронологическийпериод

5) посфере общения(подъязык)

6)степень охватаязыка

II.Системныесвойства

1) какаяграмматическаяинформациядается об описываемыхединицах?

2) какиестилистическиепометы используются?

3) какойтип определения(дефиниции)дается?

4)включаетсяли экстралингвистическаяинформация?

5) вкакой мереучитываютсясемантическиеотношения?

6)объясняетсяли мотивированностьописываемойединицы?

III.Актуализацияв языковойжизни

1)указываетсяли происхождениеединиц?

2)указываетсяли активностьединицы в языковойжизни (частотность)?

3)показываетсяли реализацияединиц в контексте

IY.Прагматикапользователя

1)количествовходов в словарь

2) каковпорядок расположенияединиц в словаре(по формальномуили семантическомупризнаку?

3)имеются ли всловаре указатели?

4) даютсяли металингвитсическиесведения (историяизучения, разныетрактовки)?

Y.Связь с другимиязыками

1)производитсяли генетическоесопоставлениеединиц и ихзначений сродственнымиязыками?

2)производитсяли типологическоесопоставлениематериаланеродственныхязыков?

Целисловаря задаютвнешнюю (функциональную)типологиюсловарей:

Типысловарей	Цель
учебныесловари	обучение
переводныесловари	перевод
нормативныесловари	нормирование
терминологическиесловари	систематизация,уточнениенаучных понятий

Типологиясловарей поОжегову:

·большой(представляетсовр. русскийязык в широкойист. перспективе)

·средний(с детальнойразработкойисторическиоправданногостилистическогомногообразиялит. РЯ)

·краткий(популярноготипа, стремящийсяк активнойнормализациисовр. лит. речи)

Типологиясловарей поЩербе:

·словарь-справочник- словарь академическоготипа

·энциклопедический- общий словарь

·тезаурус- обычный толковыйили переводнойсловарь

·обычныйтолковый илипереводнойсловарь - идеологическийсловарь

·толковыйсловарь - переводнойсловарь

2.Автоматизированныеинформационно-поисковыесистемы: ихструктуры,функции, критерииоценки. Информационныеязыки.

АИПСпредназначеныдля инф. обслуживанияпользователейинформациив заданнойтематическойобласти.

2основные задачиАИПС:

·хранениеинформации

·поиски выдача информации

Изсведений о ТО.поступающихна хранениев систему формируетсяинформационныймассив (ИМ). Отпотребителяпоступаютзапросы, и системаищет сведенияв ИМ, Соответствующиеданному запросу. Всякая поисковаяоперация всистеме сводитсяк сравнениюпоступившегозапроса с имеющимисяв системе сведениями.в современныхИПС все этопроисходитавтоматически.Для этого изапрос и сведениядолжны бытьпредставленына таком языке,который обладаетсмысловойоднозначностью- ИПЯ.

Индексирование- перевод содержаниятекста, хранящегосяв ИМ на ИПЯ. врезультатеиндексированияобразуетсяпоисковыйобраз, у документа- ПОД, у запроса- ПОЗ.

Критерийсмысловогосоответствия- мера соответствиямежду содержаниемзапроса и документа,достаточнаядля признанияданного документарелевантнымданному запросу.Вводится совокупностьпризнаков, наоснованиикоторых устанавливаетсястепень необходимогои достаточногосоответствиямежду поисковымпредписаниеми поисковымобразом документа,выраженнымина одном и томже ИПЯ.

Результатомпоисковойоперации являетсявыборка релевантныхПОДов.

АбстрактнаяИПС - некийлогико-семантическийаппарат, состоящийиз ИПС, правилиндексированияи критериявыдачи.

Взависимостиот характерасведений изапроса различаютсядокументальнаяи фактографическаяИПС. ФактографическаяИПС не хранитдокументы, атолько факты.Документальнаяхранит документы.Но существуетприем, позволяющийв процессепоиска определенногодокументаизвлекать факт:В документальнойсистеме хранитсяинформацияо содержаниидокумента +документографическаяинформация (автор, год ...)

выделениенужной пользователюинформацииосложняетсядвумя обстоятельствами:

·несоответствиемежду формулировкойзапроса и реальнойинформациейнужной потребителю

·переводзапроса в ПОЗ

Мерасоответствиядокументаинформационнойпотребностиназываетсяпертенетностью.

Соответствиедокументазапросу называетсярелевантностью:

·смысловая (соответствиезапроса поисковомупредписанию)- просто релевантность,зависит от ИПЯ(его семантическойсилы, глубиныиндексирования,совершенствалогико-сем.аппарата)

·формальная(соответствиедокументапоисковомупредписанию)

ИПЯ- специализированныйИЯ, предназначенныйдля эксплицитнойзаписи содержаниядокументови запросов вформе, удобнойдля автоматическогопоиска.

КлассификацияИПЯ:

предкоординированныеИПЯ

присутствуетзаранее заданнаяклассификационнаясхема

посткоординируемыеИПЯ

отсутствуетзаранее заданнаяклассификационнаясхема

Типыклассификаций

иерархическая

задаетдерево знаний,например всейлитературыпо лингвистике

алфавитно-предметная

например,телефонныйсправочник

фасетная

опираетсяна разные аспектыописания, задаетсятак называемаяфасетнаяформула (Ж1 Ц2Ф1), представляющаясобой шаблон,рассматриваетсякласс, аспектпредмета

Фасетнаяклассификация:фильмы:

жанр

цвет

формат

Ж1

Ж2

Ц1цветной

Ц2 черно-белый

Ф1 широкоформатный

фасетнаяформула: Ж1 Ц2Ф1

ОбщиенедостаткипредкоординированныхИПЯ:

·непозволяют вестипоиск по заранеенепредусмотренномусочетаниюпризнаков

·всеклассификацииимеют недостаточнуюглубину

·процессиндексированияпринципиальноне автоматизирован,т. е ручноеиндексирование

ПосткоординируемыеИПЯ:

семантическиекоды

в ЛЕ вявном видезаданы парадигматическиеотношения

дескрипторы

оперируютмонолитнымиСЕ, в основуположен принципкоординированногоиндексирования,который выражаетсяв том. что основнаятема документавыражаетсяв виде набораслов или СС,т. о документпомещаетсяв n-мерное пространство

Семантическиекоды Перри иКента (США) м.бпростыми исоставными,простая ЛЕ -сем. множитель;

RX коды

ручноеиндексирование

грамматикимешочноготипа

(теоретико-множественныеграмматики)задаютсяотношениемсовместноговхождения вкласс, ПОДсоставляетсявручную, ПОД-перечень ключевыхслов.

позиционно-скобочныеграмматики

сохранениевсего исходноготекста документас явным указаниемпорядка следования,деления наабзацы, предложения:

сетевыеграмматики

в явномвиде задаетсясмысл связимежду элементамитекста (Скрэгг)

ИПЯс ПСГ:

·индексированиебез лексическогоконтроля, доиндексированиямогут не иметьсловаря, словарьформируетсяв результатеиндексирования.

·индексированиес лексическимконтролем - всесловоформыприводятсяк стандартномувиду

2. Назначениеи принципыорганизацииСубд на ПЭВМ

СУБД состоитиз совокупностивзаимосвязанныхданных и наборапрограмм,обеспечивающихдоступ к данными манипуляциюими. Совокупностьвзаимосвязанныхданных принятоназывать БД.[Henry F. Korth]

Более узкоеопределениеСУБД - наборкомпьютерныхпрограмм,предназначенныхдля создания,поддержки, ииспользованияБД

СУБД обеспечиваетдоступ к даннымв процесседиалога спользователем,отвечая на еговопросы (запросы).

Выделяетсятри уровняабстракции,на которыхможно просмотретьданные.

·Физическийуровень - уровеньминимальнойабстракции;на нем хранятсяфизическиеданные.

·Концептуальныйуровень содержитописание данных,хранящихсяв БД и отношениймежду ними. Онописывает всюБД в целом, используянесколькоотносительнопростых структур- концептуальныхсхем; предназначендля администратораБД.

·Уровеньпредставления- уровень максимальнойабстракции;предназначендля основноймассы пользователейБД. В одной БДможет одновременносуществоватьнесколькоуровней представления.

·Модельданных представляетсобой наборконцептуальныхинструментовдля описанияданных, отношениймежду ними,семантикиданных и ограниченийих целостности(consistency constraints).

Выделяют трикласса моделей:

·логическиемодели, опирающиесяна понятиеобъекта(object-based logical models);

·логическиемодели, опирающиесяна понятиезаписи; (record-basedlogical models);

·физическиемодели данных(physical data models).

Объектныелогическиемодели.

Объектныелогическиемодели описываютданные наконцептуальномуровне и уровнепредставления.Они позволяютопределятьструктуру иограниченияцелостности.На сегодняшнийдень существуетсвыше 30 моделейэтого класса.Из них самыеизвестные:

·модельсущность-связь;

·бинарнаямодель;

·семантическаямодель данных;

·инфологическаямодель.

Модель сущность-связь- основнойпредставителькласса объектныхмоделей. Онасчитаетсянаиболее адекватнойдля архитектурыБД и наиболеераспространенной.

В основе моделисущность-связьлежит представлениео реальном мирекак о совокупностиосновных объектов,называемыхсущностямии связей междуними.

·Подсущностьюпонимают любойреально существующийобъект, отличныйот других объектов.Чтобы отличитьодин объектот другого,каждому из них приписываетсянабор атрибутов,описывающихданный объект.

·Связь- это соединениемежду несколькимисущностями. Для того, чтобыразличатьсущности исвязи, каждомунабору сущностейприписываетсяпервичныйключ.

·Первичныйключ - это одинили несколькоатрибутов,позволяющиходнозначноидентифицировать сущность внаборе сущностей.

БД, удовлетворяющаядиаграммесущность-связь,может бытьпредставленав виде наборатаблиц. Длякаждого наборасущностей, каки для каждогонабора отношений, создаетсяотдельнаятаблица, которойприсваиваетсяимя соответствующегонабора. В своюочередь, каждаятаблица состоитиз столбцов,каждый из которыхимеет своеназвание.

Логическиемодели, опирающиесяна понятиезаписи.

Логическиемодели, опирающиесяна понятиезаписи, как иобъектныелогическиемодели, описываютданные наконцептуальномуровне и уровнепредставления,но, в отличиеот последних,эти моделиопределяютне только архитектуру БД, но и дают общее описаниеее реализации. Однако моделиэтого классауже не позволяютвводить ограниченияна содержимоеБД, как это делаютобъектныелогическиемодели.

Самые распространенныемодели:

·реляционная

·сетевая

·иерархическая.

Реляционнаямодель былапредложенав 1970 году Е.Ф. Коддоми на сегодняшнийдень являетсяпризнаннымлидером средимоделей своегокласса. Онаоснована наматематическомпонятии отношения.

Согласно реляционноймодели, общаяструктураданных (отношение)может бытьпредставленав виде таблицы,в которой каждаястрока значений(кортеж) соответствуетлогическойзаписи, а заголовкистолбцов являютсяназваниямиполей (элементов)в записях. Такимобразом, данныеи отношениямежду ними вреляционноймодели представленыв виде наборатаблиц, аналогичнымпо своей структуретаблицам моделисущность-связь.

Примеры реляционныхБД: dBASE IY, FoxPro, Paradox.

Наиболее уязвимойчастью реляционноймодели являютсяпроблемы целостности.Для их разрешенияприняты ограничения,соответствующиестрогой реляционноймодели. До сихпор не удавалосьсоздать СУБДполностьюреляционнуюСУБД. Можноговорить лишьо большей илименьшей степениреляционностив отношениикоммерческихСУБД. Однакодля того чтобыназыватьсяреляционнойСУБД должнаобязательноотвечать следующимусловиям:

·данныев ней должныхраниться втаблицах;

·указателии связи не должныбыть видныпользователю;

·языкзапросов долженбыть реляционнополным.

Сетевая модельпоявилась вконце 1960-х гг. Онаболее привязанак реализацииБД, чем реляционнаямодель.

Сетевая БДсостоит изнабора записей,соединенныхдруг с другомпри помощиссылок (links), которыемогут бытьвидны пользователюкак указатели(pointers). Ссылка соединяетровно две записи.Записи организованыв виде произвольногографа (arbitrary graph).

Иерархическаямодель представляетсобой разновидностьсетевой.

ИерархическаяБД, как и сетевая,состоит изсовокупностизаписей, соединенныхмежду собойпри помощиссылок. Каждаязапись состоитиз набора полей,каждое из которыхсодержит ровноодин параметрданных.

Основное отличиеиерархическоймодели от сетевойзаключаетсяв способе организациизаписей. Виерархическоймодели записиорганизованыв виде деревьев,а не произвольныхграфов, как всетевой модели.Общая логическаяструктураиерархическойБД описываетсяпри помощидиаграммыструктурыдерева (tree- structurediagram), состоящейиз записей иссылок.

Пример иерархическойБД: ACCESS.

Физическиемодели данных.

Физическиемодели данныхиспользуютсяна уровне минимальнойабстракции.Это самыймалочисленныйкласс моделей. Наиболее известныеиз них: отождествляющаямодель (unifying model) имодель фреймовойпамяти (frame memory).

Язык определенияданных.

План БД определяетсянабором выражений(дефиниций),написанныхна специальномязыке, которыйназываетсяязык определенияданных (ЯОД)(data definition language).

Результатомкомпиляциивыражений наЯОД являетсянабор таблиц,хранящийсяв специальномфайле, которыйназываетсясловарь данных(data dictionary). В словареданных хранятсяметаданные,то есть данныео данных.

РазновидностьюЯОД являетсяязык храненияи определенияданных (data storage andmanipulation language), на которомнаписаны выражения,определяющиеметоды доступак данным и способхранения структуры.

Язык манипуляцииданными.

Под манипуляциейданными понимают:

·извлечениеинформации,хранящейсяв БД;

·добавлениеновой информациив БД;

· уничтожениехранящейсяв БД информации.

Язык манипуляцииданными (ЯМД)обеспечиваетпользователюдоступ и манипуляциюданными. Различаютдва основныхтипа ЯМД:

·процедурный,который требуетот пользователяуказать типнужных емуданных и способих получения,то есть содержитпроцедурыпоиска данных;

·непроцедурный,который требуетуказать толькотип данных, неуточняя способих получения,то есть не включаетпроцедурыпоиска.

Часть ЯМД,отвечающаяза выборкуданных, называетсяязыком запросов.

Запрос (query) -выражение,задающее поискданных в СУБД.

Менеджер БД- программныймодуль, обеспечивающийинтерфейс междуданными низкогоуровня, хранящимисяв БД, прикладнымипрограммамии адресованнымисистеме запросами.

Развернутаяструктура СУБД:СУБД состоитиз модулей,каждый из которыхвыполняетопределеннуюфункцию. Некоторыефункции СУБДмогут выполнятьсяоперационнойсистемой. АрхитектураСУБД должнаобеспечиватьинтерфейс междуСУБД и операционнойсистемой. СУБДсостоит изследующихфункциональныхкомпонентов:

·Менеджерфайлов управляетраспределениемместа на дискеи структурамиданных; обеспечиваетвзаимодействиемежду данныминизкого уровня,хранящимисяв БД, прикладнымипрограммамии запросами,адресованнымисистеме.

·Процессорзапросовпереводитвыражения наязыке запросовв инструкции,понятные менеджеруБД.

·ПрекомпиляторЯМД переводитвыражения наЯМД, вложенныев прикладнуюпрограмму.

·КомпиляторЯОД переводитвыражения наЯОД в набортаблиц, содержащих

Структурыданных

·Файлыданных содержатсобственноданные.

·Словарьданных содержитинформациюо структуреБД.

·Индексыслужат длябыстрого поискаданных с конкретнымизначениями(атрибутами).

Билет9

1.Формальныемодели синтаксическойструктурыпредложения.

Динамическиеи статистическиемодели

1.Дескриптивнаямодель Задача- описание структурыязыка

нормирование(определениевсех правилсинтаксическихструктур)

исчисление

1)Грамматиказависимостей(европейскаятрадиция, близкак НС, один изавторов - Гладкий)- указание длякаждого словатех слов, которыеему непосредственноподчинены.

Деревосинтаксическихзависимостей есть дерево,множество узловкоторого служитмножествомвхождений словв предложение. Деревом называетсямножество,между элементамикоторого - узлами- установленобинарное отношение- отношениеподчиненияи графическиизображаютстрелками.идущими отподчиняющихузлов к подчиненным,-такое, что:

·средиузлов имеетсяодин - корень- неподчиненныйникакому другомуузлу

·каждыйиз остальныхузлов подчиненточно одномуузлу

·нельзя,отправившисьиз к.л. узла вдольстрелок вернутсяв тот же узел.

ДЗ(дерево зависимостей)обычно используется в описанияхязыков со свободнымпорядком слов(в частности,русского). СтрелкиДЗ обычно помечаютсясимволамисинтаксическихотношений(предикативное,определительноеи т.п.).

2) МетодНС составляющие- Для описаниясинтаксическойструктурыпредложениявыделяютсягруппы слов,функционирующиекак отдельныесинт. единицы- составляющие.

Система составляющих- это множествоотрезков предложениякоторое обладаеттем свойством,что каждые двавходящих в негоотрезка либоне пересекаютсялибо один изних содержитсяв другом.

·Однаиз НС - ядроконструкции,остальные -маргинальныеэлементы.

·Приграфическомизображениисистема составляющихтоже приобретаетвид дерева(дерева непосредственныхсоставляющих- ДНС).

·ДНСиспользуютсяпреим. в описанияхязыков с жесткимпорядком слов.

·Составляющиеобычно помечаютсясимволамиграмм. категорий(именная группа,группа переходногоглагола и т.п.)

2.Трансформационнаяграмматика(Харрис, 50-е гг.)(грамматикадеревьев) служитне для порожденияпредложений,а для преобразованиядеревьев,интерпретируемыхкак деревьяподчиненияили деревьясоставляющих,например грамматика- система правилпреобразованиядеревьев,интерпретируемыхкак "чистые"деревья подчиненияпредложений(без линейногопорядка слов).

триуровня описания

1) правилаНС

2)трансформационныеправила

3)морфологическиеправила

Допущения:

·синт.система можетбыть разбитана ряд подсистем,одна из которых- исходная (ядерная),остальные -производные.Ядерная Т - наборпредложений(утвердительных,простых, с глаголомв изъяв. форме,активногозалога, наст.времени.)

·ядерноепредложениеописываетэлементарныеситуации, акласс ЯП - всемножество элем.ситуаций.

·любойсложный синт.тип можно получитьпри примененииупорядоченногонабора обязательныхи факультативныхтрансформацийк ядерномупредложению.

Представлениесинт. структурыпредложения- указание ядерноготипа, лежащегов основе предложенияи трансформаций,которые к немуприменялись,а также ихпоследовательности.

Методявился основойпорождающейграмматикиХомского.

3.ПорождающаяграмматикаХомского,представляющаясобой упорядоченнуюсистему Г=(V,W,П,R), где V и W -непересекающиесяконечные множества- основное(терминальное)и вспомогательное(нетерминальное),П - элемент W,называемыйначальнымсимволом и R -конечное множествоправил вида , где цепочки(конечныепоследовательности)из основныхи вспомогательныхсимволов. Множествотех цепочекиз основныхсимволов, которыевыводимы в Гиз ее начальногосимвола, называютязыком, порождаемымграмматикойГ и обозначаютL(Г). Если всеправила Г имеютвид , где -правый и левыйконтексты, тоГ называетсяграмматикой составляющихили грамматикойнепосредственносоставляющих(ГНС). Чащевсего основныесимволы интерпретируютсякак слова,вспомогательные- как символыграмматическихкатегорий,начальныйсимвол - каксимвол категории"предложение".

4. Реляционнаямодель

5.Аппликационнаямодель (Шаумяна?)

Доминационнаяграмматика,которая порождаетмножествоцепочек, интерпретируемыхобычно какпредложенияи вместе с ихсинтакс. структурамив виде ДЗ.

ГрамматикиМонтегю служатодновременнодля описаниясинтакс. и семант.структурыпредложения. В них используетсясложныйматематико-логическийаппарат (такназываемаяинтенциональнаялогика).

2.Экспертныесистемы и ихархитектура. Функции основныхкомпонентов.

Экспертнаясистема - этокомпьютернаяпрограмма,которая моделируетрассуждениечеловека-экспертав определеннойобласти, используядля этого БЗ,содержащуюфакты и правилаоб этой областии некоторуюпроцедурулогическоговывода.

РазработкаЭС - сравнительноновое направлениев системах ИИ;второе название- инженериязнаний (терминввел в 1977 Фегенбаум),сформироваласьв середине 70гг.

Раньшебыла цепочка:аналитик -программист- оператор -пользователь;теперь пользовательможет обращатьсяпрямо к ЭВМ(либо толькочерез инженерапо знаниям).

СтруктураЭС:

раньше:

входныеданные

программ

теперь:

входныеданные

интерпретаторБЗ

БЗ

Обычныепрограммы имеютфиксированнуюпоследовательностьшагов, строгоопределеннуюпрограммистом,ЭС пользуютсянахождениемудовлетворительногорешения методомпроб и ошибок.

ЭСрешают трудноформализуемыезадачи. не имеющиеалгоритмическогорешения () медицина,геология, управление,юридическиенауки).

Попов:три причиныпоявления ЭС:

·ориентированына решениезадач в неформализованныхобластях

·предназначеныдля пользователей,не имеющихспец. навыковпрограммирования

·ЭСрешают задачилучше, чем человек.

3принципа разработкиЭС:

1.мощность ЭСопределяетсямощностью БЗи процедурамиее пополнения,т.о. компонентприобретениязнаний важнеекомпоненталогическоговывода. (Раньшебольшее вниманиеуделялось лог.выводу).

2. Знание.используемоеЭС, являетсяв основномэвристическим,экспериментальным,поэтому используетсякоэффициентдостоверности.

3. ЭСреализуетсяв форме диалоговойсистемы.

ЭСдолжна обладатьспособностьюприобретатьзнания.

2источникаприобретениязнаний:

1) отэксперта

2) изтекстов (неразработано)

ЭСрешают практическиезадачи. а неэкспериментальные;решения ЭСмогут бытьобъясненыпользователю,т.е обладаютсвойствомпрозрачности,для этого существуетспециальныйкомпонент -объяснительный.

Формальнаяоснова ЭС: базовоепонятие - правилопродукции илиформальныепроцедурысистемы: правилавида условие-> действиеесли-> то (если быларазлита горючаяжидкостью товызовите пожарных).

Терминпродукция ввелПост (1943)

Свойствопродукции -всякая формальнаясистема. оперирующаясимволами,может бытьреализованаодной из продукционныхсистем.

АрхитектураЭС

ПользовательЭС Общение наЕЯ	Лигвитсическийкомпонентанализа с синтезавходных сообщений	рабочая память текущеесостояниепроведенияэкспертизы	объяснительныйкомпонент

			интерпретатор

			компонентприобретениязнаний

			БЗ

·БЗимеет динамическийхарактер, содержитфакты и правилав форме продукций

·интерпретатор(решатель) имеетдело с процедурамилогическоговывода, на основеимеющихсяданных решаетзадачу

·лингвистическийпроцессоросуществляетдиалог с пользователем

·рабочаяпамять хранитданные

·компонентприобретениязнаний - с егопомощью знанияизвлекаютсяиз экспертаили текста изаносятся вБЗ

·объяснительныйкомпонентотвечает навопрос, почемупринято данноерешение и чеммотивированвыбор.

2 режима работыЭС:

·приобретениезнаний: участвуетэксперт и инженерпо знаниям(посредник)ручныеи автоматизированныеметоды (brainstorm)

·режимрешения задач:главный участник- пользователь,заинтересованныйв результате.

Типы ЭС:

·демонстрационныепрототипы (56)

·исследовательские(92)

·действующие(12)

·промышленные(4)

·коммерческие(9)

Примеры ЭС

две старейшиеЭС:

DENDRAL (химическаятематика, определяетструктуру хим.элементов)

MAXIMA (решениемат. задач)

Система FOBS

Санджай, Чаднаи др., "Использованиеизвестныхситуаций (cases) дляпостроения"ЭС MEDIA (выбороптимальногоСМИ для маркетингана материалеHarvard Business School) на основеоболочки ADVISOR.Система задаетвопросы и анализируетвсе факторы,связанные спродуктом(поведениепокупателя,ориентацияна конкретногопокупателя,конъюнктура),рекомендуетсредство рекламы,перечисляетвозможныеальтернативыи аргументируетсвой выбор.

Билет10

1. Типыэкспериментальныхметодов в лингвистике

Экспериментальныеметоды в лингвистике- это методы, позволяющиеизучать фактыязыка в условиях.управляемыхи контролируемыхисследователем.Философскойосновой примененияэкспериментальныхметодов в лингвистикеявляется тезисо единстветеоретическогои эмпирическогоуровней познания.

Всовременнойлингвистикетермин "экспериментальныйметод" не являетсячетким; лингвистычасто говорятоб экспериментетам, где имеетместо наблюдение,прежде всегонаблюдениенад текстами(письменнымии устными). Существенно.что текст кактаковой, будучиданностью неможет бытьобъектом ЭМ;именно поэтомуЭМ не применимык изучениюистории языка,особенностейстиля автораи т.п. в этих случаяхследует говоритьо наблюдении.Объектом ЭМявляется человек- носитель языка,порождающийтекст, воспринимающийтексты и выступающийкак информантдля исследователя.в лингвистическомэкспериментеисследовательможет иметьв качествеподобногообъекта самогосебя или другихносителейязыка; в первомслучае следуетговорить обинтроспекции,во втором - обобъективномэксперименте.

Экспериментальнаяработа с информантами(нередко в сочетаниис наблюдением)непосредственнов среде носителейязыка называетсяобычно полевойлингвистикой.

ИсториюпримененияЭМ в лингвистикеможно разделитьна три периода:

1. Активное освоениеЭМ в фонетике,акцент на сходствеЭМ в лингвистикеи точных науках(труды Богородицкого,Щербы, Матусевича)

2.Осознание ЭМв лингвистикекак важнейшегоспособа полученияданных о живомязыке вообще, включая егоморфологию.синтаксис,семантику, атакже проблемыязыковой нормы,языковогообщения, патологийречевого развитияи т.д. эта научнаяпрограмма былавпервые сформулированаЩербой ("О троякомаспекте языковыхявлений и обэкспериментев языкознании")

3.Реализацияуказаннойнаучной программы,и как следствиеуглубленииметодологическихразработок(Апресян, Фрумкина). В социолингвистикеи психолигвистикеЭМ занимаютдоминирующиеместо.

ПоследовательноеприменениеЭМ в исследованииязыка и речевыхпроцессовсделало необходимымиспользованиестатистическихметодов припланированииэкспериментаи обработкерезультатов(лингв. статистика). существенно.что лигвист,изучающийречевое поведениечеловека, имеетдело с объектом,равным емусамому по сложности. В силу этогоотношениеисследователь- объект в лингвистикепревращаетсяв симметричноеотношение междудвумя исследователями:информант можетиметь своютеорию обэкспериментатореи соответственноизменять своеповедение впроцессеэксперимента,что может негативноповлиять нарезультатыЭ. Особой сферойиспользованияЭМ являютсямашинныеэксперименты,проверяющиеадекватностьформализованныхдействующихмоделей языка.

ПроцессЭ:

·общаязадача

·рабочаягипотеза

·формальныевыводы, изменения

·новыегипотезы

ЦельЭ - проверкагипотез. Человекне должен знатьцелевую установкуэкспериментатора.

Типы экспериментов:

·моделирующиеэксперименты(в социолингвистике):порождаетсяряд гипотез,отбираютсясоциальныепараметры,которые варьируются

·имитационныеэксперименты(лабораторные)- имитация усеченнойдействительности

·натурныеэкспериментывключают условия,позволяющиедемонстрироватьповедение,максимальнопохожее нареакцию в аналогичнойестественнойситуации.

Типы методов(по количествуинформантов):

·индивидуальный

·межгрупповой

·многоуровневый,многофакторный

(Хофман)Экспериментальныеметоды в семантике:

·ассоциативныйэксперимент- испытуемомудается слово-стимули предлагаетсяреагироватьна это словопервым пришедшимв голову словомили словосочетанием

·методсемантическогодифференциала(экспер. семантика)- один из методовпостроениясубъективныхсем. пространств( градуированныеоценочныешкалы)

·методклассификации(в психолигвистике- испытуемымпредлагаетсяразбить материална произвольноеколичествоклассов.)

·экспериментп членениюденотативногоконтинуума(Фрумкина: смысловыеотношения вгруппе словцветообозначений+ Лабов "Структураденотативныхзначений" -сосуды - cup, bowl, glass ->размытостьи взаимозависимостьденотативныхграниц; модели,основанныена компонентноманализе, необъясняютвышеназваногосвойства, вывод- более адекватнатеория прототипов,которая тольконачинает применятьсяв семантике).

2. Эволюция системавтоматизированногоперевода.

1947 г. - Memorandum by Warren Weaver обавтоматическомпереводе

1954 г.- Джорджтаунскийэксперимент(Массачусетс)

Типы систем:

·системымашинногоперевода (СМП)

·системычеловеко машинногоперевода (АС)

·ТБД

Трипоколения СМП(условнаяклассификация,Марчук не признавалделения напоколения):

Iпоколение:

·содержалиполный алгоритмморфологическогоанализа

·имелиимели алгоритмснтаксическогоанализа, новсегда одновариантный

·синтез- блок морфологическогосинтеза, болксинтаксическогосинтеза

·всловарнойстатье - толькопереводнойэквивалент,остальнаяинформация- в алгоритмах

·работатолько в пакетномрежиме

IIпоколение(SYSTRAN, АМПАК, Georgetown System, ):

·мощныйблок синтаксическогоанализаи синтеза

·многовариантныйсинтаксическийанализ

·увеличениечисла и объемасловарныхстатей: ПЭ +синтаксическиемодели управленияи сочетаемости(информацияоб управлениидолжна находитсяв словаре, а нев алгоритме)

·недостаточноевнимание семантике( нет сем. дефиниций,моделей упраленияв терминах сем.классов)

·работаи пакетном ив интерактивномрежимах

IIIпоколение(ЭТАП-1 (350 слов),ЭТАП-2 (4000 слов),модель "Смысл-текст",Апресян):

·широкоеиспользованиесемантики навсех уровнях:в словаре, алгоритме

·толькоисследовательскиесистемы, нетни одной промышленной

Марчук "ПроблемыМП" - 3 периода,Слокум "Обзорразработокпо МП":

1. 1946 - 1957

·выдвинутаконцепция языкакак кода

·созданыпервые машинныесловаридляМП

·разработанаобщая концепцияМП (алгоритмынаализа и синтеза,рпограммноеобеспечение)

·опробованыпервые СМП

·повышенныйинтерес к проблеме,связанный снадеждами навозможностьскоростноговысококачественногоперевода текстовлюбого типа,щедрое финансирование

2. 1957 - 1967

·докладконсультативногоКомитета поавтоматизированнойобработке ЕЯ(ALPAC) при НациональногоАкадемии НаукСША - доказананевозможностьполностьюавтоматизированноговысококачественногоперевода ->свертываниеразработок,сокращениефинансированиятекущих исследований(но не долгосрочных)

·успешныепопытки промышленнойэксплуатацииСМП

·широкиетеоретическиеисследования:возникла идеяязыка-посредника,методика контекстногоанализа длярзрешенияосновных лигв.проблем.

3. 1967 - настоящеевремя

·возрождениеинтереса к МП

·Люксембург,конференция"Преодолениеязыковых барьеров"

·активнаяпромышленнаяэксплуатацияСМП

Развитие МПпроисходилосогласно гегелевскойтриаде - тезис,антитезис,синтез.

СМП

АС

ТБД

SYSTRAN(1070, автор -Peter Toma, 15 пром.пар языков,пакетный режимработы, языкпосредникInterlingua, 200.000 - 300.000 )

АНРАП(ВЦП), СПРИНТ PC, ЭТАП-1 (Апресян,модель "Смысл-текст",словарь -350 слов),ЭТАП-2, словарь-4000 слов

EURODICAUTOM (1.200.000 заголовков)

LEXIS (1.500.000)

SIEMENS (1.500.000)

TERMIUM (> 2 млн.)

Билет11

1.Общенаучныйметод моделированияи спецификаего примененияв лингвистике

Методмоделированияцентральныйисследовательскийметод в науке.

Моделирование в науке - этовыяснениесвойств какого-либопредмета припомощи построенияего модели.

Модельюможно назватьобраз какого-либообъекта, используемыйв определенныхусловиях вкачестве егозаместителя(фотографияв паспорте -модель человека).

Свойствамоделей:

·условность

·образможет быть нетолько материальным,но и мысленными передаватьсяпосредствомзнаковой системы

·модельюможет быть нетолько образ,но и праобразоригинала

·модельчаще всегоявляется гомоморфнойоригиналу (тоесть многимэлементаморигиналасоответствуетменьшее количествоэлементовмодели в отличиеот изоморфизма)

Модельв лингвистике- искусственносоздаваемоелингвистомреальное илимысленноеустройство,воспроизводящее,имитирующеесвоим поведением(обычно в упрощенномвиде) поведениеоригинала влингвистическихцелях.

Собственнолингвитсическиемодели:

·моделиречевой деятельности,процессуальныймодели (самыесложные)

·моделиязыковой системы,языковой структуры(тоже оченьсложные)

·модельпамяти и др.

Лингвистическоемоделированиенеобходимопредполагаетиспользованиеабстракциии идеализации. Отображаярелевантныесущественные(с точки зренияисследования)свойства оригиналаи отвлекаясьот несущественных,модель выступаеткак некоторыйабстрактныйидеализированныйобъект. Всякаямодель строитсяна основе гипотезыо возможномустройствеоригинала ипредставляетсобой функциональныйаналог оригинала.что позволяетпереноситьзнания с моделина оригинал. Критериемадекватностимодели являетсяэксперимент.

Видеале модельдолжна бытьформальной(т.е. в ней должныбыть в явномвиде и однозначнозаданы исходныеобъекты, связывающиеих отношенияи правила обращенияс ними) и обладатьобъяснительнойсилой (т.е. нетолько объяснятьфакты или данныеэкспериментов,необъяснимыес точки зренияуже существующейтеории, но ипредсказыватьнеизвестноераньше, хотяи принципиальновозможноеповедениеоригинала,которое позднеедолжно подтверждатьсяданными наблюденияили экспериментов).

Понятиелингвистическоймодели возниклов структурнойлингвистике,но вошло в научныйобиход в 60-70 гг.20 в. с возникновениеммат. лингвистикии проникновениемв лингвистикумат. методов.

Содержаниетермина "модель"в современнойлингвистикев значительнойстепени охватывалосьранее термином"теория" (особенноЕльмслевым). Считается, чтонаименованиямодель заслуживаетлишь такаятеория. котораядостаточноэксплицитноизложена и вдостаточнойстепени формализована(в идеале каждаямодель должнадопускатьреализациюна ЭВМ).

Контруированиемодели - не толькоодно из средствотображенияязыковых явлений,но и объективныйпрактическийкритерий проверкиистинностизнаний о языке. В единстве сдругими методамиизучения языкамоделированиевыступает каксредство углубленияпознания скрытыхмеханизмовречевой деятельности,его движенияот относительнопримитивныхк более содержательныммоделям, полнеераскрывающимсущность языка.

Внутриязыка как системысуществуетпринцип моделирования:одни его подсистемымоделируютдругие, например,система письменнойречи являетсямоделью устнойречи; внутриписьменнойречи мы имеемдело с несколькимимоделями (печатной,рукописной);план выраженияявляется модельюплана содержания.

Методмоделированияобычно опираетсяна знаковыесистем, но язык- сам знаковаясистема, т.е.слова мы моделируемпри помощислов.

Главнаяцель моделированияв лингвистике- это моделированиецелостнойязыковой способностичеловека.

Синтезречи.

1Ограничения на синтез речи.

Cуществуютразличныеметоды синтезаречи. Выбортого или иногометода определяетсяразличнымиограничениями.Рассмотримте 4 вида ограничений,которые влияютна выбор методасинтеза.

Задача.

Возможностисинтезированнойречи зависятот того, в какойобласти онабудет применятся.Когда необходимопроизноситьограниченноечисло фраз ( иих произнесениелинейно неменяется ),необходимыйречевой материалпросто записываетсяна пленку. Сдругой стороны, если задачасостоит встимулированиипознавательногопроцесса причтении вслух,используетсясовершеннодругой рядметодик.

Голосовойаппарат человека.

Всесистемы синтезаречи должныпроизводитьна выходе какую-торечевую волну,но это не произвольныйсигнал. Чтобыполучить речевуюволну определенногокачества, сигналдолжен пройтипуть от источникав речевом тракте,который возбуждаетдействиеартикуляторныхорганов, которыедействуют какизменяющиесяво временифильтры. Артикуляторныеорганы такженакладываютограниченияна скоростьизменениясигнала. Онитакже имеютфункцию сглаживания:гладкого сцепленияотдельныхбазовых фонетическихединиц в сложныйречевой поток.

Структураязыка.

Рядвозможныхзвуковых сочетанийопредляетсяприродой тойили иной языковойструктуры. Былообнаружено,что еденицыи структуры,используемыелингвистамидля описанияи объясненияязыка, могут также использоватьсядля характеристикии построенияречевой волны.Таким образом,при построениивыходной речевойволны используютсяосновныефонологическиезаконы, правилаударения,морфологическиеи синтаксическиеструктуры,фонотактическиеограничения.

Технология.

Возможностиуспешно моделироватьи создаватьустройствадля синтезаречи в сильнойстепени зависятот состояниятехнико-технологическойстороны дела.Речевая наукасделала большойшаг впередблагодаряпоявлениюразличныхтехнолоний,в том числе:рентгенография,кинематография,теория фильтрови спектров, аглавным образом- цифровыекомпьютеры.С приходоминтегральныхсетевых технологийс постоянновозрастающимивозможностямистало возсожнопостроениемощных, компактных,недорогихустройств,действующихв реальномвремени. Этотфакт, вместес основательнымизнаниями алгоритмовсинтеза речи,стимулировалдальнейшееразвитие системсинтеза речии переход ихв практическуюжизнь, где онинаходят широкоеприменение.

2Методысинтеза.

Различныеподходы могутбыть сгруппированыпо областямих применения,по сложностиих воплощения.

Синтезаторыделят на дватипа: с ограниченными неограниченнымсловарем. Вустройствахс ограниченнымсловарем речьхранится в видеслов и предложений,которые выводятсяв определеннойпоследовательностипри синтезеречевого сообщения.Речевые единицы,используемыев синтезаторахподобного типа,произносятсядиктором заранее,а затем преобразуютсяв цифровуюформу, чтодостигаетсяс помощью различныхметодов кодирования,позволяющихкомпрессироватьречевую информациюи хранить еев памяти синтезирующегоустройства.Существуетнесколькометодов записии компоновкиречи.

Волновойметод кодирования.

Самыйлегкий путь- просто записатьматериал напленку и понеобходимостипроигрывать.Этот способобеспечиваетвысокое качествосинтезируемойречи, т.к. позволяетвоспроизводитьформу естественногоречевого сигнала.Однако этотпуть синтезане позволяетреализоватьпостроениеновой фразы,т.к. не предусматриваетобращение кразличнымячейкам памятии вызов из памятинужных слов.В зависимостиот используемойтехнологииэтот способможет представлятьзадержки вдоступе и иметьограничения,связанные свозможностямизаписи. Никакихзнаний об устройстверечевого трактаи структуреязыка не требуется.Единственносерьезноеограничениев данном случаеимеет объемпамяти. Существуютспособы кодированияречевого сигналав цифровойформе, позволяющиев несколькораз уплотнятьинформацию:простая модуляцияданных, импульсно-кодоваямодуляция,адаптивнаядельтоваямодуляция,адаптивноепредиктивноекодирование.Данные способымогут уменьшитьскорость передачиданных от 50кбит/сек(нормальныйвариант) до10кбит/сек, в товремя как качестворечи сохраняется.Естественно,сложностьопераций кодированияи декодированияувеличиваетсясо снижениемчисла бит всекунду. Такиесистемы хороши,когда словарьсообщенийнебольшой ификсированный.В случае же,когда требуетсясоединитьсообщения вболее длинное,сгенерировтьвысококачественнуюречь трудно,т.к. значенияпараметровречевой волнынельзя изменить,а они могут неподойти в новомконтексте. Вовсех системахсинтеза речиустанавливаетсянекоторыйкомпромиссмежду качествомречи и гибкостьюсистемы. Увеличениегибкости неизбежноведет к усложнениювычислений.

Параметрическоепредставление.

Сцелью дальнейшегоуменьшениятребуемойпамяти дляхранения иобеспечениянеобходимойгибкости былоразработанонесколькоспособов, которыеабстрагируютсяот речевойволны как таковой,а представляютее в виде наборапараметров.Эти параметрыотражают наиболеехарактернуюинформациюлибо во временной,либо в частотнойобласти. Например,речевая волнаможет бытьсформированасложениемотдельныхгармоник заданнойвысоты и заданнымиспектральнымивыступами наданной частоте.Альтернативныйпуть состоитв том, чтобыформу речевоготракта описатьв терминахакустики иискусственнымпутем создатьнабор резонансов.Этот методсинтеза экономичнееволнового, т.к.требует значительноменьшего объемапамяти, но приэтом он требуетбольше вычислений,чтобы воспроизвестиисходный речевойсигнал. Данныйспособ даетвозможностьманипулироватьтеми параметрами,которые отвечаютза качестворечи (значениеформант, ширинаполос, частотаосновного тона,амплитудасигнала). Этодает возможностьсклеиватьсигналы, такчто переходына границахсовершенноне заметны.Изменения такихпараметровкак частотаосновного тонана протяжениивсего сообщениядают возможностьсущественноизменять интонациюи временныехарактеристикисообщения.Наиболее популярнымв наст.вр. методамикодированияв устройствах,использующих параметрическоепредставлениесигналов, являетсяметод, основанныйна формантныхрезонансахи метод линейногопредсказания(LPC - linear predictive coding). Для синтезаиспользуютсяединицы речиразличнойдлины: параграфы,предложения,фразы, слова,слоги, полуслоги,дифоны. Чемменьше единицасинтеза, темменьшее ихколичествотребуется длясинтеза. Приэтом, требуетсябольше вычислений,и возникаюттрудностикоартикуляциина стыках.Преимуществаэтого метода:гибкость, немногопамяти дляхранения исходногоматериала,сохранениеиндивидуальныххарактеристикдиктора. Требуетсясоответствующаяцифровая техникаи знание моделейречеобразования,при этом, лингвистическаяструктура языкане используется.

Синтезпо правилам.

Описанныевыше методысинтеза ориентированына такие речевыеединицы, какслова, предварительновведенные вустройствос голоса диктора.Данный принциплежит в основефункционированиясинтезаторовс ограниченнымсловарем. Всинтезаторахс неограниченнымсловарем элементамиречи являютсяфонемы илислоги , поэтомув них применяетсяметод синтезапо правилам,а не простаякомпоновка.Данный методвесьма перспективен,т.к. обеспечиваетработу с любымнеобходимымсловарем, однакокачество речизначительнониже, чем прииспользованииметода компоновки.

Присинтезе речипо правиламтакже используютсяволновой ипараметрическийметоды кодирования,но уже на уровнеслогов.

Методпараметрическогопредставлениятребует компромиссамежду качествомречи и возможностьюизменять параметры.Исследователиобнаружили,что для синтезаречи высокогокачества необходимоиметь несколькоразличныхпроизношенийединицы синтеза(например, слога),что ведет кувеличениюсловаря исходныхединиц безкаких бы то нибыло сведенийо контекстнойситуации,оправдывающейтот или инойвыбор. По этойпричине процесссинтеза получаетеще более абстрактныйхарактер ипереходит отпараметрическогопредставленияк разработкенабора правил,по которымвычисляютсянеобходимыепараметры наоснове вводногофонетическогоописания.Этовводное представлениесодержит самопо себе малоинформации.Это обычноимена фонетическихсегментов (напр, гласныеи согласные)со знакамиударения,обозначениямитона и временныххарактеристик.Таким образом,метод синтезапо правиламиспользуетмалоинформационноеописание навходе ( менее100 бит/сек). Этотметод даетполную свободумоделированияпараметров,но необходимоподчеркнуть,что правиламоделированиянесовеншенны.Синтезированнаяречь хуженатуральной,тем не менее,она удовлетворяеттестам поразборчивостии понятности.На уровне предложенияи параграфаправила предоставляютнеобходимуюстепень свободыдля созданияплавного речевогопотока.

3Конвертациятекста в речь.

Синтезпо правиламтребует детальногофонетическоготранскрибированияна входе. Хотядля запоминанияэтой информациитребуется малопамяти, чтобыизвлечь из неенеобходимыепараметры,необходимызнания эксперта.Для конвертациинеограниченногоанглийскоготекста в речьнеобходимосначала проанализироватьего с цельюполучениятранскрипции,которая затемсинтезируетсяв выходнуюречевую волну.Анализ текстапо своей природезадача лингвистическаяи включает всебя определениебазовых фонетических,слоговых, морфемныхи синтакисическмихформ, плюс -вычленениесемантическойи прагматическойинформации.Системы конвертациитекста в речьявляются наиболеекомплекснымисистемамисинтеза речи,включающиев себя знанияоб устройстверечевого аппаратачеловека,лингвистическойструктуреязыка, а такжекоторые должныучитыватьограничения,накладываемыеобластью применениясистемы,технико-технологическойбазой. Необходимозаметить, чтои текст и речьявляютсяповерхностнымипредставлениямибазовых лингвистическихформ, поэтомузадача преобразованиятекста в речьсостоит в выявленииэтих базовыхформ, а затемв воплощенииих в речи.

4Системапреобразованиятекста в речьMITalk.

Напримере этойсистемы проиллюстрируемсильные и слабыестороны коммерческихверсий. Разработкасистемы началасьв конце 60-х гг.Изначальнопредполагалосьразработатьчитающую машинудля слепых, носистема MITalk можетприменятьсяв любых ситуациях,где необходимопреобразоватьтекст в речь.Система имеетблок морфологическогоанализа, правилапреобразованиябуква-звук,правила лексическогоударения,просодическийи фонематическийсинтез.

5Анализтекста

Преобразованиесимволов встандартнуюформу.

Всамых различныхтекстах можнообнаружитьсимволы иаббревиатуры,которые непринадлежатк категории" правильнообразованныхслов". Такиесимволы как"%" и "&", аббревиатурытипа "Mr" и "Nov"должны бытьпреобразованыв нормальнуюформу. Былиразработаныподробныеруководствапо транскрибированиючисел, дат, сумденег. Иногдавозникаютдвусмысленныеситуации, такиекак, например,использованиезнака дефисав конце строки.Человек в такихслучаях, чтобыопределитьподходящеепроизношение,обращаетсяк контекстуи к практическимзнаниям, которыене поддаютсяалгоритмизации.

Морфологическийанализ

Ввводном текстеграницы словлегко определяются.Можно хранитьпроизношениевсех английскихслов. Размерсловаря будетбольшим, но втаком подходеесть несколькопривлекательныхсторон. Во-первых,в любом случаенеобходимсловарь слов,произношениекоторых являетсяисключениемиз общих правил.Такими являются,например,заимствованныеслова ( parfait, tortilla). Болеетого, все механизмыпреобразованияцепочки буквв фонетическиезначки допускаютошибки. Интересныйкласс исключенийсоставляютчасто употребительныеслова. Например,звук /th/ в началеслова произноситсякак глухойфрикативный в большинствеслов (thin, thesis, thimble). Нов наиболеечастотных,таких как короткиефункциональныеслова the, this, there, these, those,etc. начальныйзвук произноситсякак звонкий.Также /f/ всегдапроизноситсяглухо, за исключениемслова "of". Другойпример. В словахтипа "shave", "behave"конечный /e/ удлиняетпредшествующийгласный, но втаком частомслове как "have"это правилоне действует.Наконец, конечный/s/ в "atlas", "canvas" глухой,но в функциональныхсловах is, was, has онпроизноситсязвонко. Такимобразом, приходимк выводу, чтовсе системыдолжны иметьтакой словарьисключений.Что касаетсянормальныхслов, то здесьимеется дваварианта. Первыйкрайний случайсостоит в том,чтобы составитьполный словарь.Хотя число словограничено,составитьабсолютнополный словарьневозможно,т.к. постояннопоявляютсяновые слова.Кроме того, всловарь необходимобудет внестивсе изменяемыеформы слова.Другой крайнийподход состоитв установленииряда правил,которые быпреобразовывалицепочки буквв фонетическиезначки. Хотяэти правилаочень продуктивны,нельзя избежатьошибок, чтоведет к созданиюсловаря исключений.Чтобы правильноопределитьфонетическуютранскрипциюслова, нужноправильноразбить словона структурныесоставляющие.Было обнаружено,что важную рольв определениипроизношенияиграет морфема,минимальнаясинтаксическаяединица языка.Система MITalk используетморфемныйлексикон, чтоможет рассматриватьсякак некоторыйкомпромиссныйподход междудвумя крайними,упомянутымивыше. Многиеанглийскиеслова можнорасчленитьна последовательностьморфов, такихкак префиксы,корни, суффиксы.Так слово "snowplows"имеет два корняи окончание,"relearn" имеет приставкуи корень. Такиеморфы являютсяатомнымисоставляющимислова и ониотносительностабильны вязыке, новыеморфы формируютсяв языке оченьредко. Эффективныйлексикон можетиметь не более10,000 морфов. Морфемныйсловарь действуетвместе с процедурамианализа. Этотподход эффективени экономичен,т.к. хранениеморфемногословаря незанимает многоместа, а хранитьвсе изменяемыеформы словане нужно. Таккак морфы являютсяосновнымисоставляющимислова, проиллюстрируемих полезностьпри определениипроизношения.При соединенииморфов оничасто меняютсвое произношение.Например, приобразованиимножественногочисла существительных"dog" и "cat" конечный/s/ будет звонкимв первом случаеи глухим вовтором. Этопример морфофонемногоправила, касающегосяреализацииморфемы множественногочисла в различныхокружениях.Становитсяочевидным, чтодля эффективногои легкого определенияпроизношениянужно распознатьсоставляющиеморфемы словаи обозначитьих границы. Ещеодин плюс морфемногоанализа - обеспечениеподходящейбазы для использованияправил преобразованиябуква-звук.Большинствотаких правилрассматриваютслово какнеструктурированнуюпоследовательностьбукв, используяокно сканированиядля нахождениясогласных игласных кластеров,которые преобразуютсяв фонетическиезначки. Буквы"t" и "h" в большинствеслучаев выступаюткак единыйсогласныйкластер, но вслове "hothouse" кластер/th/ разрываетсяграницей двухразных морфем.Гласный кластер/ea/ представляетмного трудностейдля алгоритмовбуква-звук, нов слове changeable онявно разрывается.В системе MITalkморфемныйанализ всегдапроводитсяперед правиламипреобразованиябукв в звуки.Лежащие в основеслова морфыне всегда очевидны.Например, некоторыеморфы множественногочисла не всегдалегко определить:mice, fish. Подобныеформы заносятсяв словарь. Припомощи морфемноголексикона исоответствующегоалгоритмаанализа 95-98% слованализируетсяудовлетворительно.В результатеим приписываетсяфонетическаятранскрипцияи часть речи.

Правила"буква-звук"и лексическоеударение

Всистеме MITalkнормализованныйвводный текстподвергаетсяморфологическомуанализу. Можетбыть, что целоеслово есть всловаре морфов,как, например,слово "snow". С другойстороны, словоможет бытьпроанализированокак последовательностьсоединенныхморфов. В английскомязыке среднеечисло морфовв слове, примернодва. В случае,если ни целоеслово не можетбыть найденов словаре морфов,ни проанализированокак последовательностьморфов, в этомслучае применяютсяправила преобразования"буква-звук".Важно подчеркнуть,что этот методникогда неприменяется,если морфемныйанализ удался.Конвертацияпоследовательностибукв в последовательностьзвуков припомощи этихправил проходитв три этапа.Первый этап- отделениепрефиксов исуффиксов.Возможностьотделенияаффиксов нетакая сильная,как в морфемноманализе, нодействуетудовлетворительно.Предполагается,что после отделенияпрефиксов исуффиксовостается однацентральнаячасть слова,которая состоитиз одного морфа,подвергаемого затем правилампреобразования.

Второйэтап состоитв преобразованиисогласных вфонетическиезначки, начинаяс наиболеедлинного согласногокластера дотех пор, покавсе отдельныесогласные небудут преобразованы.Последний этап- оставшиесягласные преобразуютсяпри помощиконтекстов.Гласные преобразуютсяпоследними,потому что этонаиболее труднаязадача, зависящаяот контекста.Например, гласныйкластер /ea/ имеет14 разных произносительныхконтекстови несколькопроизношений(reach, tear, steak, leather).

Всистеме MITalk правилапреобразованиябукв в звукидействуют впаре с широкимнабором правилрасстановкилексическогоударения. Еще25 лет назадлингвистамне удавалосьобнаружитьникакой системырасстановкиударений ванглийскихсловах. В Настоящеевремя разработанряд правил,эффективносправляющихсяс этой задачей.Ударения зависятот синтаксическойроли слова,например,прилагательное"invalid" отличаетсяот существительного.Таких словнемного, ноучитывать ихнеобходимо.Кроме того, нанекоторыесуффиксыавтоматическипадают ударенияв словах, как,например, в"engineer". Но бываютболее сложныеслучаи, которыеразрешаютсяприменениемциклическихправил.

Всистеме MITalk разработанынескольконаборов такихправил, некоторыеиз которыхвключают в себядо 600 правил.Конечно, большинствоиз них употребляютсядовольно редко.Подразумеваются,что все сильныеи неправильныеформы преобразуютсяна стадии морфологическогоанализа. Правилаже "буква-звук"используютсядля преобразованияновых и неправильнонаписанныхслов. Например,слово "recieved" получаетправильнуютранскрипцию,благодаря этимправилампреобразования.

Парсинг.

Каждаясхема преобразованиянеограниченноготекста в речьдолжна включатьсинтаксическийанализ. Необходимоопределитьсинтаксическуюроль слова,т.к. она частовлияет напроизношениеи ударение.Кроме тогосинтаксическийанализ важендля определенияправильноготональногоконтура и временныххарактеристик.Просодическиехарактеристикиважны для синтезаречи, чтобы оназвучала живои естественно.К сожалению,полный синтаксическийанализ на уровнесложного предложения(clause-level parsing) осуществитьнельзя. Тем неменее, возможнопровестисинтаксическийанализ на уровнефразы (phrase-level parsing), врезультатекоторого определяетсябольшая частьнеобходимойдля синтезаречи структуры,хотя в некоторыхситуацияхнеизбежныошибки из-заотсутсвияанализа целогопредложения.Встречаетсямножествосинтаксическидвусмысленныхпредложений,таких как "hesaw the man in the park with a telescope", длякоторых фразовыйанализ достаточен.

Ванглийскомязыке существуетряд синтагматическихмаркеров, покоторым можноформальноразграничитьфразы: этовспомогательныеглаголы, детерминативыв номинативныхфразах. СистемаMITalk широко используетэто и проводитвысокоточныйграмматическийанализ (augmented-transition-network grammas). Фразовыйанализ показалудовлетворительныерезультаты,хотя эффективныйанализаторпредложенийнесомненноулучшил быработу системы.Пока анализаторыпредложенийсталкиваютсясо значительнымитрудностями,когда встречаютнеполное илисинтаксическиомонимичноепредложение.По завершениидеятельностиблока синтаксическогоанализа системаприписываетсловам маркерыфункциональныхчастей речи,отмечаетсинтаксическиепаузы как основудля дальнейшегоуточненияпроизношения,временныххаратеристик,частоты основноготона.

Модификацияударения ифонологическиеуточнения.

Последняяфаза анализасостоит в некоторыхнезначительныхпоправках кимеющейся ужефонетическойтранскрипциина основе анализаконтекстногоокружения.Простой примеропределенияпроизношенияартикля "the",которое зависитот начальногозвука последующегослова. Крометого, на этомэтапе используютсянекоторыеэвристическиеметоды проверкиправильногосоотношенияобщего контурапредложенияс контурамиотдельных слов.На этом этапезаканчиваетсяподготовкаисходноготекста собственнок самому процессусинтеза.

6Синтез.

Важноосознать, чтов системе MITalk неиспользуютсяготовые речевыеволны даже впараметрическомпредставлении.Система нехранит параметрическиепредставлениямножестваморфов илислов. Вместоэтого былиразработаныправила контроляпараметров,так что можнореализоватьлюбую желаемуюречевую волнуна выходе.

Просодическаярамка.

Первыйшаг в созданиивыходной речевойволны - созданиевременногоконтура и частотыосновного тона( основные коррелятыинтонации ), наоснове которыхстроится детальнаяартикуляцияотдельныхфонетическихэлементов.Распределениеударения, котороебыло вычисленона стадии анализа,во многомответственноза контур временногораспределенияи тональныйконтур. Частоинтенсивностьпринимают закоррелят ударения,тогда как главнымиключами являютсядлительностьи измененияв тональномконтуре. Согласныемало меняютсяпо длительности,в то время какгласные болеепластичны имогут легкосжиматься илирастягиваться.Существуеттакже тенденциярастягиватьслова на границеосновных абзацевпредложения,и наоборот,сжимать интервалына относительноневыделенныхучастках. Крометого, на основевременной рамкизадается частотаосновного тона(или тональныйконтур). В утвердительныхпредложенияхобычно высотатона резкоподнимаетсяна первом ударномслоге, затемплавно снижаетсядо последнегоударного слога,где она резкопадает. Вопросительныеи повелительныепредложенияимеют различныетональныеконтуры. Кромецелостногоконтура предложениясуществуютеще локальныеударения. Большееударение получаютслова, выражающиеотрицание илисомнение ( например,слово might ), значениечастоты основноготона на нихвозрастает;новая информацияв предложениитакже большевыделяетсяударением. Сдругой стороны,высота тонаиспользуетсяв семантическихи эмоциональныхцелях, что неможет бытьвыведено изписьменноготекста. Необходимолишний разподчеркнутьважность составленияправильногопросодическогоконтура, т.к.неправильныйпросодическийконтур можетпривести ктрудностямв восприятии.

Синтезфонетическихсегментов.

Когдазавершеносозданиепросодическойрамки, создаютсяпараметры,соответствующиемодели речевоготракта. Обычнотаких параметров25, которые изменяютсяс интервалом5 - 10 мсек. В настоящеевремя используютсяоколо 100 контекстныхправил описаниятраекторииизмененияпараметров.Когда значенияпараметроввычислены, онидолжны бытьперенесенына соответствующуюмодель речевоготракта (обычноэто формантнаямодель илиLPC-модель). Выходнаядискретнаямодель создаетсяобычно на частоте10 Кгц.

7Оценкасинтетическойречи.

Сточки зренияпонятности,разборчивостикачествосинтезированнойречи достаточнохорошее. Былпроведен тест,где одна группаиспытуемыхпрослушиваласинтезированнуюречь с письменнымвариантом передглазами, а другая- без. Выяснилось,что результатыпрослушиваниямало отличаютсядруг от друга. Тем не менее,синтезированнойречи не хватаетживости иестественности,поэтому восприниматьее на протяжениидлительноговремени трудно.Исследованияпоказали, чтофрикативныеи назальныезвуки требуютдальнейшегоулучшениякачества.

Билет12

1. Типылингвистическихмоделей; основныетребованияк ним и критерииих оценки.

Типылингвистическихмоделей:

1. по охватуструктурыязыка:

·общие(глобальные)стремятсяохватить весьязык: (vocabulary, grammar)

·частные:фонетическаямодель русскогоязыка, модельсистемы гласных

2. по типологическомустатусу:

·универсальныестремятсяохватить всеязыки мира:

·специфическиехарактерныдля определенногоязыка или группыязыков: мягкость- твердостьсогласных рус.языка (не действуетв англ., франц.)

3.по гносеологическомустатусу:

·моделиязыка

·моделилингвистическихзнаний различныефонетическиешколы

·моделидеятельностилингвиста

4.по отраженномуаспекту языкаи речевойдеятельности:

Моделиразличаютсяне только понаправленностина определенныйобъект, но и поиспользуемымсредстваммоделирования(алгоритму илиисчислению)

Алгоритм -строгаяпоследовательностьпредписывающихправил

Исчисление- множестворазрешающихправил (порядоквыполненияне важен)

·анализирующиемодели моделируютпроцесс понимания,используютлогическоесредство алгоритм

·синтезирующиемодели моделируютпроцесс вербализации,смысла речевогоотрезка

·порождающиемодели авторХомский объектмоделирования- множествоправильныхречевых отрезковсоставляютсяправила различенияприемлемогои неприемлемого;логическийсредство - исчисление

; не служатвыражениемсмысла; на выходе- цепочки элементов(грамм. правильныхпредложений)

·собственноструктурныемодели основавсех остальныхобъект моделирования- структураязыка как таковая;логическийаппарат - логикаотношений иклассов. Пример:грамматическийсловарь Железняка

5.по конечнойцели исследования

·теоретические

·описательные

·прикладные

6.по используемымметодам

·математическиемодели

·психологическиемодели

·социологическиемодели

7.по функциональномустатусу

·абстрактнообобщающиемодели

·действующие

8.по используемымматериальнымсредствам

·графические

·символьные

·компьютерные

Частнаямодель обычновходит в наборчастных моделей,описывающийопределенныйуровень языка:

1.фонологическийуровень

2.морфологическийуровень

3.синтаксический

4.лексико-семантический

Основныетеоретическиетребованияк модели:

1.полнота модели- способностьотражать всефакты, на которыеона рассчитана,на охват которыхона претендует

2.простота -удобство,использованиякак можно меньшегочисла средств(символов, правил)для достиженияпоставленнойнаучной цели

3.объяснительнаясила - способностьмодели вскрыватьпричины наблюдаемыхфактов и предсказыватьновые факты(например. моделиисторическогоизмененияслова; системымашинногоперевода вочень малойстепени объяснительные)

4.адекватность- свойствомаксимальнойпохожести намоделируемыйобъект, на оригинал,можно свестик объяснительнойсиле илитеоретико-множественномусоответствию

5.экономность- экономичноеиспользованиеэнергетическихи временныхресурсов приприменениимодели

6.точность -возможностьвыполненияоперацийпредставляемыммоделью формальнымаппаратом

7.эстетическиесвойства -красота модели

Прикладныекритерий: главное- удобство модели. Для моделированияязыка оченьважны логическиесредства реализациимодели (компьютерноевоплощениемодели).

Синтаксическийанализ.При использованиисинтаксическогоанализа происходитинтерпретацияотдельныхчастей высказывания,а не всеговысказыванияв целом. Обычносначала производитсяполный синтаксическийанализ, а затемстроится внутреннепредставлениевведенноготекста, либопроизводитсяинтерпретация.

Деревьяанализа исвободно-контекстныеграмматики.Большинствоспособовсинтаксическогоанализа реализованов виде деревьев.Одна из простейшихразновидностей- свободно-контекстнаяграмматика,состоящая изправил типаS=NP+VPили VP=V+NPи полагающая,что левая частьправила можетбыть замененана правую безучета контекста.Свободно-контекстнаяграмматикашироко используетсяв машинныхязыках, и с еепомощью созданывысокоэффективныеметоды анализа.Недостатокэтого метода- отсутствиезапрета награмматическинеправильныефразы, где, например,подлежащеене согласованосо сказуемымв числе. Длярешения этойпроблемы необходимоналичие двухотдельных,параллельноработающихграмматик:одной - дляединственного,другой - длямножественногочисла. Крометого, необходимасвоя грамматикадля пассивныхпредложенийи т.д. Семантическинеправильноепредложениеможет породитьогромное количествовариантовразбора, изкоторых одинбудет превращенв семантическуюзапись. Всё этоделает количествоправил огромными, в свою очередь,свободно-контекстныеграмматикинепригоднымидля NLP.

Трансформационнаяграмматика.Трансформационнаяграмматикабыла созданас учетом упомянутыхвыше недостаткови более рациональногоиспользованияправил ЕЯ, нооказаласьнепригоднойдля NLP.ТрансформационнаяграмматикасоздаваласьХомским какпорождающая,что, следовательно,делало оченьзатруднительнымобратное действие,т.е. анализ.

Расширеннаясеть переходов.Расширеннаясеть переходовбыла разработанаБобровым (Bobrow),Фрейзером(Fraser)и во многомВудсом (Woods)как продолжениеидей синтаксическогоанализа исвободно-контекстныхграмматик вчастности. Онапредставляетсобой узлы инаправленныестрелки, “расширенные”(т.е. дополненные)рядом тестов(правил), наоснованиикоторых выбираетсяпуть для дальнейшегоанализа. Промежуточныерезультатызаписываютсяв ячейки (регистры).Ниже приводитсяпример такойсети, позволяющейанализироватьпростые предложениявсех типов(включая пассив),состоящие изподлежащего,сказуемогои прямого дополнения,таких, какTherabbit nibbles the carrot(Кролик грызетморковь).Обозначенияу стрелок означаютномер теста,а также либопризнаки, аналогичныеприменяемымв свободно-контекстныхграмматиках(NP),либо конкретныеслова (by).Тесты написанына языке LISPи представляютсобой правилатипа еслиусловие=истина,то присвоитьанализируемомуслову признакХи записать егов соответствующуюячейку.

Разберемалгоритм работысети на вышеприведенномпримере. Анализначинаетсяслева, т. е. спервого словав предложении.Словосочетаниеtherabbitпроходит тест,который выясняет,что оно не являетсявспомогательнымглаголом (Aux,стрелка 1), ноявляется именнойгруппой (NP,стрелка 2). Поэтомуtherabbitкладется вячейку Subj,и предложениеполучает признакTypeDeclarative,т.е. повествовательное,и система переходитко второмуузлу. Здесьдополнительныйтест не требуется,поскольку онотсутствуетв списке тестов,записанныхна LISP.Следовательно,слово, стоящеепосле therabbit- т. е. nibbles- глагол-сказуемое(обозначениеVна стрелке), иnibblesзаписываетсяв ячейку с именемV.Перечеркнутыйузел означает,что в нем анализпредложенияможет в принципезакончиться.Но в нашем примереимеется ещеи дополнениеthecarrot,так что анализпродолжаетсяпо стрелке 6(выбор междустрелками 5 и6 осуществляетсяснова с помощьюспециальноготеста), и словосочетаниеthecarrotкладется вячейку с именемObj.На этом анализзаканчивается(последний узелбыл бы использованв случае анализатакого пассивногопредложения,как Thecarrot was nibbled by the rabbit).Таким образом,в результатезаполненырегистры (ячейки)Subj,Type,Vи Obj,используякоторые, можнополучить какое-либопредставление(например, дерево).

Расширеннаясеть переходовимеет своинедостатки:

немодульность;
сложностьпри модификации,вызывающаянепредвиденныепобочные эффекты;
хрупкость(когда единственнаянеграмматичностьв предложенииделает невозможнымдальнейшийправильныйанализ);
неэффективностьпри переборес возвратами,т.к. ошибки напромежуточныхстадиях анализане сохраняются;
неэффективностьс точки зрениясмысла, когдас помощьюполученногосинтаксическогопредставленияоказываетсяневозможнымсоздать правильноесемантическоепредставление.

Билет13

1.Метаязыкиформальногоописаниясемантическихструктур.

Семантическиеметаязыкиразличаются:

пообъекту, которыйони описывают(морфема, лексема,словосочетание,предложение,текст в целом).

поаспекту языковойструктуры,который ониотражают:(парадигматическийаспект

синтагматическийаспект)

СходимостьМЯ - возможностьпереводитьс одного МЯ надругой.

Поописываемомуобъекту:

1.значение морфемМЯ

·МЯкомпонентногоанализа (Найда,Апресян, Катс)

·МЯпресуппазиционногоанализа(прототипическийанализ): есливысказываниеподвергнутьотрицанию, тоотрицаетсятолько имплицитновыраженнаячасть, то, чтоне отрицается- ассерция

2. значение лексемисследуется

в синтагматичсекомаспекте - сочетаемостьлексем:

·теориясемантическойвалентности,понятие моделиуправления(Апресян)

в парадигматическомаспекте:

·глубинныепадежи (агенс,интсрументалис...), падежнаярамка Филлмора

3.значениесловосочетанийисследуется

впарадигматическомаспекте припомощи тех жеМЯ описания,что и лексемы,

всинтагматическомплане:

·языклексическихпараметрови функций(Апресян), понятиелекс. параметрасвязано с понятиемустойчивойсочетаемостислов в словосочетании

4. значениепредложения

впарадигматическомаспекте:

·семантическаясеть (Скрэгг:"Семантическаясеть как модельпамяти")

·языкисчисленияпредикатов(Дж. Лакофф"Постулатыречевого общения", импликация,пресуппозиция,пропозиция,условия искренности.условия мотивированности)

5.значение текстав целом

впарадигматическомаспекте используютсятакие макроструктуры,как сценарии.фреймы, планы,сцены,

фрейм- базовая структурапредставлениязнаний

сценарийдинамический- набор фреймов,развертывающийсяво времени.

·семантическаясеть ()

Чейф: - теорияорганизациипамяти

три вида памяти:

поверхностная(surface)

кратковременная(shallow)

долговременная(deep)

иерархия событий-> иерархиясобытий различнойличностнойзначимости

личностнаязависимость

понятие текущегосознания(consciousness)

·языкконцептуальныхзависимостей(Шенк)

·языкшаблонов(templates, Уилкс:)

6.процессы

·понимания(Шенк)

·вербализации(Маккьюин)

Роджер Шенк:знания не могутбыть истолкованыв лингвистическихтерминах -> языкконцептуальныхзависимостей:P-Trans (физическоеперемещение),M-Trans (интеллектуальноеперемещение).

Шенком былапостулировананезависимостьязыковогопредставленияот ЕЯ, тем неменее язык КЗоказался привязанк поверхностномусинтаксисуанглийскогоязыка. Каждоевысказываниезапускаетцепочку концептуальныхвыводов (inferences),позволяющихправильнопонимать ситуацию(Мила была голодна,она взялапутеводительМитчелина).

Модель SAM (ScriptApplying Mechanism) являетсякомпьютернойпрограммой,которая позволяетпонимать связностьтекста за счетприменениясценариев:

·POLITICS(ведет диалог,моделируетполитическуюидеологию)

·PAM ->TALE-SPIN - порождениесказок

·FRUMP- машинноереферированиесообщений нанесколькихязыках, чтение, опирающеесяна понятиеинтереса (IntegralPartial Parser)

Категории,встречающиесяу Шенка:

·интерес

·объяснение

·память(организацияконцептуальнойпамяти)

·ожидание

·пониманиедвижимогоошибками

Уилкс, "Анализпредложенийанглийскогоязыка": вводитединую формупредставления- шаблон (template), интуитивнымсоответствиемкоторого можносчитать базиснуюформу представления"агенс - действие- объект. Шаблоныстроятся изболее мелкихблоков - формул,соответствующихтолкованиямотдельныхлексем. Длятого, чтобыпостроитьполное сем.представлениетекста (сем.блок), шаблоныобъединяютсяс помощью структурболее высокогоуровня - надшаблонов(paraplates) и правилвывода умозаключений;

·каждаяиз готовыхструктур построенана базе 80 атомарныхсем. элементов,а также функцийи предикатов,задаваемыхна этом множестве.

·системана LISPe, переводиттексты с англ.на фр.

·дляразрешениянеоднозначностииспользуетсяцепь умозаключений

·нетсинтаксическогоанализа в обычномпонимании,сразу переходитк сем. представлениям;не содержитв явном виденикакой синт.информации,только формула(Ф), которая имеетвид ДЗ; главнымсчитается самыйправый элементФ, который задаетфундаментальнуюкатегорию длявсей Ф.

·содержитглубинныепадежные элементы

·большаягибкость приописании смысла,чем у методаФодора и Катса,в которых нетглубинныхпадежных элементов

·шаблоныимеют вид сети,состоящей изФ

·шаблонсостоит из 3узлов: агенс,действие. объект.

2.Гипертекстовыесистемы

Гипертекст- это текст.смысловыеэлементы которогомогут читатьсяв разнойпоследовательности.

Последовательностьчтения - произвольная. Между текстовымифрагментамиуказаны разрешенныепереходы. Какправило, отодного фрагментаможно перейтик несколькимдругим. Читатьможно с любогоэлемента вразных направлениях.Компьютерыпозволяютмгновеннопереходитьот одного фрагментатекста к другому,что позволяетчитать нелинейныетак же легко,как линейные.

Гипертекст- компьютаризованныйнелинейныйтекст. Нельсони Энгельбартвпервые реализовалиГТ в конце 60 гг.

ОсобенностиГТ по сравнениюс традиционныминелинейнымитекстами (текстс комментариями,ссылками,энциклопедия):

1.явная выраженностьсетевой структуры:узлы (текстовыефрагменты) исвязи (возможностьперехода отодного ТФ кдругому -> навигация). Связь можетбыть однонаправленнойот фрагментак комментариюили двунаправленноймежду двумяфрагментами.Связь можетносить иерархическийхарактер - отобщего к целому.

Пользовательскийинтерфейс:

·переход- не более двухклавиш

·пользовательдолжен иметьсредстваориентации:При каждом узледается оглавление- локальнаяориентация.Глобальнаяориентация- наглядноеизображениеструктурыгипертекстовой сети, в которойпомечаетсяпуть, пройденныйпользователем

·многооконнаясистема позволяетвидеть одновременнонесколько ФТна экране.

2.открытостьгипертекста(для включенияновых ФТ, читательможет выступатьсоавтором)

ПримерГТ: изобразительнаяи звуковаясистема Гипермедиа(комплексноеиспользованиеинформацииразной природы,синтез разныхискусств)

ДинамическийГТ постояннодополняетсяновыми текстовымифрагментами(необходимонаходить связидля поступающихизвне ФТ)

ГТ- сама формаорганизацииматериала итехнология,без которойневозможнаего организация. Гт - накоплениеинформациив БД, доступ кданным - череззапросы. связьважна дляпользователя,поэтому в БДГТ системы нетзаранее установленныхсвязей. Выдачаинформации- воспроизведениефрагментовсетей, сформированныхк этому моментув БД. выдаютсяотд. узлы и участкисети в графическойформе вместес маршрутамидвижения. В ГТсети можнолегко отражатьидеи участниковпроекта, длядальнейшегоизучения ихв интерактивномрежиме сразунесколькимиучастниками.

4 видаГТС (обзор Конилина):

1.библиотечныемакросистемы(шире, чем поисклитературы)XANADU, Нельсонсистема храненияи актуализацииинформации),TEXTNET (принципдинамическогоупорядочения,перечень узлов)

2.средстваисследованияпроблем: IBIS,Риштель (аспекты,позиции, аргументы);; JOG (изучениесправочнойэнциклопедическойлитературы,выведениестраниц)

3. системыдля просмотраБД (подобныбиблиотечным.но меньше, служатдля получениясправочныхданных) Browsing Systems,WE среда нужнадля описаниясистемы просмотра,легкость доступа,добавлениеновой информациине разрешено

4. системыширокого назначения(экспериментированиев разл. направлениях):INTERMEDIA фирмы XEROX

Билет14

1.Автоматизацияанализа письменноготекста: основныеподходы к решениюпроблемы.

Существует2 основные стратегиирешения проблемы:

1.модульныйподход - последовательныйанализ по уровням(морфологический,синтаксический,семантический,прагматический)

2.интегральныйподход (болеесовременныйи более адекватный,Р. Шенк)

1. Системы модульноготипа (Леонтьева):

модуль морфологическогоанализа	->полноеморф. представление
модуль синтаксическогоанализа	->полноесинт.представление
модуль семантическогоанализа	->частичное(фрагментарное)представл.
прагматическийанализ (покане реализован)

Дляшироких ПОможет бытьиспользованв несколькихсистемах:

·СМП(SYSTRAN)

·системахизвлечениязнаний

·ИПС

2. Системы интегральноготипа

Концептуальныйанализ			->	фрагментарныеконцептуальныепредставления:
морф.анализ	синт.анализ	сем.анализ		сценарии,фреймы. планы.

·Ищетв тексте диагностическиеслова

·заполняетпустые слотыв сценарии

·делаетряд концептуальныхвыводов (inferences) осмысле текста(в результатечего способнаотвечать напоставленныевопросы посодержанию)

·наопределенныхэтапах подключаетпроцедуры

·нельзяполучить уровневоепредставление

·текстыузко ограниченнойтематики

Пример:интегральнаясистема анализаШенка:

1. MARGE(Memory Response Generation in English) - обработкаконцептуальнойинформации. В основе лежиттеория концептуальныхзависимостей- комплекснаятеория человеческогомышления.

Работаетв двух режимах:

·перефразирование(перевод входнойфразы на ЯКЗ)

·концептуальныйвывод

2. МодельSAM (Script Applying Mechanism) являетсякомпьютернойпрограммой,которая позволяетпонимать связностьтекста за счетприменениясценариев:

·POLITICS(ведет диалог,моделируетполитическуюидеологию)

·PAM ->TALE-SPIN - порождениесказок

2.Терминологическиебанки данных:структуры,функции, методыпостроения.

ТБД- автоматизированнаясистема инвентаризациии машинногопредставлениятерминологическойлексики и еесемантизациив системахмашинного ичеловеко-машинногоречевого общения.Это единаяслужба с удобнымдоступом, описывающаявсе сведенияо термине иликвидирующаянеравномерностьописаниятерминологии.

Научныезадачи:

·моделированиетерминологическойсистемы РЯ каксистемы подсистем

·построениеобщенаучныхи общетеоретическихтезаурусов

·исследованиерусской терминологии

Типы традиционногоиспользованияТБД:

·справочно-информационноеобслуживаниеспециалистовразличныхобластей знания

·обеспечениетрадиционногопереводанаучно-техническойлитературы

·обеспечениеАСОТ, включаясистемы машинногоперевода

·лингвистическоеобеспечениеавт. системинформации

·обеспечениеработ по упорядочениютерминологии

·подготовкаи изданиетерминологическихсловарей

·унификацияопределенныхтерминов

·подготовканаучных отчетово составе РЯ

Организационнаяструктура ТБД:

·терминологическиецентры

·службыпереводов(переводческаяфункция)

·службыстандартизации(нормативнаяфункция)

·университеты(исследовательскаяфункция)

·всероссийскиеорганы НТИ (поАСУ и ИПС)

Функциональнаяструктура ТБД:

1. Головной ТБД- справочно-поисковыйаппарат повидовым банкамданных:

·ведениекоммуникативногоформата данных

·организацияи руководствоработами попередаче данныхв ТБД

·обработкаи ввод данных

·обслуживаниепредприятий

2.СпециализированныеТБД (сбор, хранение, обработкаинформации),могут включатьсуществующиеТБД, словарно-терминологическиеслужбы НТИ:

отборпредставительногомассива источников

вводи обновлениетерминологическойинформациив БД

передачаинформациидругим СТБДи ГТБД

эксплуатацияСТБД в соответствиис конкретнымизадачами организации.

ТБДсостоит из рядамассивов, которыеназываютсяподфондами.

Подфонды- массивы терминов,которые создаютсяи хранятся вцентральноморгане МФРЯ(Машинный фондРЯ) на базе массивовпервичноготипа.

Подфонды:

специальныхи межотраслевыхтерминов,фигурирующихв отдельныхотраслях знанийи деятельности

общенаучныхи общетехническихтерминов

терминоэлементов(используютсяв несколькихтерминосистемах).

3.Примеры оформлениясложных документов(сноски, газетнаяверстка, колонтитулыи т. д) в MS Word 5.0.

Сноски:

1.курсор на местесимвола ссылкина сноску

2.Format, Footnote

3.в поле reference mark ввестиссылку на сноску(не более 28 символов)

4.enter

5.ввести текстсноски (до несколькихабзацев)

перемещениемежду сноскойи текстом: JumpFootnote

использованиеокна сносок:Esc W S F

переходиз окна в окно:F1

местоположениесносок:

·поумолчанию - натой же стр., гдессылка

·FormatDivision Layout: same page, end

Газетная верстка:

колонки:

1.Options: Show Layout Yes или Alt-F4

2.Esc Format Division Layout

колонтитулы:

1.курсор в началодокумента

2.ввести текст+ enter

3.курсор внутрьтекста иливыделить текст

4.Esc Format Running Head: Position:

Top Bottom NoneOdd Even First Alignment: left marginEdge-of-paper

5.enter

Быстрое созданиеколонтитулов:

1-3 - то же самое

4.верхний колонтитул:Ctrl+F2

нижний колонтитул:Alt+F2

На каждой страницеможет быть неболее двухколонтитулов:верхний и нижний

Выравниваниеколонтитулов:Format Paragraph или Alt C, Alt R.

Вывод номерастраницы/даты:

1.курсор в томесто колонтитула,где будет страница.

2.набрать page/date

3.F3

Билет 15

1. Когнитивнаялингвистика и ее основныеисследовательскиепрограммы.

Когнитивнаянаука

·некийраздел научногознания, центральноепонятие которогознание и репрезентация

·исследовательскаядисциплинаизучающаяустройствочеловеческогосознания, используяразличныеспособы репрезентациии компьютернуюметафору

·совокупностьсовременныхэмпирическихзнаний, направленныхна поиск ответовна давниеэпистимологическиевопросы, особенноо природе знания

Когнитивнаялингвистика- подход, которыйдопускает влигвитсикеприменениеметодов когнитивнойнауки.

Когнитивнаянаука изучаетустройствои функционированиеконцептуальныхструктур вчеловеческомсознании,обеспечивающееспецифическоедля человекавзаимодействиес другими людьмии окружающиммиром в целом.

КН возниклакак реакцияна господствопозитивистскихустановок(обезличеннаянаука, например,мат. логика -постулатысложнее самихвысказываний).В 60-70 гг. произошларевизия идейпозитивизмав пользу реализмаи учета человеческогофактора.

Началом КНможно считать11 сентября 1956,когда в г. Кембриджштата Масачусетсоткрылся семинарпо теории информации,где были зачитаныработа Ньюэллаи Саймона "LogicTheoretic", в которойисследовалисьпроцессы принятияадминистративныхрешений (впоследствиеэта работа былаудостоенаНобелевскойпремии по экономике).

Характерныечерты когнитивнойнауки:

·междисциплинарность(существуеткомплекс наук,которые называютсякогнитивными:когнитивнаялингвистика,когнитивнаяфилософия,когитология)

·использованиерепрезентациизнаний в качествецентральногопонятия

·использованиекомпьютернойметафоры (сначалааппаратнаяhardware компьютернаяметафора:человеческиймозг подобенкомпьютеру;затем программнаяsoftware компьютернаяметафора: всознании человекасуществуютструктурыподобные компьютернымпрограммам;одно из доказательств- наличие кратковременнойи долговременнойпамяти у человека;)

·обращениек когнитивнымструктурам(сценариям ифреймам)

·исследовательскийметод - вычислительныйэксперимент(термин ГербертаСаймона) - методинтроспекции,т.е. наблюдениянад языком.

·пониженныйинтерес к культурными социологическимаспектамфункционированиязнаний

Метанаучныеэлементы иценности (всясовокупностьпредставленийо предмете,которые в рамкахданной научнойконцепциисчитаютсяистинными ине могут бытьфальсифицированными(аксиомы)):

В основе КНлежит реалистическаятрадиция:человеческоемышление познаваемои к нему могутбыть примененыконкретныеисследовательскиеметоды. Этовоплощаетсяв понятии материальносимвольнаясистема. Онасостоит изсимволов -материальныхобразований,которые могутвыступать вкачестве выражений. Символьнаяструктура -набор процессовсоздания, модификациии операций свыражениями.

Предполагается,что существуетнекоторыйуровень анализа,на которомможно отвлечьсяот физическойприроды вещей,некоторыйуровень изученияпсихическихфункций человека,отличный отнейро-хирургического,- уровень концептуальныхрепрезентаций.Репрезентативныйуровень оперированиясимвольнымисистемами независит отматериальногоносителя информации.Он изучаетсяс других уровней.

Когнитивныеединицы:

·концепты

·пропозиции

·схемы(типа гештальдов)

·динамическиефреймы (сценарии)

Когнитивнаялингвистика- выяснениелингвистическойадекватностикогнитивныхпостроений.

Основныеисследовательскиепрограммы КН:

1. ПрограммаЧейфа - теорияорганизациипамяти

три вида памяти:

·поверхностная(surface)

·кратковременная(shallow)

·долговременная(deep)

·иерархиясобытий -> иерархиясобытий различнойличностнойзначимости

· личностнаязависимость

·понятиетекущего сознания(consciousness)

текущее сознание

восприятие

поверх. память

кратк. память

долговр. память

воображаемоесобытие

2. ПрограммаРоджера Шенкаи его учеников(Stanford, конец 60-нач.70 гг.): MARGE (Memory ResponseGeneration in English) - обработкаконцептуальнойинформации. В основе лежиттеория концептуальныхзависимостей- комплекснаятеория человеческогомышления.

Работает в двухрежимах

·перефразирование(перевод входнойфразы на ЯКЗ)

·концептуальныйвывод

Шенк утверждал,что знания немогут бытьистолкованыв лингвистическихтерминах иразработалязык концептуальныхзависимостей:P-Trans (физическоеперемещение),M-Trans (интеллектуальноеперемещение).

·POLITICS(ведет диалог,моделируетполитическуюидеологию)

·PAM ->TALE-SPIN - порождениесказок

ДостиженияШенка:

·процедурнаяадекватность

·демонстрацияроли знанийв процессепонимания ЕЯ

·построениеряда конкретныхкогнитивныхмоделей

·демонстрацияроли когнитивныхожиданий впонимании

Категории,встречающиесяу Шенка:

·интерес

·объяснение

·память(организацияконцептуальнойпамяти

·ожидание

·пониманиедвижимогоошибками

3. ПрограммаДжорджа Лакоффа:

·порождающаясемантика

·лингвистическиегештальды(целое - не естьсумма частей)

·теориясемантическогопрототипа(базисный уровень)

·теорияметафоры(неосознанныеи творческиекогнитивныепроцессы)

Эксперименциальнаялингвистика

1. Концептуализациядвух сортов:

·базовогоуровня (семантикапрототипов)

·образныесхемы (image schemas): контейнер,вместилище;путь; контакт;часть-целое

2. Когнитивныетворческиепроцессы:

·метафоризация

·метонимия

·схематизация

·категоризация

3. Когнитивныенетворческие(базовые) процессы

·фокусировка

·сканирование

·сдвигточки зрения

4. Теория ментальныхпространств

·пространствопрошлого

·пространствобудущего

·непосредственноедействие (?)

·вымышленнаяситуация

4. ПрограммаТальми оботношенииграмматикик мышлению

Грамматика- одна из когнитивныхсфер человека.

Цели:

·Изучениесемантико-постранственныхотношений

·Фигураи фон

·Изучениекаузативов(пить - поить)

Когнитивныекатегории:

1.измерение:

недискретность

пространство

материя

время

деятельность

дискретность

предметы

события

2.плексность(plexity):

униплексность

Он вздохнул

мультиплексность

Она вздыхала

3.граничныйстатус:

неограниченныесущности

вода

спать

ограниченныесущности

море

одеваться

4. расчлененность:

дискретныесущности

недискретныесущности

5. Степеньраспространения:

ограниченная

лестница

неограниченная

река

6. Модель дистрибуции

Категориядинамики силзадумана тальмикак обобщениеказуальности.

Билет2

1.Понятие репрезентациив науках о языкеи мышлениичеловека.

Понятиерепрезентациизнаний являетсяодним из центральныхв когнитивнойнауке вообще,и в когнитивнойлингвистикев частности.

1.Репрезентация- (общефилософскийсмысл) сущностьпроизвольнойприроды, выступающаяв познавательнойдеятельностичеловека вкачестве заместителянекоторойдругой сущности.

Человек творитмир артефактов:

материальные(орудия)

когнитивные(орудия мысли)

Репрезентация- когнитивныйартефакт.

2.Репрезентация- символьноевыражение наспециальномрепрезентационномязыке, выступающиев познавательнойдеятельностичеловека вкачестве заместителянекоторойсущности инойприроды. Напримермат. модели,любые теории.

3.Репрезентация- (в лингвистике)символьноевыражение наспециальномрепрезентационномязыке, рассматриваемоекак отличноеот непосредственноданной формыосуществлениянекоторогодругого символьногоже выражения,а также самаэта непосредственноданная форма,рассматриваемаяв ряде другихформ.

4.Репрезентация- некотораягипотетическаяментальнаяструктура,замещающаяту или инуюсущность извнешнего мира.

Предполагается,что существуетнекоторыйуровень анализа,на которомможно отвлечьсяот физическойприроды вещей,некоторыйуровень изученияпсихическихфункций человека,отличный отнейро-хирургического,- уровень концептуальныхрепрезентаций.На этом уровнемоделируютсякогнитивныепроцессы(символьно/наЭВМ).

Типологиярепрезентаций:

1.представлениезнаний (концептуальныерепрезентации)vs представлениеязыковых структур(фонологические,синтаксич.,семантическиерепрезентации)

Репрезентацияязыковых структур- представлениевысказывания,предложения,текста (требованиелингвистическойрелевантности). Понимание->анализ -> сем.репрезентация.Компонентыязыковой структуры- компонентыязыка, а концептуальныерепрезентацииими не являются.

2. сентенциональные

идеограмматические

(логические)

построеныпо законамЕЯ:

языкисчисленияпредикатов

(аналоговыерепрезентации,)

хранятсяв виде образав человеческоммозге

Иногдасюда включаютеще и списочныепредставления(таблицы, БД)

3. декларативные(знания "что")

процедурные(знания "как")

экономныйспособ (указаниена факты)

(структурированиепредметнойобласти)

точныйспособ (указаниена действие)

4.формализованные vs неформализованные

5. внешние vs внутрисистемные

6. логические

эвристические

представлениязнаний

исчислениепредикатов

сетевые.фреймовые,продукционные

Понятиерепрезентациитакже активноиспользуетсяв порождающейсемантике. Так, например,семантическаярепрезентацияречевого отрезкаинтерпретируетсякак его записьна каком-либосемантическомметаязыке.

2.Операционныесистемы какосновной видпрограммногообеспечениядля ПЭВМ. Операционнаясистема MS-DOS, основныегруппы команд.

Операционнаясистема - этопрограмма,которая загружается при включениикомпьютера.Она производитдиалог с пользователем,осуществляетуправлениекомпьютером,его ресурсами(оперативнойпамятью, местомна диске и т.д.),запускаетдругие (прикладные)программы навыполнение.ОС обеспечиваетпользователюи прикладнымпрограммамудобный способобщения (интерфейсс устройствамикомпьютера.

ФункцииОС:

·управлениепамятью

·управлениевводом-выводом

·управлениефайловой системой

·управлениевзаимодействиемпроцессов

·диспетчеризацияпроцессов

·защитаи учет использованияресурсов

·обработкакомандногоязыка

MS-DOS(Microsoft):

·PC-DOS (IBM,вариант MS-DOS), DR-DOS(Digital Research, совместимас MS-DOS);

·OS-2 (длямашин IBM PS-2 series), UNIX, MacintoshOS, MAINFRAMES (?).

Версии1.0 (1981) - 6.0 (1992: памятьcache, disk defragmentation utility for speed disk data access,optional dynamic file compression, that can double disk storagespace, automatically loads itself into upper and high memory leavingmore conventional memory free).

МодульнаяструктураMS-DOS:

1.BIOS

2.Boot Record

3.IBMBIO.com

4.IBMDOS.com

5.Command.com

6.Utilities

Списоквнутреннихкоманд ( недоступныдля просмотра,выполняютсяCOMMAND.COM):

break

cls

copy

CTTY

date

del

dir

erase

mkdir

path

prompt

rename

rmdir

set

time

type

ver

verify

vol

exit

Остальныекоманды - внешние. Они располагаютсяв каталоге DOSи являютсясамостоятельнымипрограммами(tree, label, diskcopy, diskcomp, chkdsk и т.д.) .

Основныегруппы командMS-DOS:

1.Команды работыс каталогами(10):

dir

append

join

subst

path

tree

xcopy

2.Команды работыс файлами (21):

2.1исходные:

copy

type

del

rename

erase

comp

2.2команды-фильтры:

find

sort

more

2.3

attrib

append

path

join

subst

restore

backup

print

fastopen

FC(аналог compare)

recover

share

3.Команды работыс дисками (14):

3.1основные

format

label

chkdsk

diskcopy

diskcomp

sys

vol

3.2команды начальнойработы с диском

fdisk

select

assing

backup

restore

fastopen

recover

4.Команды управленияресурсамиПЭВМ:

(настройкакомпьютерана пользователя):

ver

date

time

assign

cls

graphics

prompt

break

set

keyb

nlsfunc

fastopen

print

chcp

command

CTTY

mode

verify

graphtable

СЕМАНТИЧЕСКИЕСЕТИ.

Семантическаясеть - структурадля представлениязнаний в видеузлов, соединенныхдугами. Самыепервые семантическиесети были разработаныв качествеязыка-посредникадля системмашинногоперевода, амногие современныеверсии до сихпор сходны посвоим характеристикамс естественнымязыком. Однакопоследниеверсии семантическихсетей сталиболее мощнымии гибкими исоставляютконкуренциюфреймовымсистемам, логическомупрограммированиюи другим языкампредставления.

Начинаяс конца 50-ых годовбыли созданои применены на практикедесятки вариантовсемантическихсетей. Несмотряна то, что терминологияи их структураразличаются,существуютсходства, присущиепрактическивсем семантическимсетям:

1. узлысемантическихсетей представляютсобой концептыпредметов,событий, состояний;

2. различныеузлы одногоконцепта относятсяк различнымзначениям, еслиони не помечено,что они относятсяк одному концепту;

3. дугисемантическихсетей создаютотношения междуузлами-концептами(пометки наддугами указываютна тип отношения);

4. некоторыеотношения междуконцептамипредставляютсобой лингвистическиепадежи, такиекак агент, объект,реципиент иинструмент(другие означаютвременные,пространственные,логическиеотношения иотношения междуотдельнымипредложениями;

5. концептыорганизованыпо уровням всоответствиисо степеньюобобщенноститак как, например, сущность, живоесущество, животное,плотоядное,;

Однакосуществуюти различия:понятие значенияс точки зренияфилософии;методы представлениякванторовобщности исуществованияи логическихоператоров;способы манипулированиясетями и правилавывода, терминология.Все это варьируетсяот автора кавтору. Несмотряне некоторыеразличия, сетиудобны длячтения и обработкикомпьютером,а также достаточномощны, чтобыпредставитьсемантикуестественногоязыка.

ИСТОРИЧЕСКАЯСПРАВКА.

Фрегпредставиллогическиеформулы в видедеревьев, которыеоднако малонапоминаютсовременныесемантическиесети. Еще однимпионером сталЧарльз СандерзПрис, которыйиспользовалграфическиезаписи в органическойхимии.

Он сформулировалправила выводыс использованиемэкзистенциональныхграфов.

В психологииЗельц использовалграфы дляпредставлениянаследственностинекоторыххарактеристикв иерархииконцептов.Научные изысканияЗельца имелиогромное влияниена изучениетактики в шахматах,который в своюочередь повлиялна таких теоретиков,как Саймон иНьюэлл.

Чтокасается лингвистики,то первым ученым,занимавшимсяразработкойграфическихописаний, сталТеньер. Ониспользовалграфическуюзапись длясвоей грамматикизависимостей.Теньер оказалогромное влияниена развитиелингвистикив Европе.

Впервыесемантическиесети былииспользованыв системахмашинногоперевода вконце 50-х - начале60-х годов. Перваятакая система,которую создалаМастерман,включала в себя100 примитивныхконцептовтаких, как, например,НАРОД, ВЕЩЬ,ДЕЛАТЬ, БЫТЬ.С помощью этихконцептов онаописала словарьобъемом 15000 единиц,в котором такжеимелся механизмпереносахарактеристикс гипертипана подтип. Некоторыесистемы машинногоперевода базировалисьна корреляционныхсетях Цеккато,которые представлялисобой набор56 различныхотношений,некоторые изкоторых - падежныеотношения,отношенияподтипа, члена,части и целого. Он использовалсети, состоящиеиз концептови отношенийдля руководствадействиямипарсера и разрешениянеоднозначностей.

В системахискусственногоинтеллектасемантическиесети используютсядля ответа наразличныевопросы, изучениепроцессовобучения, запоминанияи рассуждений.В конце 70-х сетиполучили широкоераспространение.В 80-х годах границымежду сетями,фреймовымиструктурамии линейнымиформами записипостепенностирались.Выразительнаясила большене являетсярешающим аргументомв пользу выборасетей или линейныхформ записи,поскольку идеизаписанныес помощью однойформы записимогут бытьлегко переведеныв другую. И наоборот,особо важноезначение получиливторостепенныефакторы, какчитаемость,эффективность,неискусственностьи теоретическаяэлегантность,также учитываютсялегкость введенияв компьютер,редактированиеи распечатка.

РЕЛЯЦИОННЫЕГРАФЫ.

Самыепростые сети,которые используютсяв системахискусственногоинтеллекта,- реляционныеграфы. Они состоятиз узлов, соединенныхдугами. Каждыйузел представляетсобой понятие,а каждая дуга- отношениямежду различнымипонятиями. Нарисунке 1 представленопредложение“Собака жадногложет кость”. Четыре прямоугольникапредставляютпонятия собаки,процесса гложения,кости и такойхарактеристики,как жадность.Надписи наддугами означают,что собакаявляется агентовгложения, костьявляется объектомгложения, ажадность - этоманера гложения.

Терминология,использующаясяв этой областиразлична. Чтобыдобиться некоторойоднородности,узлы, соединенныедугами, принятоназывать графами,а структуру,где имеетсяцелое гнездоиз узлов илигде существуютотношенияразличногопорядка междуграфами, называетсясетью. Помимотерминологии,использующейсядля пояснения,также различаютсяспособы изображения.Некоторыеиспользуюткружки вместопрямоугольников;некоторые пишуттипы отношенийпрямо над дугами,не заключаяих в овалы; некоторыеиспользуютаббревиатуры,например О илиА для обозначенияагента илиобъекта; некоторыеиспользуютразличные типыстрелок. Нарисунке 2 изображенграф концептуальныхзависимостейШенка. означаетагента. INGEST (поглощать)- один из примитивовШенка: ЕСТЬ -ПОГЛОЩАТЬтвердый объект;ПИТЬ - ПОГЛОЩАТЬжидкий объект;ДЫШАТЬ - ПОГЛОЩАТЬгазообразныйобъект. Дополнительнаястекла слевапоказывает,что кость переходиз неуказанногоместа к собаке.

Посколькудовольно сложноввести в компьютернекоторыедиаграммы ипри этом онизанимают многоместа при печати,многие ученыезаписываютсвои графы вболее компактномварианте. Например,то же предложениеСова предложилзаписать влинейном видес использованиемнекоторыхэлементов изрисунка 1:

[ЕСТЬ]-

(AGNT) ->[СОБАКА]

(OBJ) ->[КОСТЬ]

(MANR) ->[ЖАДНОСТЬ]

В этомварианте записиквадратныескобки обозначаютпонятия, а круглыескобки содержатв себе названияотношений. Вселинейные формызаписи оченьпохожи на фреймовыеструктуры.

ГРАФЫС ЦЕНТРОМ ВГЛАГОЛЕ.

Глаголысоединяютсяс группойсуществительногос использованиемпадежных отношений.Например, спредложении“Mary gave a book to Fred”, Mary агентдавания, book объектэтого процесса,а Fred реципиентглагола “давать”.Помимо падежныхотношений впредложениив естественномязыке такжеимеются средствадля связи отдельныхпредложений.Такие отношениянеобходимыдля следующего:

Союзы.Самый простойспособ соединитьпредложения- это поставитьмежду нимисоюз. Некоторыесоюзы, как например“и”, “или”, “если”обозначаютлогическуюсвязь; некоторые,такие как “послетого, как”, “когда”,“пока”, “с техпор, как” и “потомучто”, выражаютвременныеотношения ипричину.

Глаголы,требующиеподчиненноепредложение.Падежные фреймымногих глаголовтребуют подчиненногопредложения,являющегосяобычно прямымдополнением.К такому типуотносятсяглаголы “говорить”,“считать”,“думать”, “знать”,“быть убежденным”,“угрожать”,“пытаться”и др.

Определители,относящиесяк целому предложению.Многие наречияи пропозиционныефразы относятсятолько к глаголу,но некоторыеопределяютцелое предложение.Такие наречия,как “обычно”,“вероятно”,в большинствеслучаев ставятсяв начале предложения.А например,слово “однажды”определяетвесь рассказ,следующий посленего.

Модальныеглаголы и времена.Такие глаголы,как “may”, “can”, “must”,“should”, “would” и “could”имеют модальноезначение иотносятся ковсему предложению,где они встречаются.Временноеотношение можетбыть выраженокак формойпрошедшеговремени глаголов,так и обстоятельствами“сейчас”, “завтра”или “однажды”и другими.

Связанныйдискурс. Помимоотношений,выраженныхв одном предложении,существуюттакже отношенияболее высокогопорядка междуотдельнымипредложениямирассказа иликакого-либодругого повествования.Многие из нихне выраженыэксплицитно:временныеотношения иследованиеаргументовможет быть,например, имплицитновыражено порядкомследованияпредложениядруг за другомв тексте.

Именнопотому, чтоглагол отводитсятакая важнаяроль в предложении,многие теорияделают егосвоим центральнымсвязующимзвеном. Этотподход беретсвое началоиз Индо-Европейскойязыковой семьи,где модальностьи временныеотношениявыражаютсяизменениемглагольнойформы. Рассмотримследующийпример: “While a dog waseating a bone, a cat passed by unnoticed”. В этомпредложениисообщено, что,когда предложение“While a dog was eating a bone” являлосьистинным, второепредложение“A cat passed unnoticed” такжеявляется истинным.На рисунке 3изображен графс центром вглаголе. Союз“while” (WHL) соединяетузел PASS-BY с узломEAT. На рисунке3 показано, чтособака являетсяагентом незамечания(not noticing).

Графыс центром вглаголе - этореляционныеграфы, где глаголсчитаетсяцентральнымзвеном любогопредложения.Маркеры времении отношенияпишутся пряморядом с концептами,которые представляютглаголы. ГрафыконцептуальныхзависимостейРоджера Шенкатакже используютэтот подход.

Несмотряна то, что графыс центром вглаголе довольногибкие по своейструктуре, ониобладают рядомограничений.Одно из нихзаключаетсяв том, что онине проводятразграничениемежду определителями,которые относятсятолько к глаголу,и определителями,относящимисяк предложениюцеликом. Рассмотрим следующиепримеры:

The dog greedily ate thebone.

Greedily, the dog ate thebone.

Эти графытакже плохосправляютсяс предложениями,находящимисявнутри другихпредложений.

При работес реляционнымиграфами возникаютпроблемы спередачей всегомногообразиявременныхотношений иотношениймодальности.Несмотря нато, что многиеучение используютэти графы длярешения сложныхпроблем, онитак до сих пори не разработалиобщего методадля их разрешения.В выше приведенномпримере пометкаPAST должна относитсяко всему предложению,которое говорито том, что собакаест кость, а нетолько к глаголуEAT, посколькуочевидно, чтокость позжебыла съеденасобакой целиком.Также должнобыть указано,что процесспрохождениякошки и процессне замечанияее собакойпроисходилив одно и то жевремя.

ПРОПОЗИЦИОННЫЕСЕТИ.

В пропозиционныхсетях узлыпредставляютцелые предложения.Эти узлы являютсяточками соприкосновениядля отношениймежду отдельнымипредложениямисвязанноготекста. С другойстороны ониопределяютвремя и модальностьдля всего контекста. Представленныениже примерыиллюстрируютотношения, длязаписи которыхнеобходимыпропозиционныеузлы:

Sue thinks that Bob believesthat a dog is eating a bone.

If a dog is eating a bone, itis unwise to try to take it away from him.

В первомпредложениидля глаголов“think” и “believe” целоепредложениеявляется дополнением:Боб считает,что “А dog is eating a bone”, то,что думает Сьюпредставляетсобой болеесложное предложение-“Bobbelieves that a dog is eating a bone”. Такоегнездованиепредложенийвнутри другихпредложенийможет повторятсясколь угоднобольшое количествораз. Чтобы изобразитьтакое предложение,необходимоиспользоватьпропозиционныеузлы, которыесодержат гнездящиесяграфы. На рисунке4 изображенапропозиционнаясеть для этогопредложения.Отметим, что(EXP) - experiencer, то есть тоткто испытывает,соединяет THINKс Сью, а BELIEVE с Бобом,однако EAT и DOG соединенымежду собойагентивнымотношением(AGNT). Причинойразного типаотношенийявляется тотфакт, что думатьи считать-этосостояния,испытываемыелюдьми, а поедание-этодействиеосуществляемоеагентом.

Во второмпримере представленыдва предложения,находящиесяв отношенииусловия. Антецедентомявляется предложение“А dog is eating a bone”, а консеквентомпредложение“It is unwise to try to take it away from him”.Инфинитивы“to try” и “to take” указываютна другие,гнездящиесяпредложения.На гнездящиесяпредложениятакже указываетоборот “it is unwise”.Для этого предложениятакже необходимоуказать соответствиемежду “it”, “him”и “bone” и “dog”. Связисоответствияобозначеныпунктиром. Дляформальнойзаписи этогопредложениятакже используютсякванторы общностии существованияи некоторыеэлементы логики.

Всереляционныеграфы и графыс центром вглаголе имеютмного общего. Однако срединих существуюттакже и отличия:

1. Включениеконтекста иливсего лишь егоусловное обозначениес отсылкой насхеме.

2. Строгоегнездование:один и тот жеконцепт можетили не можетвстречатьсяв двух разныхконтекстах,ни один из которыхне гнездитьсяв другом.

3. Указаниесвязей соответствия.При перекрещивающемсяконтексте, тоесть когда ониодин и тот жеконцепт встречаетсяв двух разныхконтекстах,эти связи неуказываются.

Однакоэто всего лишьстилистическиерасхождения,которые невлияют существеннона логику построения.

ИЕРАРХИЯТИПОВ.

Иерархиятипов и подтиповявляется стандартнойхарактеристикойсемантическихсетей. Иерархияможет включатьсущности:ТАКСА

Символ

Термин“иерархия”обычно обозначаетчастичноеупорядочение,где одни типыявляются болееобщими, чемдругие. Упорядочениеявляется частичным,потому, чтомногие типыпросто не подлежатсравнению междусобой. СравнимHOUSE

Ацикличныйграф. Любоечастичноеупорядочениеможет бытьизображено,как граф безциклов. Такойграф имеетветви, которыерасходятсяи сходятсявместе опять,что позволяетнекоторым узламиметь несколькоузлов-родителей.Иногда такойтип графа называютпутанным.

Деревья.Самым распространеннымвидом иерархииявляется графс одной вершиной.В такого родаграфах налагаютсяограниченияна ацикличныеграфы: вершинаграфа представляетсобой одинобщий тип, икаждый другойтип Х имеетлишь одногородителя У.

Решетка.В отличие отдеревьев узлыв решетке могутиметь несколькоузлов родителей.Однако здесьналагаютсядругие ограничения:любая паратипов Х и У какминимум должнаиметь общийгипертип ХиУи подтип ХилиУ.Вследствиеэтого ограничениярешетка выглядит,как дерево,имеющее поглавной вершинес каждого конца.Вместо всегоодной вершинырешетка имеетодну вершину,которая являетсягипертипомвсех категорий,и другую вершину,которая являетсяподтипом всехтипов.

НАСЛЕДОВАНИЕ.

Основнымсвойствомиерархии являетсявозможностьнаследованияподтипамикачеств гипертипов:все характеристики,которые присущиЖИВОТНОМУ,также присущиМЛЕКОПИТАЮЩЕМУСЯ,РЫБЕ и ПТИЦЕ.В основе теориинаследованиялежит теориясиллогизмовАристотеля:Если А - характеристикаВ, а В - х-ка С, тоА хар-ка всехС.

Преимуществаиерархии инаследования:

Иерархиятипов являетсяотличной структуройдля индексированиябазы знанийи ее эффективнойорганизации.

Следованиепо какой-либоветви с помощьюиерархии осуществляетсягораздо быстрее.

СИНТАКСИЧЕСКИЙАНАЛИЗ ЯЗЫКАИ ЕГО ПОРОЖДЕНИЕ.

Семантическиесети могутпомочь парсеруразрешитьсемантическуюнеоднозначность.Без такого родапредставлениявся тяжестьанализ языкападает насинтаксическиеправила исемантическиетесты. Структураже семантическойсети ясно показывает,как отдельныеконцепты соединенымежду собой.Когда парсервстречаеткакую-либонеоднозначность,он может использоватьсемантическуюсеть для того,чтобы выбратьтот или инойвариант. Приработе с семантическимисетями используетсянесколькотехник парсинга.

Парсинг,в основе котороголежит синтаксис.Работа парсераконтролируется грамматикойнепосредственныхсоставляющихи операторамипостроенияструктур и ихтестирования.В то время, какданные на входеанализируются,операторыпостроенияструктур создаютсемантическуюсеть, а операторытестированияпроверяютограниченияна частичнопостроеннойсети. Если никакиеограниченияне найдены, тоиспользуемоепри этом грамматическоеправило отвергаетсяи парсер проверяетдругую возможность.Это самыйраспространенныйподход.

Синтаксическийанализатор с использованиемсемантики. Синтаксическийанализаторс использованиемсемантикиоперирует такжекак и парсер,в основе котороголежит синтаксис.Однако он оперируетне с синтаксическимикатегориямитипа группаподлежащегои группа сказуемого,а с концептамивысокого уровнятипа КОРАБЛЬи ПЕРЕВОЗИТЬ.

Концептуальныйпарсинг. Семантическаясеть предсказываетвозможныеограничения,которые могутвстретитсяв отношенияхмежду словами,а также прогнозироватьслова, которыепозже могутвстретитьсяв предложении.Например, глаголдавать требуетодушевленногоагента и а такжепрогнозируетвозможностьреципиентаи объекта, которыйбудет дан. Шенкбыл одним изсамых активныхсторонниковконцептуальногопарсинга.

Парсинг,основанныйна экспертизеслов. Вследствиесуществованиябольшого количестванеправильныхобразованийв естественномязыке, многиелюди вместотого, чтобыобращатьсяк каким-либоуниверсальнымобобщениям,используютспециальныесловари, представляющихсобой совокупностьнекоторыхнезависимыхпроцедур, которыеназываютсяэкспертамислов. Анализпредложениярассматриваетсякак процесс,осуществляемыйсовместноразличнымисловарнымиэкспертами.Главным сторонникомэтого подходабыл Смол.

Аргументыза и противразличныхтехник парсингачасто основывалсяне на конкретныеданные, а большена уже устоявшемсямнении. И лишьодин проект на практикесравнил нескольковидов парсинга- это Язык СемантическихРепрезентаций,проект разработанныйв УниверситетеБерлина. В течениенесколькихлет они создаличетыре разныхвида парсеров для анализанемецкого языкаи его записина Язык СемантическихРепрезентаций,который представляетсобой сеть.

Первымпарсером былпарсер, созданныйпо подобиюконцептуальногопарсера Шенка.Было отмечено,что хотя добавлениев его лексиконновых слов былодовольно легко,анализ однакомог проводитьсятолько на простыхпредложенияхи только относительныхпридаточных.Расширитьобласть синтаксическойобработки этогопарсера оказалосьсложной задачей.

Второйпарсер был семантическиориентированныерасширенныесети перехода.В нем было легчеобобщить синтаксис,однако аппаратсинтаксисаработал медленнее,чем у первогорассмотренногопарсера.

Затемработа веласьс парсеромсловарныхэкспертов.Здесь легковелась обработкаособых случаев,однако разбросанностьграмматикимежду отдельнымисоставляющимиделала практическиневозможнымее общее понимание,поддержку имодифицирование.

Парсер,который былсоздан относительнонедавно, - этосинтаксическиориентированныйпарсер, основанныйна общей грамматикефразовой структуры.Он наиболеесистематичени обобщен иотносительнобыстр.

Этирезультатыв принципесоответствуютмнению другихлингвистов:синтаксическиориентированныепарсеры наиболеецелостны, однакодля них необходимопределенныйнабор сетевыхоператоровдля плавноговзаимодействия между грамматикойи семантическимисетями.

Порождениеязыка по семантическойсети представляетсобой обратныйпарсинг. Вместосинтаксическогоанализа некоторйцепочки с цельюпорождениясети генераторязыка производитпарсинг сетидля получениянекоторойцепочки. Существуетдва вариантапорожденияязыка из семантическойсети.

1. Генераторязыка простоследует посети, превращаяконцепты вслова, а отношения,указанные рядомс дугами, в отношенияестественногоязыка. Этотметод имеетмного ограничений.

2. Подходы,ориентированныена синтаксисконтролируютпорождениеязыка с помощьюграмматическихправил, которыеиспользуютсеть для того,чтобы определить,какое следующееправило нужноприменить.

Однакона практикеоба методаимеют многосходств: например,первый способпредставляетсобой последовательностьузлов, которыеобрабатываютсягенераторомязыка, ориентированнымна синтаксис.

ОБУЧЕНИЕМАШИН.

Графыи сети представляютсобой простыепонятия дляпрограмм, которыеизучают новыеструктуры. Ихпреимуществопри обучениизаключаетсяв легкостидобавленияи удаления, атакже сравнениядуг и узлов.Ниже представленыпрограммы,которые дляобучения использовалисемантическиесети.

Винстониспользовалреляционныеграфы для описаниятаких структур,как арки и башни.Машине предлагалисьпримеры верногои неверного описания этихструктур, апрограммасоздавалаграфы, которыеуказывали всенеобходимыеусловия длятого, чтобы этаструктура былаименно аркойили башней.

Салветериспользовалграфы с центромв глаголе дляпредставленияпадежных отношений,которые требуютразличныеглаголы. Егопрограмма MORANдля каждогоглагола выведетпадежный фрейм,сравнивая однии те же ситуациидо и после ихописания сиспользованиемэтого глагола.

Шенкразработал теорию Memory-OrganizationPackets для объяснения того, как людиузнают новуюинформациюиз конкретныхжизненныхситуаций. Приэтом MOP-это этообобщеннаяабстрактнаяструктура,которая неимеют отношенияни к одной конкретнойситуации вотдельности.

ПРИМЕНИЕНА ПРАКТИКЕ.

Семантическиесети могут бытьзаписаны практическина любом языкепрограммированияна любой машине.Самые популярныев этом отношенииязыки LISP и PROLOG. Однакомногие версиибыли созданыи на FORTRANе, PASCALе, C идругих языкахпрограммирования.Для хранениявсех узлов идуг необходимабольшая память,хотя первыесистемы быливыполнены в60-х годах намашинах, которыебыли гораздоменьше и медленнеесовременныхкомпьютеров.

Одиниз самых распространенныхязыков, разработанныхдля записиестественногоязыка в видесетей, - это PLNLP(Programming Language for Natural Language Processing) ЯзыкПрограммированиядля ОбработкиЕстественногоЯзыка, созданныйХайдерном. Этотязык используетсядля работы сбольшими грамматикамис обширнымпокрытием.PLNLP работает сдвумя видамиправил:

1. с помощьюправил декодированияпроизводитсясинтаксическийанализ линейнойязыковой цепочкии строитсясеть.

2. с помощьюправил кодированиясканируетсясеть порождаетсяязыковая цепочкаили другаятрансформированнаясеть.

Помимоспециальныхязыков длясемантическихсетей былотакже разработаноспециальноеаппаратноеобеспечение.На обычныхкомпьютерахмогут бытьуспешно выполненыоперации сязыками синтаксическогоанализа и операциисканированиясетей. Однакодля большихбаз знанийнахождениенужных правилили доступ кпредзнаниямможет потребоватьсяочень многовремени. Чтобыпозволитьразличнымпроцессампоисках проходитьодновременноФальман разработалсистему NETL, котораяпредставляетсобой семантическуюсеть, котораяможет использоватьсяс параллельнымаппаратнымобеспечением.Таким образомон хотел создатьмодель человеческогомозга, в которомсигналы могутдвигаться поразличнымканалам одновременно.Другие ученыеразработалипараллельноепрограммноеобеспечениедля поисканаиболее вероятнойинтерпретациидвусмысленныхфраз естественногоязыка.

Теорияфреймов

-это парадигма дляпредставлениязнаний с цельюиспользованияэтих знанийкомпьютером.Впервые былапредставленаМинским как попытка построитьфреймовую сеть,или парадигмус целью достижениябольшего эффектапонимания .С одной стороныМинский пыталсясконструироватьбазу данных,содержащуюэнциклопедическиезнания ,но с другойстороны ,он хотел создатьнаиболее описывающуюбазу ,содержащуюинформациюв структурированнойи упорядоченнойформе .Эта структурапозволила быкомпьютеру вводить информациюв более гибкойформе ,имея доступк тому разделу,который требуетсяв данный момент.Минский разработалтакую схему ,вкоторой информациясодержитсяв специальныхячейках ,называемыхфреймами ,объединеннымив сеть ,называемуюсистемой фреймов.Новый фреймактивизируетсяс наступлениемновой ситуации.Отличительнойего чертойявляется то,что он одновременносодержит большойобъем знанийи в то же времяявляется достаточногибким для того,чтобы бытьиспользованнымкак отдельныйэлемент БД .Термин «фрейм»былнаиболее популяренв серединесемидесятыхгодов ,когда существоваломного его толкований,отличных отинтерпретацииМинского.

Чтобылучше понятьэту теорию ,рассмотримодин из примеровМинского ,основанныйна связи междуожиданием ,ощущением ичувством человека,когда он открываетдверь и входитв комнату .Предположим,что вы собираетесьоткрыть дверьи зайти в комнатунезнакомоговам дома .Находясь в доме,перед тем какоткрыть дверь, у вас имеютсяопределенныепредставленияо том ,что вы увидите,войдя в комнату. Например ,если вы увидитек-л пейзаж илиморской берег,поначалу выс трудом узнаетеих .Затем вы будетеудивлены ,и в конце концовдезориентированы,таккак вы не сможетеобъяснитьпоступившуюинформациюи связать еес теми представлениями,которые у васимелись до того .Также у васвозникнутзатрудненияс тем ,чтобы предсказатьдальнейшийход событий.С аналитическойточки зренияэто можно объяснитькак активизациюфрейма комнатыв момент открываниядвери и еговедущую рольв интерпретациипоступающейинформации.Если бы вы увиделиза дверью кровать,то фрейм комнатыприобрел быболее узкуюформу и превратилсябы во фрей кровати.Другими словами,вы бы имелидоступ к наиболееспецифичномуфрейму из всехдоступных.Возможно,бчто вы используетеинформацию,содержащуюсяв вашем фреймекомнаты длятого чтобы распознатьмебель ,что называетсяпроцессомсверху-вниз, илив контекстетеории фреймовфреймодвижущимраспознаванием.Если бы вы увиделипожарный гидрант,то ваши ощущениябыли бы аналогичныпервому случаю.Психологиподметили ,что распознаваниеобъектов легчепроходит вобычном контексте,чем в нестандартнойобстановке.Из этого примерамы видим ,что фрейм - этомодель знаний,которая активизируетсяв определеннойситуации ислужит для ееобъясненияи предсказания. У Минскогоимелись достаточнорасплывчатыеидеи о самойструктуре такойБД ,которая моглабы выполнятьподобные вещи.Он предложилсистему ,состоящую изсвязанных междусобой фреймов,многие из которыхсостоят изодинаковыхподкомпонентов,объединенныхв сеть .Таким образом,вслучае ,когда к-л входитв дом ,его ожиданияконтролируютсяоперациями,входящими всеть системыфреймов .В рассмотренномвыше случаемы имеем делос фреймовойсистемой длядома ,и с подсистемамидля двери икомнаты .Активизированныефреймы с дополнительнойинформациейв БД о том ,что вы открываетедверь ,будут служитьпереходом отактивизированногофрейма дверик фрейму комнаты.При этом фреймыдвери и комнатыбудут иметьодинаковуюподструктуру.Минский назвалэто явлениеразделом терминалови считал еговажной частьютеории фреймов.

Минскийтакже ввелтерминологию,которая моглабы использоватьсяпри изученииэтой теории(фреймы,слоты ,терминалы ит.д.).Хотя примерыэтой теориибыли разделенына языковыеи перцептуальные,и Минскийрассматривалих как имеющихобщую природу,в языке имеетсяболее широкаясфера ее применения.Восновном большинствоисследованийбыло сделанов контекстеобщеупотребительнойлексики илитературногоязыка .

Какнаиболее доступнуюиллюстрациюраспознаванию,интерпретациии предположениюможно рассмотретьдве последовательностипредложений,взятых из Шранкаи Абельсона.На глобальномуровне последовательностьА явно отличаетсяот В .

A John went to a restaurant

Heasked the waitress for a hamburger

Hepaid the tip & left

B John went to a park

Heasked the midget for a mouse

Hepicked up the box & left

Хотявсе эти предложенияимеют одинаковуюсинтаксическуюструктуру итип семантическойинформации ,понимание ихкардинальноразличается.ПоследовательностьА имеет доступк некоторомувиду структурызнаний высшегоуровня ,а В не имеет .Если бы А неимело такойдоступ ,то ее пониманиесводилось бык уровню В ихарактеризовалосьбы как дезориентированное.Этот контрастявляется нагляднымпримером мгновеннойработы высшегоуровня структурызнаний .

Былапредложенапрограмма подназванием SAM,которая отвечаетна вопросы ивыдает содержаниетаких рассказов.Например ,SAMможетответить наследующиевопросы ,ответына которые неданы в тексте,с помощью доступак записи предполагаемыхсобытий ,предшествующихобеду в ресторане.

DidJohn sit down in the restaurant ?

DidJohn eat the hamburger ?

Такимобразом ,SAMможетраспознатьописаннуюситуацию какобед в ресторанеи затем предсказатьоптимальноеразвитие событий.В нашем случаераспознаваниене представлялотрудностей,но в большинстве случаев онодовольно непростоеи являетсясамой важнойчастью теории.

Рассмотримдругой пример:

C He plunked down $5 at the window .

Shetried to give him $ 2.50 , but he wouldn’t take it .

Sowhen they got inside , she bought him a large bag of popcorn .

Онинтересен тем ,что у большинствалюдей он вызываетцикл повторяющихсянеправильныхили незаконченных распознаванийи реинтерпретаций.

Вслучаях смногозначнымисловами многозначностьразрешаетсяс помощьюактивизированногоранее фрейма.Для этих целейнеобходимосоздать лексиконк каждому фрейму. Когдафрейм активизируется,соответствующему лексиконуотдается предпочтениепри поискесоответствующегозначения слова.В контекстеТФ это распознаваниепроцессов ,контролируемыхфреймами ,которые ,в свою очередь,контролируютраспознаваниевходящей информации.Иногда этоназываетсяпроцессомсверху - внизфреймодвижущегораспознавания.

Применениеэтих процессовнашло своеотражение впрограмме FRAMP, котораяможет суммироватьгазетные сводкии классифицироватьих в соответствиес классом событий,например терроризмили землетрясения .Эта программахранит наборобъектов ,которые должныбыть описаныв каждой разновидноститекстов ,и этот наборпомогает процессураспознавания описываемыхсобытий .

Манипуляцияфреймами

ДеталиспецификацииФ и их репрезентациимогут бытьопущены ,так же как и алгоритмыих манипуляции,потому что онине играют большойроли в ТФ .

Такиевопросы ,как размер Фили доступ кнему ,связаны сорганизациейпамяти и нетребуют специальногорассмотрения.

Распознавание

Влитературеимеется многорассужденийпо поводу процессов,касающихся распознаванияфреймов и доступак структурезнаний высшегоуровня .Несмотря нато ,что люди могутраспознатьфрейм без особыхусилий ,для компьютерав большинствеслучаев этодовольно сложнаязадача .Поэтому вопросыраспознаванияфреймов остаютсяоткрытыми итрудными длярешения с помощьюИИ .

Размерфрейма

Размерфрейма гораздоболее тесносвязан с организациейпамяти ,чем это кажетсяна первый взгляд.Это происходитпотому ,что в пониманиичеловека размерфрейма определяется не столькосемантическимконтекстом,но и многимидругими факторами.Рассмотримфрейм визитак доктору ,который складываетсяиз подфреймов,одним из которыхявляется комнатаожидания .Таким образом мы можем сказать,что размерфрейма не зависитот семантическогосодержанияпредставленногофрейма / такого,как ,например ,визит к врачу/ , нозависит от того ,какие компонентыописывающейинформацииво фрейме /таком,как комнатаожидания /используютсяв памяти .Это означает,что когдаопределенныйнабор знанийиспользуетсяпамятью болеечем в однойситуации ,система памятиопределяетэто ,затем модифицируетэту информациюво фрейм ,и реструктурирует исходный фреймтак ,чтобы новыйфрей использовалсякак его подкомпонент.

Вышеперечисленныеоперации такжеостаются открытымивопросами вТФ .

Инициализационныекатегории

Рошпредложил триуровня категорийпредставлениязнаний :базовую,субординатнуюи суперординационную .Например всфере меблировкиконцепциякресла являетсяпримером категорииосновногоуровня ,а концепциямебели - этопример суперординационной категории .Язык представлениязнаний подверженвлиянию этойтаксономиии включает ихкак различныетипы данных.В сфере человеческогообщения категорииосновногоуровня являютсяпервейшимикатегориями,которые узнаютчеловек ,другие же категориивытекают изних .То есть суперординационнаякатегория - этообобщениебазовой ,а субординатная - это подразделбазовой категории.

пример

суперординатная идеи события

базоваясобытия действия

субординатная действияпрогулка

Каждыйфрейм имеетсвой определенныйтак называемыйслот .Так ,для фреймадействиеслотможет бытьзаполнен толькок-л исполнителемэтого действия,а соседниефреймы могутнаследоватьэтот слот .

Некоторыеисследователипредположили,что случаиграмматикипадежей совпадаютсо слотами вТФ ,и эта теориябыла названатеорией идентичностислота и падежа.Было предложеночисло такихпадежей ,от 8 до 20 ,но точное числоне определено.Но если агентивполностьюсовпадает сосвоим слотом,то остальныепадежи вызвалиспоры .И до сих порточно не установлено,сколько всегосуществуетпадежей .

Такжевызвал трудностьтот факт ,что слоты невсегда могутбыть переходными.Например ,в соответствиес ТФ можно сказать,что фреймодушевленныйпредмет можетиметь слот живой ,фрейм человек можетиметь слотчестный ,а фрейм блоханеможет иметьтакой слот ,и он к нему никогдане перейдет.

Другимисловами ,связи междуслотами в ТФне являютсяисследованнымидо конца .Слоты могутпередаваться,могут бытьмногофункциональны,но в то же времяне рассматриваютсякак функции. Гибридныесистемы

СФиногда адаптируютсядля построенияописаний илиопределений .Был создансмешанный язык,названныйKRYPTON, состоящийиз фреймовыхкомпонентов и компонентовпредикатныхисчислений,помогающих делать к-л выводыс помощью терминови предикатов .Когда активизируетсяфрейм ,факты становятсядоступнымипользователю.Также существуетязык Loops, которыйобъединяетобъекты ,логическоепрограммированиеи процедуры.

Существуюттакже фреймоподобныеязыки ,которые заисходную позициюпринимают одинтип данных впамяти ,к-л концепцию,ане две /напрфрейм и слот/,и представлениеэтой концепциив памяти должнобыть цельным.

Объектно- ориентированныеязыки

Параллельнос языками фреймовсуществуютобъектно -ориентированныепрограммныеязыки ,которые используютсядля составления программ ,но имеют некоторыесв-ва языковфреймов ,такие ,как использованиеслотов длядетальной ,доскональнойклассификацииобъектов .Отличие их отязыков фреймовв том ,что фреймовыеязыки направленына более обобщенноепредставлениеинформацииоб объекте .

Однойиз трудностейпредставлениязнаний и языкафреймов являетсяотсутствиеформальнойсемантики .Это затрудняетсравнениесвойств представлениязнаний различныхязыков фреймов,а также полноелогическоеобъяснениеязыка фреймов.

Теорияфреймов

- это парадигма дляпредставлениязнаний с цельюиспользованияэтих знанийкомпьютером.Впервые былапредставленаМинским как попытка построитьфреймовую сеть,или парадигмус целью достижениябольшего эффектапонимания .С одной стороныМинский пыталсясконструироватьбазу данных,содержащуюэнциклопедическиезнания ,но с другойстороны ,он хотел создатьнаиболее описывающуюбазу ,содержащуюинформациюв структурированнойи упорядоченнойформе .Эта структурапозволила быкомпьютеру вводить информациюв более гибкойформе ,имея доступк тому разделу,который требуетсяв данный момент.Минский разработалтакую схему , вкоторой информациясодержитсяв специальныхячейках ,называемыхфреймами ,объединеннымив сеть ,называемуюсистемой фреймов.Новый фреймактивизируетсяс наступлениемновой ситуации.Отличительнойего чертойявляется то,что он одновременносодержит большойобъем знанийи в то же времяявляется достаточногибким для того,чтобы бытьиспользованнымкак отдельныйэлемент БД .Термин «фрейм»былнаиболее популяренв серединесемидесятыхгодов ,когда существоваломного его толкований,отличных отинтерпретацииМинского.

Чтобылучше понятьэту теорию ,рассмотримодин из примеров Минского ,основанныйна связи междуожиданием ,ощущением ичувством человека,когда он открываетдверь и входитв комнату .Предположим,что вы собираетесьоткрыть дверьи зайти в комнатунезнакомоговам дома .Находясь в доме,перед тем какоткрыть дверь, у вас имеютсяопределенныепредставленияо том ,что вы увидите,войдя в комнату. Например ,если вы увидитек-л пейзаж илиморской берег,поначалу выс трудом узнаетеих .Затем вы будетеудивлены ,и в конце концовдезориентированы, таккак вы не сможетеобъяснитьпоступившуюинформациюи связать еес теми представлениями,которые у васимелись до того .Также у васвозникнутзатрудненияс тем ,чтобы предсказатьдальнейшийход событий.С аналитическойточки зренияэто можно объяснитькак активизациюфрейма комнатыв момент открываниядвери и еговедущую рольв интерпретациипоступающейинформации.Если бы вы увиделиза дверью кровать,то фрейм комнатыприобрел быболее узкуюформу и превратилсябы во фрей кровати.Другими словами,вы бы имелидоступ к наиболееспецифичномуфрейму из всехдоступных.Возможно,бчто вы используетеинформацию,содержащуюсяв вашем фреймекомнаты длятого чтобы распознатьмебель ,что называетсяпроцессомсверху-вниз, илив контекстетеории фреймовфреймодвижущимраспознаванием.Если бы вы увиделипожарный гидрант,то ваши ощущениябыли бы аналогичныпервому случаю.Психологиподметили ,что распознаваниеобъектов легчепроходит вобычном контексте,чем в нестандартнойобстановке.Из этого примерамы видим ,что фрейм - этомодель знаний,которая активизируетсяв определеннойситуации ислужит для ееобъясненияи предсказания. У Минскогоимелись достаточнорасплывчатыеидеи о самойструктуре такойБД ,которая моглабы выполнятьподобные вещи.Он предложилсистему ,состоящую изсвязанных междусобой фреймов,многие из которыхсостоят изодинаковыхподкомпонентов,объединенныхв сеть .Таким образом, вслучае , когдак-л входит вдом ,его ожиданияконтролируютсяоперациями,входящими всеть системыфреймов .В рассмотренномвыше случаемы имеем делос фреймовойсистемой длядома ,и с подсистемамидля двери икомнаты .Активизированныефреймы с дополнительнойинформациейв БД о том ,что вы открываетедверь ,будут служитьпереходом отактивизированногофрейма дверик фрейму комнаты.При этом фреймыдвери и комнатыбудут иметьодинаковуюподструктуру.Минский назвалэто явлениеразделом терминалови считал еговажной частьютеории фреймов.

Минскийтакже ввелтерминологию,которая моглабы использоватьсяпри изученииэтой теории(фреймы,слоты ,терминалы ит.д.).Хотя примерыэтой теориибыли разделенына языковыеи перцептуальные,и Минскийрассматривалих как имеющихобщую природу,в языке имеетсяболее широкаясфера ее применения. Восновном большинствоисследованийбыло сделанов контекстеобщеупотребительнойлексики илитературногоязыка .

Как наиболеедоступнуюиллюстрациюраспознаванию,интерпретациии предположениюможно рассмотретьдве последовательностипредложений,взятых из Шранкаи Абельсона.На глобальномуровне последовательностьА явно отличаетсяот В .

A John went to a restaurant

He asked the waitress fora hamburger

He paid the tip &left

B John went to a park

He asked the midget fora mouse

He picked up the box &left

Хотя всеэти предложенияимеют одинаковуюсинтаксическуюструктуру итип семантическойинформации ,понимание ихкардинальноразличается.ПоследовательностьА имеет доступк некоторомувиду структурызнаний высшегоуровня ,а В не имеет .Если бы А неимело такойдоступ ,то ее пониманиесводилось бык уровню В ихарактеризовалосьбы как дезориентированное.Этот контрастявляется нагляднымпримером мгновеннойработы высшегоуровня структурызнаний .

Былапредложенапрограмма подназванием SAM, котораяотвечает навопросы и выдаетсодержаниетаких рассказов.Например ,SAMможетответить наследующиевопросы ,ответына которые неданы в тексте,с помощью доступак записи предполагаемыхсобытий ,предшествующихобеду в ресторане.

Did John sit down in therestaurant ?

Did John eat the hamburger ?

Рассмотримдругой пример:

C He plunked down $5 at thewindow .

She tried to give him $2.50 , but he wouldn’t take it .

So when they got inside ,she bought him a large bag of popcorn .

Он интересентем ,что у большинствалюдей он вызываетцикл повторяющихсянеправильныхили незаконченных распознаванийи реинтерпретаций.

В случаяхс многозначнымисловами многозначностьразрешаетсяс помощьюактивизированногоранее фрейма.Для этих целейнеобходимосоздать лексиконк каждому фрейму. Когдафрейм активизируется,соответствующему лексиконуотдается предпочтениепри поискесоответствующегозначения слова.В контекстеТФ это распознаваниепроцессов ,контролируемыхфреймами ,которые ,в свою очередь,контролируютраспознаваниевходящей информации.Иногда этоназываетсяпроцессомсверху - внизфреймодвижущегораспознавания.

Манипуляцияфреймами

Распознавание

В литературеимеется многорассужденийпо поводу процессов,касающихся распознаванияфреймов и доступак структурезнаний высшегоуровня .Несмотря нато ,что люди могутраспознатьфрейм без особыхусилий ,для компьютерав большинствеслучаев этодовольно сложнаязадача .Поэтому вопросыраспознаванияфреймов остаютсяоткрытыми итрудными длярешения с помощьюИИ .

Размерфрейма

Вышеперечисленныеоперации такжеостаются открытымивопросами вТФ .

Инициализационныекатегории

Рош предложилтри уровнякатегорийпредставлениязнаний :базовую,субординатнуюи суперординационную .Например всфере меблировкиконцепциякресла являетсяпримером категорииосновногоуровня ,а концепциямебели - этопример суперординационной категории .Язык представлениязнаний подверженвлиянию этойтаксономиии включает ихкак различныетипы данных.В сфере человеческогообщения категорииосновногоуровня являютсяпервейшимикатегориями,которые узнаютчеловек ,другие же категориивытекают изних .То есть суперординационнаякатегория - этообобщениебазовой ,а субординатная - это подразделбазовой категории.

пример

суперординатная идеи события

базоваясобытия действия

субординатная действияпрогулка

Такжевызвал трудностьтот факт ,что слоты невсегда могутбыть переходными.Например ,в соответствиес ТФ можно сказать,что фреймодушевленныйпредмет можетиметь слот живой ,фрейм человек можетиметь слотчестный ,а фрейм блохане можетиметь такойслот ,и он к нему никогдане перейдет.

СФ иногдаадаптируютсядля построенияописаний илиопределений .Был создансмешанный язык,названныйKRYPTON, состоящийиз фреймовыхкомпонентов и компонентовпредикатныхисчислений,помогающих делать к-л выводыс помощью терминови предикатов .Когда активизируетсяфрейм ,факты становятсядоступнымипользователю.Также существуетязык Loops, которыйобъединяетобъекты ,логическоепрограммированиеи процедуры.

Существуюттакже фреймоподобныеязыки ,которые заисходную позициюпринимают одинтип данных впамяти ,к-л концепцию, ане две /напрфрейм и слот/,и представлениеэтой концепциив памяти должнобыть цельным.

Объектно- ориентированныеязыки

Билет 4

1. Различныенаименованияобласти прикладнойлингвистикии их смысловыеразличия.Универсальныеприкладныепроблемы.

Прикладнаялингвистика- это комплекснаянаучная дисциплина,изучающая языкв различныхситуациях егопримененияи разрабатывающаяметоды совершенствованияязыковых системи языковыхпроцессов.

Термин прикладнаялингвистикапоявился вконце 20 гг. 20 в.,когда былаосознананеобходимостьстрогого научногорешения прикладныхзадач с использованиемметодов формальноголингвистическогоанализа письменныхи акустико-лингвистическогоанализа устныхсообщений.

За рубежом подПЛ часто понимаютсовершенствованиеметодов преподаванияязыка (дидактическаялингвистика). В нашей странеПЛ понимаюткак компьютернуюлингвистику,которая становитсясейчас всеболее широкойдисциплинойпочти синонимомПЛ.

Лингвистикавходит в ядроскладывающегосяв настоящеевремя комплексакогнитивныхнаук, объединяемыхпо их интересук проблемаморганизации,представления,обработки ииспользованиязнаний.

Синонимы ПЛ:

·Компьютернаялингвистика(машиннаялингвистика)- дисциплина,которая разрабатываетлингвистическиеаспекты компьютеризации.

·Вычислительнаялингвистика

Термин компьютернаялингвистикашире терминавычислительнаялингвистика,так как задаетобщую ориентациюна использованиекомпьютеровдля решенияразнообразныхнаучных ипрактическихзадач, никакне ограничиваяспособы решенияэтих задач.Термин жевычислительнаялингвистикаможет пониматьсяболее узко, таккак даже приширокой трактовкепонятия вычислениеза его пределамиостаются такиестороны решениялинг. задач,как, например,представлениезнаний, организациябанков языковыхданных, психолингвистическиеаспекты взаимодействиячеловека икомпьютераи др. Т. о. можносчитать, чтотермин компьютернаялингвистика(по своей внутреннейформе) шире,чем вычислительнаялингвистика. Английскийэквивалентcomputational linguistics можетпереводитьсяи как компьютерныйи как вычислительный(как и русскомкомпьютер -синоним ЭВМ).

·Структурнаялингвистика- совокупностьвзглядов наязык м методовего исследования,в основе которыхлежит пониманиеязыка как знаковойсистемы с четковыделеннымиструктурнымиэлементами(единицамиязыка, их классамии пр.) и стремлениек строгому (какв точных науках)формальномуописанию языку. Свое названиеСЛ получилаблагодаряособому вниманиюк структуреязыка, котораяпредставляетсобой сетьотношений(противопоставлений)между элементамиязыковой системы,упорядоченныхи находящихсяв иерархическойзависимостив пределахопределенныхуровней. Структурноеописание языкапредполагаеттакой анализреальноготекста, которыйпозволяетвыделить обобщенныеинвариантныеединицы (схемыпредложений,морфемы, фонемы)и соотнестиих с конкретнымиречевыми сегментамина основе строгихправил реализацииЭти правилаопределяютграницы допустимоговарьированияяз. единиц вречи. В зависимостиот уровня анализаправила реализацииформулируютсякак правилапозиционногораспределенияконкретных,например, принципдополнительнойдистрибуциив фонологиии морфологии(дистрибутивныйанализ), иликак трансформационныеправила в синтаксисе(при трансформационноманализе) регулирующиепереход отинвариантнойглубиннойструктурыпредложенияк множествуее реализации. На базе СЛ развиласьпорождающаяграмматика(генеративнаялингвистика);идеи структурногоанализа вомногом определилипостановкуи решение задач,связанных смашиннымпереводом;СЛ открыладорогу дляширокогопроникновенияв лингвистикумат. методов(математическаялингвистика).На СЛ оказаливлияние: Сепир,Блумфилд. Ф.деСоссюр, одиниз создателейи ведущих теоретиков-Якобсон; у нас- Реформатский(знаковая теорияязыка), Ревзин(общая теориямоделирования),Холодович;практическоеприменениеметодов СЛ:Апресян, Арутюнова,Гак, Зализняк,Звегинцев,Мельчук, Успенскийи др.

·Математическаялингвистика - математическаядисциплина,предметомкоторой являетсяразработкаформальногоаппарата дляописания строенияестественныхи некоторыхискусственныхязыков. Возниклав 50 годы 20 в.; однимиз главныхстимулов появленияматематическойлингвистикипослужиланазревшаяпотребностьв уточненияосновныхлингвистическихпонятий. МетодыМЛ имеют многообщего с с методамимат. логики -мат. дисциплины,занимающейсяизучениемстроения мат.рассуждений,- и в особенноститаких ее разделов,как теорияалгоритмови теория автоматов.

·Контрастивнаялингвистика(сопоставительнаялингвистика)- сопоставительноеизучение двух,реже несколькихязыков длявыявления ихсходств и различийна всех уровняхязыковой структурыс целью типологическойклассификацииязыков. Какправило, контрастивнаялингвистикаоперируетматериаламина синхронномсрезе языка.КЛ появиласьи интенсивноразвиваласьв 50 гг. 20 в., однакоее появлениеподготовилиработы Е.Д.Поливанова,Бодуена деКуртенэ, Л.В.Щербы с изложениемтеор. основсравненияродного и ин.языков. В 70 гг.контрастивныеисследованияв одт. странах(гл. образом вСША) использовалипорождающуюмодель Хомского,с возведениемявлений двухсопоставляемыхязыков к общейглубиннойструктуре; внаст. времянаблюдаетсяотход от этойметодики впользу сруктурно-функциональногоподхода.

·Искусственныйинтеллект

·Автоматическийперевод - выполняемоена компьютередействие попреобразованиютекста на одномЕЯ в эквивалентныйпо содержаниютекст на другомязыке.

Универсальныеприкладныепроблемы:

·созданиеи совершенствованиеалфавитов иписьменности(решена полностьюи успешно) 3 стадии:(1) появлениеписьменности,(2) книгопечатание,(3) компьютеризация.

·созданиесистем транскрипцииустной речи,систем транслитерациииноязычныхслов

·составлениесловарей(лексикография)(первые словари- глоссарии -комментариик церковнымтекстам) составлениеавтоматическихсловарей, тезаурусов

·унификацияи стандартизациянаучно-техническойтерминологии

·изучениепроцессов исоздание правилобразованияновых названийизделий, товарови т.п.

·устныйи письменныйперевод, разработкасистем машинногоперевода, АРМов

·обучениеродному и иностраннымязыкам, разработкасоответствующихметодик (обучениедетей и взрослых,обучение эмигрантов,...)

·созданиеи совершенствованиеИЯ для для записиинформации

·автоматическоераспознаваниеи синтез речи

·автоматическиеметоды переработкитекстовойинформации

·созданиеавтоматизированныхсистем информационногопоиска

·составлениеавтоматическихсловарей исистем машинногоперевода

·разработкаметодов автоматическогоаннотирования,реферированияи перевода

·разработкаэкспертныхсистем

·лингвистическоеобеспечениеАСУ

·проблемыязыка и пола(politically correct non-sexist language)

·созданиесистем стенографии,систем письмадля слепых

·лечениеречевых расстройств

·анализдискурса

Билет5

1.Понятие уровняв теоретическойи прикладнойлингвистике

Идеяуровневойорганизацииязыка получилаширокое распространение в сер. 20 гг. сначалав в американскойдескриптивистскойлингвистике,а позднее и вдругих направлениях,в том числе вотечественнойлингвистике.

(ЛЭС)Уровни языка- некоторыечасти языка;подсистемыобщей языковойсистемы, каждаяиз которыххарактеризуетсясовокупностьюотносительнооднородныхединиц и наборомправил, регулирующихих использованиеи группировкув различныеклассы и подклассы.

Членениена уровни врамках теоретическойлингвистики:

·фонемный

·морфемный

·лексический(уровень слова)

·синтаксический(уровень предложения)

Уровнеобразующимисвойствамиобладают толькоте единицыязыка, которыеподчиняютсяправилам уровневойсочетаемости,т.е. обладаютспособностьювступать впарадигматическиеи синтагматическиеотношениятолько с единицамитого же уровня. С единицамидругого уровняединицы какого-либоуровня вступаюттолько в иерархическиеотношения типа"состоит из...", "входит в...". Так фонемымогут образоватьклассы и сочетатьсяв речевой цепитолько с фонемами,морфемы - сморфемами,слова - толькосо словами. Втоже времяфонемы входятв звуковыеоболочки морфем,морфемы - в слова,слова - в предложения. Группировкиединиц языкавнутри уровней, например. фонем(гласные исогласные),морфем (корневые,аффиксальные),слов (знаменательные.служебные ит.д.) не являютсяуровнеобразующими.

Уровеньязыка следуетотличать отуровня анализаязыка - фаз илиэтапов рассмотренияязыка. В лингвистическойпрактикеонтологическийуровень языкаи процедурныйуровень анализа(операционный)нередко смешиваются,хотя между ниминет прямогосоответствия. Уровни анализазависят отцелей и задачисследования,т.е. во многомопределяютсяточкой зренияисследователяна изучаемыйобъект.

(Городецкий,К проблемесемантическойтипологии):Уровень языка- это совокупностьсходно функционирующихединиц вместесо связывающихих отношениями.

Структураязыка делитсяна два относительнозамкнутых(самостоятельныхи независимых)плана: планвыражения иплан содержания,внутри каждогоиз которыхразличаютиндивидуальныйнабор уровней,т.е. уровни планасодержанияне изоморфныуровням планавыражения(полисемия,омонимия, синонимия;русским гласнымне соответствуютникакие единицыПС).

Каки языковаяструктура вцелом уровниуправляютобеими сторонамиречевой деятельностианализом исинтезом, являясьих структурнойосновой, однаконе следуетпривязыватьязыковой уровеньк конкретнойпроцедуреанализа/синтеза. Языковой уровень- лингвистическаяуниверсалия.

Составуровней ПВ:

1) уровеньфонемы

2) уровеньморфемы

3) уровеньслова

4) уровеньсловосочетания

5) уровеньпредложения

Составуровней ПС:

1)морфо-семантическийуровень (единицы- значения морфем)

2)лексико-семантическийуровень (единицы- лексемы (значенияслов)

Различаютсяв размересоответствующихформальныхединиц.

Морфема- наименьшийдвуплановыйречевой отрезокс ПС состоит

Пониманиеречи

Пониманиеречи обычнотрактуют какпреобразованиеакустическогопредставленияречи в смысловое.При созданиипрактическихсистем смыслможно определить,как представление,из которогоизвлекаютсядействия, совершенныесистемой. Пониманиеречи следуетотличать отраспознованияречи, где цельюявляется сопоставитьречевое высказываниес соответствующимисловами в словаре. До начала 70-ыхбольшинствоисследованийбыло направленона распознованиеречи. 5 лет потребовалосьна создание системы ARPA,первоначальнаяисследовательскаяцель которойзаключаласьв распознаванииречи, а конечныерезультатыв понимании.Казалось, чтоспособностьсистемы даватьразумный ответна речь былаболее значимымкритерием дляразвития речевыхсистем. К томуже считалось,что речевой сигнал являетсянедостаточнымисточникоминформации,и знание контекстаречевого высказыванияважно толькодля успешногораспонаванияи интерпретации.Системы пораспознованиюречи, основанныена динамическомпрограммированиии соответствиис образцами,развивали дляречевых высказываний,которые состоялипочти полностьюиз изолированныхслов, выбираемыхиз небольшоговокабуляра.Однако такойподход, прикотором ищетсянаиболее точноесоответствиемежду определеннымипроизнесеннымисловами и вокабуляромакустическохобразцов слов,меньше всегоподходил ксвязанной речи,так как входнойакустическойсигнал в этомслучае не можетбыть эффективносмоделирован,как простоесочетаниепроизнесенныхчастей лексическихединиц. В связаннойречи изменчивость,выявляемаяпри соответствиис образцами,передает полезнуюинформациюи для распознования,и для интерпретации.Однако, необходимоначинать сосновныхлингвистическихединиц, такихкак фонемы, исохранятьинформациюо ритме и длительностиречевоговысказывания.Если следуюттаким путем,то подход кобработке речи,основанныйскорее на знании,чем на соответствияхс образцами,становитсянеизбежным,так как, чтобыизвлекатьпреимуществаиз распознаванияконкретныхлингвистическихединиц в сигнале,необходимознать, как даннаяединица связана с остальнойчастью языка.

Системы пониманияречи (СПР) имеютдело со связаннымиединицами речи,такими как,фразы, предложенияи даже параграфы,так как "понимание"изолированныхслов можетозначать толькотривиальныйпроцесс сопоставлениянекоторогозначения ккаждому словусловаря системы.Пониманиесвязанной речи- очень сложнаязадача, и на проект СПРповлияли исследованияв таких разныхобластях, как акустическаяобработкасигнала, нейро-физиология,психолингвистика,психология. СПР была создана,чтобы пониматьвсего несколькихдикторов одногодиалекта, производяграмматическиограниченноеподмножествоязыка со словаремоколо тысячислов. Сейчасхотя и имеютсямного потенциальныхприкладныхпрограмм дляСПР их эффективностьи надежностьвсе еще недостаточна,чтобы широкоиспользоваться.Системы, зависимыеот диктора,распознающиеизолированные слова с небольшимсловарем,использующиев качествеобразцов-соответствийцелые словауже нашли своеприменение,типа обработкибагажа на авиалиниях.Тем не менеепризнано, чтоусовершенствованиетакого типасистем (большиесловари, независимостьот диктора)требует подхода,основанногона более глубокихзнаниях.

Теоретическиепредпосылки

Посредникомпри преобразованииречи в ее значениедолжны служитьопределенныекомпоненты,которые используютразнообразныеисточникизнания (ИЗ), т.к.речевой сигналкодирует многоразличнойинформации,необходимойдля восстановлениязначения. Например,вариативностьв произношениислов в связаннойречи большене являетсяпомехой приподборе образцасоответствия,но это довольноважный источникинформации,например,относительнорасположенияграниц слова или контекстуальноважной (выделеннойударением)информациив произнесении.ЕдинственнойвозможнойорганизациейСПР и основныхИЗ являетсяследующая: РЕЧЬ - ОБРАБОРТКААКУСТИЧЕСКОГОСИГНАЛА - ФОНЕТИЧЕСКИЙАНАЛИЗ - ФОНОЛОГИЧЕСКИЙАНАЛИЗ - МОРФОЛОГИЧЕСКИЙАНАЛИЗ - ЛЕКСИЧЕСКИЙДОСТУП К СЛОВАРЮ- СИНТАКСИЧЕСКИЙАНАЛИЗ - СЕМАНТИЧЕСКИЙАНАЛИЗ - ЗНАЧЕНИЕ.При такой организацииСПР информациятечет вверхпо мере того,как каждыйэлемент создаетпромежуточныепредставления,кодируя (частичные)гипотезы относительноввода на основеему доступногознания.

Акустическаяобработкаотцифровываетсигнал с входнойчастотой, котораясохраняетсигнал дляпонимания.Акустическаяобработка такжетрансформируетотцифрованныйсигнал различнымиспособами,чтобы представитьего в той форме,которая поддаетсяфонетическомудекодированию.Например,спектральныйанализ будетвыполнен длякаждого проанализированногофрейма, и дополнительныепараметры,такие как частотаосновного тона,подсчитаны.Параметрическийсигнал можетзатем бытьпомечен какдискретнаяпоследовательностьфонем. Например,если сигналс низкой амплитудойравномернораспространяетсяпоперек спектра,то этот звуквероятно фрикативный,типа [f] или [v]. Крометого, для каждой фонемы характернытакие особенности,как высотатона, длительностьи амплитуда.Акустическо- фонетическоепреобразованиеявляется решающимдля эффективнойработы СПР, новсе еще одноиз наиболееслабых сторонречевой обработки.И это являлосьглавным недостаткомСПР, разработаннойна основе ARPA в1970-ых.

Фонологическийанализ выполняетсяна фонетическомпредставлении,которое определяетлингвистическиважные различия,имеющиеся вфонетическомпредставлениипроизнесения,например, уровнии расположениеударения, интонационныйконтур, структурыслога, последовательностифонем, лежащихв основе произнесения.Фонологическийанализ необходимдля лексическогодоступа, т.е.процесса, которыйсопоставляетфонетическуюформу произнесенияс каноническимифонемнымипредставлениямислов в словаре,чтобы восстановитьинформацию,хранящуюсятам относительноих морфологических,синтаксических,и семантическихсвойств. Этоотменяет такиеэффекты быстройречи, как ассимиляцияили сокращения.Например, слова“did” и "you" моглибы иметь в словареследующиепоследовательностифонем: /dld/ и /ju:/. Однако,акустическо- фонетическоепреобразованиемогло бы восстанавливатьфактическиезвуки или фонемы,типа [dIje]; связыватьэту фонетическуюпоследовательностьc каноническимифонемнымипредставлениями“did” и "you". Этонеобходимо,если нужноузнать, чтопалатализацияпроизошла награнице слова,заменив [dj] на[j], и что неударныйгласный "you" былредуцировандо нейтральногобезударного.Аналогично,фонологическоезнание относительнодопустимыхпоследовательностейфонем в слогахможет использоваться,чтобы распознатьслог, и следовательно,границы слова.Например, в/houmhelp/ должна бытьграница между/m/ и вторым /h/, потомучто никакойслог в английскомне может содержать/mh/.

Как толькофонологическийанализ завершен,дальнейшаяобработка вводабудет подобнапониманиютекста. Дальнейшиеморфологический,синтаксический,семантическийи прагматическийанализы способствуютраспознаванию, эксплуатируяизбыточностьречи, в информационно- теоретическомсмысле. В некоторыхиз проектовAPRA задача синтаксическогоанализа заключаласьв том, чтобыисключитьгипотезы слована основесинтаксическинедопустимыхпоследовательностей.

Прежде, чемслова, выделенныев речевом сигналебудут сопоставленыс лексическимивходам в словаресистемы, необходимопровестиморфологическийанализ, которыйприведет словак их основнойформе, например,устранит окончание множественногочисла /s/ или /z/,которые сильнобы расшириличисло входовв словарь.

После морфологическогоанализа возникшееморфофонологическоепредставлениеречевого вводаможет бытьнайдено в словаресистемы, чтобыполучитьсинтаксическуюи семантическуюинформациюотносительногипотезыпоследовательностислов. Синтаксический,семантический,и прагматическийанализ - в основномтот же самыйдля речевогои текстовогопонимания.Однако, должнобыть взаимодействиемежду этимии более низкимиуровнями анализане только, потомучто они будутдополнятьправильноераспознаваниепроизнесения,но также потомучто некоторыеаспекты фонологическогоанализа, особеннокасающиесяударения иинтонации,будут способствоватьинтерпретации.Ударение, например,необходимодля определения контекстуальноновой информациии для нахождениюзависимых слов для местоимений.

Это краткоеописание вкладаразличных ИЗв пониманиеречи толькораскрываетосновные процессы.ИЗ, использованныев пониманииречи, являютсяпрежде всеголингвистическими.Однако, эффективностьСПР зависитво много какот эффективногоиспользованияэтих ИЗ так иот разработкиих содержания.

Акустическо- фонетическийАнализ

Несомненнонаиболее важнаяобласть в обработкеречи, нуждающаясяв исследованиях,- это акустическо- фонетическийанализ. Еслиакустическо- фонетическийанализ слабый,то ошибочныегипотезы выдадутв итоге неправильныйанализ. Сегментацияи идентификацияакустическогосигнала впоследовательностилингвистическихединиц чрезвычайнотрудна. Сначала,речь - это код,а не шифр; тоесть, акустическоесигналы, ассоциирующиесяс сегментами,непосредственнос ними не связанны;на эти сигналысильно влияют соседние сегменты.Например,спектрограммы/d/ в /di/ и /du/ оченьразличны, т.к.на них влияютпоследующийгласный. Крометого, не возможноразделитьакустическойсигнал на /d/ иследующийгласный. Этинаблюдениясоздали следующуютеорию: конечноеколичествоэтих сегментовне всегда можнодостичь из-занепрерывногодвижения вокальноготрактата. Такойсинтезирующийанализ был бы,однако, оченьв вычислительномотношениидорогой, таккак он требовалбы, чтобы СПРумел генерироватьвсех возможныепроизнесенияи сопоставлятьих с акустическомвводом. Однаково-первых,акустическоесигналы, впротивоположностьфонемам илиалафонам, содержатинвариантныесигналы. Во-вторых,акустическоесигналы частосильно редуцируютсяв безударномположении. Эточасто вызываетмного неправильныхгипотез в системах,где акустическо- фонетическийкомпонент будетпринимать загипотезу сегментиз фиксированногоинвентаря.В-третьих,акустическоесигналы варьируютот дикторадиктору из-зафизиологическихособенностейвокальноготракта, различияв характеристикахречи и т.д.. Людиспособныкомпенсироватьэти различиябыстро и плавно,но все еще малопонятно, каксделать этот процесс автоматическим.Большинствокоммерческихсистем распознаванияречи требуетдлинного обучения,повторяя запользователемкаждое словов словаре системынесколько рази - следовательноочень зависимодиктора. В ARPAнесколько изразработанныхСПР достиглиопределеннойстепени независимостиот диктора, пытаясь ввестипараметр вакустическо- фонетическийанализ длянового дикторана основеобучающегосяпредложения, которое зналасистема, пользователюже следовалоего проговорить.

Во всех ARPA проектируютСПР, где акустическо- фонетическийанализ фактическине существовали сегментныйанализ не былточным. Конечноепредставлениекаждой системыбыло главнымобразом определеноэффективностьюболее высокихуровней анализапри исправленииошибок нафонетическомуровне. Болеесовременныесистемы используютболее сложныйакустическо- фонетическийанализ, интегрируяинформациюиз ряда преобразованийакустическогосигнала и создаваянесколько типовфонетическихпредставлений,но эффективностьвсе еще ограничиваетсяв среднем 70%успешнымраспознаваниемфонем из речевоговысказывания,произнесенныхнебольшимколичествомдикторов.

ФонологическийАнализ

Фонологическийкомпонентнеобходим длялюбой, обрабатывающейречь, системы,основаннойна знаниях,потому чтосистема требуетзнания относительнофонологическихпроцессов,активных вязыке и в прикладныхпрограммах,чтобы восстанавливатьканоническиепроизношениеслов, которыемогут бытьсопоставленыс соответствующимивходами словаря,и получатьдальнейшиесигналы ксинтаксическойи семантической/прагматическойинтерпретацииречевоговысказывания.Фонологическиекомпонентыбыли разработаныдля СПР и другихсистем ARPA. Однако,они были взначительнойстепени ограниченылексическими,сегментнымипроцессамии обычно имелидело с фонологическиуправляемымиизменениями, генерируяальтернативноепроизношениедля индивидуальныхлексическихединиц и сохраняяих в дополнительномсловаре. Этотподход не можетиметь делоадекватно сфонологическимипроцессами,которые соединяютграницы слова,типа палатализации.Самая большаяобласть прикладнойпрограммы дляфонологическогоправила - интонационнаяфраза; следовательно,фонологиюнельзя рассматриватьв терминахразличногопроизношениядля лексическихединиц. Фонологическийанализ обеспечиваетмного важнойинформациидля СПР; например,различные видыфонологическогоправила блокированыразличнымилингвистическимиграницами междусегментами.Полезно разложитьна слоги и словаречь, сегментацияможет такжеобеспечитьсведения длясинтаксическогоанализа; палатализациясоединяетграницы слова,но блокированана границахглавных синтаксическихсоставляющих,так что ее отсутствиеможет использоваться,чтобы решитьнеоднозначностьотносительноприсутствиятакой границыв данном местеречевого сигнала.Фонологическиеправила такжеизменяютсясреди диалектов.Следовательно,СПР, способныек пониманиюдикторов сразличнымидиалектами,требовали бызнания относительноэтих различийи способностиреконфигурироватьсебя для ихречи. Палатализация,например, происходитчаще в американскихдиалектах, чемв британскихили английских.

В конце семидесятыхстали развиватьсяновые подходык фонологии,такие какавтосегментная,метрическаязависимости, фонологиязависимости,для которыхцентральнымявляетсясверхсегментальныйаспект. Некоторыеиз этих достиженийбыли включеныв СПР.

Интерпретация,основаннаяна источникезнаний

ИЗ бесполезныв СПР, если знание,которое оникодируют, неможет бытьпредставленотаким образом,который позволяетинтерпретациюс помощью машины.Например, специалистыпо фонетикиобычно используютМеждународныйФонетическийАлфавит дляфонетическойзаписи. Однако,так как выборпредставлениявоздействуетна прикладнуюпрограммузнания, системыпредставленияИЗ в СПР частоявлялись компромиссоммежду описательнойадекватностьюи вычислительнойэффективностью.Например, вARPA проектируюткаждый СПР,используя идеюсинтаксическогопредставления,чтобы не выражатьвсе грамматическиевозможностианглийскогоязыка. Формальныйязык и теорияавтоматовпредлагаютэффективныеалгоритмы дляприкладнойпрограммы ИЗ,выраженныев наборах правилс соответствующимиформальнымисвойствами.Например, минимальноувеличенныеконтекстно- свободныезаписи дляадекватногоописания английскогосинтаксиса и фонологии.Однако, успехиэтого вида неведут автоматическив вычислительномотношении кИЗ, так как наборыправил, требуемые,чтобы выразитьзнание в этойформе могутбыть чрезвычайнобольшие. Крометого, кажетсямаловероятно,что все ИЗ,используемыев СПР могутбыть выраженывнутри такихограниченныхзаписей. Темне менее, болееспециализированныеи мощные методытакже былиразработаны,типа интерпретаторовдля промышленныхсистем илиувеличенныесети переходов.Появляютсянекоторыеэкспертныеоболочки системы, являющеесямногообещающимиприкладнымипрограммамидля акустическо- фонетическогопреобразования.Чем лучше пониманиеспецифическойобласти, тембольше возможностьпредставлениязнания адекватнои эффективно.Кроме того,вероятно, чторазличные схемыпредставлениябудут наиболееэффективныдля различныхИЗ; следовательно,структура СПР,которая навязывает, одинаковуюсхему для всехИЗ, типа HAERSAY-11 илиHARPY, не идеальна.

На выбор представлениявоздействуютфакторы, другиечем доступностьметодикиинтерпретациидля специфическойсхемы; например,несколько СПРне пытаютсяотображатьнепосредственномежду акустическомсигналом ифонетическималфавитом, носоздаватьпромежуточныепредставления,отмечая акустическояркие особенноститипа назальности,помогать процессураспознаванияфонем. На представлениятакже воздействуетпорядок, в которомрасположеныразличные ИЗ,относящиесяк речевомусигналу и полнойструктуре СПР.Недавно былопредложено,чтобы начальныйфонетическийанализ отмечалсогласные,гласные, а такжеударные и безударныеслоги и что этопростое представлениедолжно использоваться,чтобы получитьнабор слов-кандидатовиз соответственноорганизованногословаря. Детализированныйфонетическийанализ затемприменялсябы к безударномуслогу(слогам),чтобы распознатьего междукандидатами.

СтруктураСистемы

Большая частьлитературыпо СПР касаетсямежкомпонентнойсвязи во времяобработки. Этапроблема являетсяосновной, т.к.неоднозначностидолжны бытьрешены быстро,чтобы избежатьненужноговычисления, и также потому,что избыточностьмежду ИЗ можетиспользоваться,чтобы разложитьна множители неправильныегипотезы, вызванныеили ошибкамисистемы илиподлиннойнеоднозначностьюв речевом сигнале.Например, акустическо- фонетическийкомпонент могбы предложитьаспирированный/p/ или /b/, за которымследует гласныеи /t/, результатомэтого предположениямогут статьтакие слова-кандидаты,как “put” и "but".Однако, вероятно, одно из нихбудет отклоненона основесинтаксическогоанализа, таккак глаголыи союзы не играютодинаковуюроль в предложении. Аналогично,подлиннаясинтаксическаянеоднозначностьимеется ввысказывании,типа " He gave her dog biscuits ",где сочетание"her” может функционироватьи как прилагательноеи как существительное.Но в этом случаенеоднозначностьможет бытьрешена с помощьюударения иинтонации,которые будутсопровождатьобе интерпретации.

Предложенныеструктуры -иерархические,с последовательнымпотоком информациичерез цепочкукомпонентовИЗ, и неиерархические,без ограниченияна поток информациимежду компонентами.

Преимуществоиерархическогоподхода в том, что имеетсяестественныйпорядок дляприкладнойпрограммы ИЗ,чтобы вводитьречь; синтаксическийанализ можетосуществлятьсятолько на основелексическойинформациии т.д. Кроме того,в целом управлениесистемы просто.Однако, имеютсямного случаев,когда непоследовательныевзаимодействиямежду цепочкойкомпонентовполезны; например,аспекты просодической,сверхсегментальнойструктурывысказываниябудут релевантныпо отношениюк фонологической,синтаксической,семантической,и прагматическойинтерпретации.Непоследовательноевзаимодействиеможет бытьдостигнутовнутри иерархическоймодели, передаваявсе возможныеанализы, совместимыес данным компонентомследующему,который затемвыбирает подмножествоанализов. Ноэто толькотогда сработает,если промежуточныепредставления,переданныечерез СПР настолькообогащены, что можно было быиспользоватьвсю проанализированнуюинформациюв следующихкомпонентах.Таким образом,ввод синтаксическогокомпонентав дополнениек синтаксическойинформацииотносительнослов долженвключить всюдоступнуюинформациюдля синтаксическогоанализа, типапросодической информации,и вся информация,относящаясясемантическому/прагматическомуанализу должнабыть такжевключена. Этоусложняет схемупредставления,и дорого ввычислительномотношении, т.к.создает многонеправильныхгипотез. Неправильныхгипотез можноизбежать, т.к.информация,в которой отсутствуетнеоднозначностьвременно доступна,она закодированав той частиречевого сигнала,который ужепроанализированна более низкихуровнях, но виерархическоймодели этотспособ неприменяется,пока ввод недостигаетсоответствующегокомпонентав последовательнойцепочке.

Неиерархическиесистемы избегаютнеэффективности,позволяя компонентамприменять внаиболее эффективномпорядке сложныемежкомпонентныесвязи. Каждыйкомпонент нужнообеспечитьсредствами,чтобы запрашиватьи получитьинформациюиз других компонентовили начинатьопределеннуюобработку вдругом компоненте.Это требуетспециальныхканалов связимежду компонентамив системе. Разработкаадекватнойсистемы управлениядля такой моделиневозможна,т.к. должнапредусматриватьвсе возможныепотоки управленияв стадии проекта.Практически,реальныенеиерархическиемодели для СПРбыли ограниченыоднороднымипредставлениямииз ИЗ и одиночнойглобальнойструктуройданных, как в(blackboard systems) рабочихсистемах.

СтратегииОбработки

Различныестратегииобработкииспользовалисьв разных структурахСПР, чтобы сократитьвычисление,требуемое дляуспешногоанализа. Ииерархическиеи неиерархическиесистемы могутработать соспособамиуправленияданными какснизу-вверх,так и сверху-внизпри использованиизнания, чтобысоздать гипотезыотносительноввода. Однако,самые современныеСПР используютспособ снизу-вверхиз-за довольнослабого предсказанияречи на основеИЗ. Аналогично,СПР может исследоватьпространство,определяя его глубину и ширину.Большинствосистем оперируетс ширинойпространстваиз-за сомнительногоили ошибочногохарактерамногих гипотез,но используетподсчитывающиеметоды, чтобысохранитьразмер активногоисследуемогопространства.Одна из такихметодик, подсчитывающаянеудачи, котораявключает измерениесовокупностимножестваиндивидуальныхслов-кандидатов в соотношениис теоретическойверхней границейи обработкугипотезы,гарантирует,что СПР найдетнаиболее полнуюподсчитывающуюгипотезу дляпервого высказывания.Однако это негарантирует,что наиболеепривлекательнаягипотеза являетсяправильной;эффективностькомпонентов,которые способствуютпорождениюгипотез слова,все еще являетсяопределяющимфактором вполном представлениисистемы. Этимоценкам должныотвечать все компоненты,и они должныотражать различныедобавлениякаждого ИЗ.Однако, значение,которое должнобыть присоединенок любому ИЗ,должно изменитьсяв соответствиис контекстом.Например, прираспознаваниибезударногои фонетическиредуцированногопредлога,синтаксическийанализ долженчаще обращатьсяк акустическомуанализу, чемпри распознаванииударного слога.Кроме того,исследованиядолжны бытьоценены с помощью времени. Хотянекоторые схемыоценки, которыеиспользовалисьв готовых СПР, улучшаютэффективность,это связаноили по теоретическимпричинам, сподсчитывающейметодикой,например,подсчитывающейнеудачи, или,потому что онибыли разработанына основе испытанийи ошибок иоценивалисьисключительнопо эффективности,связанной современем выполнения,например механизмфокуса внимания в рабочей системеHEARSAY-11.

Анализ речевогосигнала можетпроходить слеванаправо черезлинейный сигналили из серединыостровов большейакустическойнадежностив обоих направлениях.Подход, использующийострова надежности,имеет преимущество в принятиисвободных отошибок фонетическихданных за начальнуюотметку за счетболее сложнойструктурыуправленияи организациисистемы, какв HWIM. По-видимомуслушателиобращают большеевнимание наударные слоги,которые вообщеболее яснопроизносятся,и следовательноболее легкоанализируютсяфонетически.Кроме того,фонологическаяструктураанглийскогословаря вынужденабыть составленнойтаким способом,при которомкаждое словоможет бытьполучено дажепри грубом фонетическоманализе структурыслога вместес детальныманализом ударногослога. Следовательно,подход, использующийострова надежностипо существуправилен, хотяи был бы болееэффективен,если обработканачалась вударных слогах.

ТекущиеТенденции

Начиная с проектаARPA в 70-ых имел местопериод в исследованииречевого понимания,скорее ориентированныйна проблемы,чем на построениесистем. Многиеиз этих исследованийсосредоточилисьна акустическо-фонетическомпреобразованиев результатеновых доказательств,показывающихинформационноебогатствоакустическогосигнала. Сейчасже возобновленинтерес к построениюполных систем,включающийисследования,касающиесяструктурысистемы. Однако,большинстворазвивающихсясистем, основанныхна знаниях,ограниченоскорее распознаваниемнепрерывнойречи, чем пониманием.Усовершенствованияв акустическо-фонетическоманализе предполагают,чтобы верхниеуровни анализане были определяющимидля распознаваниянепрерывнойречи, вопрекипреобладающемумнению во временапроекта ARPA. Но проблемы понимания,такие как способыпредставлениезнаний, остаютсянерешенным.

Системы

Главные СПР,разработанныев проекте ARPA, былиHARPY, HWIM, HTEARSAY-11, и SRI/SDC. HARPY оказалсянаиболее близкимпо критериюэффективности,определенномдля проекта.Однако, структураHARPY требоваласоставлениявсего ИЗ в однуконечную сеть,так что язык,воспринимаемыйсистемой былболее ограничен,чем в другихсистемах. СистемаHEARSAY-11 была созданакак промышленнаясистема. НесколькоСПР были разработаныдля Европейскихязыков, такихкак KEAL и MYRTILLE-11 дляФранцузскогоязыка и EVAR длянемецкого.Однако, этисистемы непревзошлисистемы ARPA по эффективностиили проекту.Так же быласоздана автоматическаясистема бронированияместа на авиалинии,которая включаетнепрерывноепонимание речи.Эта система,разработаннаяв ЛабораторияхBell, отвечает нателефон, чтобыустановитьсоответствующуюбронь. Она используетметод сопоставленияцелового словас шаблоном,чтобы распознатьслова из словаря,насчитывающего127 слов.

ДальнейшееЧтение

Журналы:

Artificial Intelligence

Computational Linguistics.

Journal of the Acoustical Society of America,

Journal of Phonetics

Language and Speech.

Speech Technology

Human Factors International Journal ofMan-Machine Studies the InternationalJoint Conference on Artificial Intelligence

Coling

Association of Computational Linguistics

Acoustic Society of America, International Conference on Acoustics

Speech and Signal Processing

2. Автоматическийморфологическийанализ. Соотношениесловаря и анализа.

Автоматическийморфологическийанализ (АМА)-анализ отдельновзятой словоформыи всех тех сведений,которые из нееможно извлечьбезотносительнок тому, относятсяли эти сведенияк морфологииили нет.

АМА определяетсядвумя факторами:

1) тип ЕЯ, подвергаемогоанализу

2) тип алгоритмаавт. обработкитекста

МА начинаетсяс поиска входногослова в словареи с членениясловоформына составляющиеее морфемы.

Общая схемаморфологическогоанализа:

1. Общие правила(управляющийалгоритм

2. Список (таблицы)суффиксов

3. Список (таблицы)информациик суффиксам

4. Список нестандартныхопераций(нестандартнаязапись)

5. Обработкаомонимичныхоснов

Важен тип входногословаря. Учитывая связь МА сословарем можновыделить следующиегруппы МА:

1. морфологическийанализ со словаремсловоформ:каждой словоформеприписываетсяопределеннаяинформация(слово отыскивается.информацияизвлекается)

2. морфологическийанализ со словаремоснов (проблемы:анализ найденныхв словаре форм,как отождествитьразные словоформыодного и тогоже слова)

сравнениесловоформына полное совпадение -> нет -> словоформа= основа + окончание.В задачу МАвходит разрешениесинонимии иомонимии основ

3. МА методомлогическогоумножения(Варга)

Каждой морфемесопоставляетсяинформация,полученнаяв результатеобъединенияинформациио словоформах,в которые входитданная морфема.Информацияо словоформеполучаетсякак пересечениеили логическаяконъюнкция(&) информациио морфемах.входящих вданную словоформу. Тем самым функция.определеннаяна множествесловоформ.заменяетсяна функцию,определеннуюна множествеморфем. Такойанализ производитсяпри наличиисловаря основи применяетсяк флективнымязыкам. каждойбукве соответствуетбулевый вектор(есть 1, нет 0). перемножаяэти векторывыходят накатегорию.

4. независимыйМА без словарясловоформ.

Максимальноеиспользованиеинформациио флексиях вофлективныхязыках. выделяютсяграмматическиеморфемы (флексии,предлоги, союзы,знаки препинаниямежду словами- все элементы.передающиесвязи слов вофразе.

Группа флексий,характеризующаясяодинаковымнабором грамм.отношений.которые онимогут передавать,образует морфему.

флексии, входящиев одну морфему,называютсяалломорфами,т.е. морфемнымисинонимами. Задача алгоритмасостоит в том,чтобы по взаимномурасположениюалломорфовотнести каждуюфлексию к ееморфеме. С этойцелью строятсяспециальныесловари: словарифлексий, словарислов, не несущихграмм. инф. (наречийи т.п.). Способимеет ограниченнойприменение.