Записанный в такой форме текст поступает на вход системы МА. Данная система состоит из пяти подсистемы. В задачи подсистемы 1 входит:
А) выделение тестовых единиц, требующих собственного МА;
Б) анализ слов, не имеющих морфологического статуса, типа формул, сокращенных словосочетаний, слов из букв латинского алфавита; Морфологическим статусом обладают все слова, имеющие в совем составе только русские прописные буквы или ограниченное кол-во знаков препинания, как-то дефис, косая черта и т.п., а также слова, ничинающиеся цепочкой цифр или латинских букв, за которыми следует дефис, и последефисная часть слова состоит из русских прописных букв: 15-й.
В) выявление ошибок, допущенных при перфорации текста.
Подсистема 2 предназначена для обработки текстовых единиц, получивших в процессе предредактирования метку заглавной буквы. Используется открытый список наиболее частотных аббревиатур (ЭВМ) и некоторые словоупотребления, сокращения
Подсистема 3 определяет коды грамматических классов для слов на основе анализа их графемной структуры.
Подсистема 4 определяет коды грамматических подклассов в пределах класса с помощью графематического анализа. Алгоритмы определения подклассов разные для местоимений, наречий, кратких причастий и прилагательных, существительных, слов адъективного типа. Например, род существительного определяется с вероятностью 99,98 % по графемному составу основы. В работе алгоритма определения подкласса существительного каждой словоформе присваивается двухсимвольный код, первая позиция – род, вторая число и падеж, всего выделяются 42 однозначных подклассов и 34 дизъюнктивных (типа компонент – м.р./вин. ед. и ж.р./ род. мн.).
В функции подсистемы 5 входит снятие грамматической омонимии классав и подклассов, полученной в результате работы алгоритмов 2,3,4, на основе контекстного анализа.
В автономном режиме работает только контекстный анализ. Его работа начинается после того, как все слова текста обработаны предшествующими алгоритмами и на вход поступает текст, в котором каждое машинное слово, отличное от знака препинания, снабжено двухбуквенным кодом, первая из которых – код класса, вторая – код подкласса. Коды грамматических омонимов содержат в себе информацию о возможных грамматических значениях данной словоформы, например,
Р – существительное/предлог (путем),
D – существительное/глагол (начала, суть),
Ы- союз/частица/наречие (только) и т.д.)
Основная часть алгоритмов несловарного морфологического анализа сосредоточена в третьей подсистеме, которая должна единицы текста в терминах грамматических классов на основе списка квазифлексий.. Ограниченность лексической системы используемого подъязыка и типа текстов и делает возможным применения принципа определения грамматической информации по квазифлексиям в качестве основного инструмента МИ и отказ вообще от словаря основ как главной базы МА. На вход данного алгоритма после работы подсистем 1,2 поступает 93,54 % текстовых единиц.
Автоматическое построение списка квазифлексий для морфологической идентификации словоформ в тексте предполагает:
Ручное построение обучающей выборки на фрагменте введенного в ЭВМ текста. Для ручной частеречной кодировки принята детализированная система классов слов:
существительное--И
полное прилагательное --Я
полное причаcтие--Е
глагол--Г
наречие--Н
краткое прилагательное --Ю
краткое причаcтие--У
нераспознанные по алгоритму слова, и т.п.
Омонимичные словоформы типа для ее обработки и стобы ее обработать разграничиваются.
Автоматическое построение инверсионного словаря и автоматический вывод списка квазифлексий
Ручную проверку и уточнение результатов автоматической морфологической идентификации словоформ в новом тексте
Автоматическое пополнение инверсионного словаря словоформ обучающей выборки автоматическую перестройку списка квазифлексий.
При контекстном анализе КА, разработанных для снятия грамматической омонимии отдельных слов по окружению, наибольшей диагностицирующей силой обладают грамматические контексты, представленные предлогами, контекстами, краткими причастиями и прилагательными, существительными, подчинительными союзами и местоимениями и наречиями-союзных слов, а также знаки препинания. Все названные элементы текста используются во всех без исключения алгоритмах КА, в качестве опорных точек ОТ. При этом дизъюнкция класса/подкласса может сниматься по пересечению содержащейся в нем информации с грамматической информацией ОТ, образующей левую или правую, а также обе границы (снятие омонимии падежа существительного по предлогу слева, снятие омонимии классов Z (полное прилагательное/наречие); Y (краткое прилагательное/наречие) по расположенному справа глаголу; анализ дизъюнктивных кодов словоформ, принадлежащих к адъективным классам).
Алгоритм включает разные ситуации, как-то именная ситуация(SIT NOUN), глагольная(SIT VERB), предложная (SIT PREP), ситуацию аббревиатуры (SIT U) и прочие. Опорные точки могут образовывать ситуацию в сочетании с нектороми грамматическими классами, например ситуация POINT определяется тире + частица ЭТО, запятая + наречие когда, где. Анализ производится слева направа, начиная с первого элемента текста, и состоит из двух частей: входа, формирующего ситуацию и собственно контектного анализа, при этом ищутся опорные точки, формируется ситуация и по правилам КА снимаются дизъюнктивные классы.
Анализ результатов машинных экспериментов работы описаннойй системы МА на рефератах по кибернетике и системам связи показал высокую степень эффективности сочетания флективного и контекстного анализа при автоматическом МА, ориентированном на подъязык научно-реферативных текстов широкой тематики. Неразграниченные омонимы грамматических классов составляют всего 3,93 % текста. Количество словоформ с неснятой омонимией подклассов равно 10,34 %. Это объясняется, прежде всего, необходимостью привлечения анализа целого предложения (краткое прилагательное в роле подлежащего) и анализа контекстных связей, выходящих за пределы предложения (анализ эллиптических конструкций, снятие омонимии местоименных классов). Ниже приводится пример машинной кодировки, полученной после флективного и контекстных анализов. При идентификации грамматического стутуса каждого класса и подкласса слов в алгоритме МА используется различное количество правил и разные типы правил. В основу системы правил МА положена языковая и текстовая информация разного типа, в том числе:
графемная структура словоформ.
Позиционные закономерности употребления словоформ в тексте.
Дистрибуция словоформ и их соположение в тексте.
Дистрибуция словоформ, учитывающая их грамматические связи.
Лексическая информация.
АВТОКОРРЕЛЯЦИОННАЯ(ЯЖ) СТРУКТУРА(КИ) ГЕНЕРАТОРА(ЙР) СЛУЧАЙНЫХ(КЕ) ЧИСЕЛ(ЛЕ) 1>ТАУСВОРТА(ЙР).
ОСНОВЫВАЯСЬ(Д) НА(ПП) ЗНАНИИ(ЛП) АВТОКОРРЕЛЯЦИОННЫХ(ЯЕ) ФУНКЦИЙ(КЕ) ДЛЯ(ПР) ЛЮБЫХ(ОЕ) ПОВТОРЯЮЩИХСЯ(АЕ) ЧЛЕНОВ(ЙЕ) ПОСЛЕДОВАТЕЛЬНОСТИ(КР) , АВТОРОМ(ЙТ) ДАН(УМ) АЛГОРИТМ(ЙИ), ДЛЯ(ПР) ОПРЕДЕЛЕНИЯ(ЛР) АВТОКОРРЕЛЯЦИОННОЙ(ЯЗ) СТРУКТУРЫ(КР) НОВОЙ(ЯЗ) ПОСЛЕДОВАТЕЛЬНОСТИ(КР).
МОРФОЛОГИЯ
В исследованиях по морфологии естественных языков, проведенных в последние годы отечественными лингвистами, можно выделить несколько
крупных направлений:
— теоретические исследования по различным вопросам морфологии;
— типологические исследования по морфологии;
— прикладные аспекты морфологических исследований.
Теоретические исследования по морфологии
По сравнению с другими областями языкознания морфология по праву
считается наиболее исследованной областью. Поэтому в завершающее десяти-
летие нашего века закономерно появление целого ряда фундаментальных публикаций итогового характера, вышедших из-под пера известных ученых,
посвященных основополагающим понятиям, своего рода principia morphologia.
К ним относится:
— системное описание всех основных разделов морфологии: морфемики, изучающей морфемную членимость слова, принципы вычленения
и разграничения морфем, их функционирование в языке; словообразования,
изучающего соотношения между морфемными структурами; словопроизводства
— образования новых слов путем использования морфемных возможностей язы-
ка [Земская, Немченко, Панов, Тимофеев, Тихонов];
— системное описание диахронической морфологии индоевропейских
языков [Журавлев] и древненовгородского диалекта русского языка [Зализняк];
— итоговое описание системы морфологии русского языка ХХ века:
морфемной модели и количественных данных о русских морфемах [Кузнецова],
активных процессов в словоизменении, словообразовании и словопроизводстве
(суффиксации, префиксации, аббревиации, производстве сложных слов, типич-
ных особенностях окказиональных и потенциальных слов) [Земская, 92, 95,
Русский язык в его функционировании, Русский язык конца ХХ века], морфологических словарей русского языка [Кузнецова, Тихонов];
— морфологическая типология слова в разноструктурных языках, преж-
де всего в славянских [Широкова];
— структурное моделирование морфологии естественных языков в тесной
связи с достижениями структурализма в других областях языкознания, прежде
всего в фонологии и синтаксисе [Бондарко, Демьянков].
В теории морфологии традиционно большое место занимают исследова-
ния по аспектологии русского глагола: анализ совершенного вида в отрицатель-
ных предложениях [Акимова], фактическое и общефактическое значение вида,
семантика и прагматика несовершенного вида императива, таксономические
категории глаголов imperfectiva tantum [Падучева], видовая парность русских
глаголов [Черткова], проблема инварианта в семантике вида [Шатуновский],