Смекни!
smekni.com

работа (стр. 2 из 2)

В зависимости от значения и образования омонимы делятся на два основные типа:

I. лексические, или простые омонимы;

II. морфологические, или производные омонимы.

К первому типу принадлежат слова, относящиеся к одной части речи и имеющие одинаковые формы словоизменений,

К другому типу омонимов относятся слова, которые по звуковому составу совпадают только в определённых грамматических формах. Они обычно принадлежат к разным частям речи. Такие омонимы называются омоформами.

Существует несколько видов омонимии, например межкатегориальная (межродовая) и межсистемная (межъязыковая) (более подробно см. [2]), которые в свою очередь детализируются на подтипы и подвиды омонимии с разновидностями по роду и представляют серьезнейшую помеху при автоматическом переводе даже при близости таких языков как русский и беларуский.

Если рассматривать омонимию с точки зрения порождения и восприятия текста, то можно отметить следующее:

· для говорящего и пишущего омонимии нет, если автор специально не хочет использовать омонимы в каких-то специальных целях;

· для слушающего и читающего омонимии почти нет, так как ударение, контекст снимают практически все омонимичные ситуации;

· при машинной обработке текстов и при машинном переводе омонимия возрастает, так как при двух системных омонимиях возникает еще и межсистемная омонимия.

Единственным способом снятия омонимии в двух языках в плане грамматическом и лексическом является системное кодирование. Системный характер кода представляет следующие характеристики:

1) код должен быть экономным и в то же время избыточным; таким кодом является система-язык.

2) код должен снимать омонимию, т.е. быть однозначным;

3) код должен быть простым и в то же время сопряженным, что дает экономичность коду.

В качестве такой системы на базе симметрии/асимметрии, так как язык-система является именно симметрично-асимметричной (иначе не было бы и омонимии как феномена, когда при симметричности формы имеется асимметрия разных значений), например, для русско-беларуской информационной среды может быть использована следующая симметрично-асимметричная матрица кодов.

Таблица 2

Матрица кодов

Падеж Время Наклонение

И. Р. Д. В. Т. П. Прош Наст Буд Пов.

Я 01 11 21 31 41 51 61 71 81 91

мы 02 12 22 32 42 52 62 72 82 92

ты 03 13 23 33 43 53 63 73 83 93

вы 04 14 24 34 44 54 64 74 84 94

он 05 15 25 35 45 55 65 75 85 95

они 06 16 26 36 46 56 66 76 86 96

она 07 17 27 37 47 57 67 77 87 97

-- 08 18 28 38 48 58 68 78 88 98

оно 09 19 29 39 49 59 69 79 89 99

-- 00 10 20 30 40 50 60 70 80 90

Примечания:

1. Код состоит из трех символов.

2. Первый символ обозначает часть речи, он отсутствует в матрице:

существительное = 1,

глагол = 2,

местоимение = 3,

наречие = 4,

союз = 5,

краткое страдательное причастие = 6,

прилагательное = 7,

частица = 8;

предлог = 9,

числительное = 0.

3. Два другие символа кодируют грамматические позиции рода, числа, падежа для существительных, прилагательных, причастий. Для глаголов - род, время, лицо. Для местоимений - падеж, род, лицо, число;

4. Первый символ 6 после кода глагола как части речи означает прошедшее время, символ 7 - настоящее время и символ 8 - будущее время, символ 9 - повелительное наклонение. Второй символ означает лицо и число. Вторые нечетные символы везде означают единственное число, четные символы - множественное.

5. Предлоги, управляющие только одним падежом, берут код соответствующего падежа:

9-1 - родительным,

9-2 - дательным,

9-3 - винительным,

9-4 - творительным,

9-5 - предложным.

Многопадежные предлоги требуют специального кодирования.

6. Первые символы при чтении по вертикали кодируют шесть падежей (от 0 до 5), три времени и одно наклонение (с 6 до 9). Вторые символы при чтении по горизонтали кодируют лицо, род, число - для местоимений и глаголов; число и род - для существительных, прилагательных и причастий.

7. Две последних строки пусты - этими кодами можно кодировать еще некоторые сложные позиции.

Матрица кодов позволяет однозначно закодировать местоимения, прилагательные, существительные, причастия и глаголы так, что грамматическая, межклассовая и внутриклассовая, внутрипарадигматическая и межпарадигматическая внутри одного класса омонимии снимаются кодом. Особенно это хорошо в случаях согласования в роде, в роде и числе, в роде, числе и падеже.

Однако, при таком кодировании возникает проблема - во многих случаях анализа окружения недостаточно для выбора одной из омонимичных форм, либо данные окружения являются противоречивыми. В исходном словаре на словоформу ее имеются три кодировки в виде: 317, 337 и 737 с аналогичными кодами во втором языке, а так как алгоритмы корректировки будут отталкиваться от этого слова, то существует вероятность неправильного выбора слов из гнезда при переводе окружения.

Завершая описание системы кодов, можно сказать, что свои задачи она решает достаточно полно, так как содержащейся в коде информации достаточно и для более глубокой переработки текста. Избыточность информации позволяет рассчитывать на улучшение алгоритмов корректировки и, как следствие, повышение качества перевода.

Структура гнезда русско-беларуского словаря

ГНЕЗДО/НАЧАЛО

ОсноваРУС=ОсноваБЕЛ

оконч(1)РУС+КОД=оконч(1)БЕЛ+КОД

оконч(2)РУС+КОД=оконч(2)БЕЛ+КОД

...

оконч(Х-1)РУС+КОД=оконч(Х-1)БЕЛ+КОД

оконч(Х)РУС+КОД=оконч(Х)БЕЛ+КОД

ГНЕЗДО/КОНЕЦ

5. Автоматизация построения словарей

(постановка и решение задачи)

Рассмотрим подробнее основные алгоритмы и методы подготовки словника.

При построении системы машинного перевода деловой прозы с русского языка на беларуский (см. [2]), словник в своем окончательном варианте включал более 100.000 исходных слов, каждое из которых имеет гнездо словоизменений (около 12 словоформ в среднем). Каждая словоформа имеет свой код, содержащий лингвистическую информацию. Ввод такого словника одним человеком без дополнительной автоматизации занял бы, по меньшей мере, 25000 часов непрерывной работы. В связи с этим были созданы три программные системы для ввода словника:

- программа поиска и формирования групп слов с одинаковыми окончаниями (1);

- программа заполнения гнезд по группам (2);

- программа заполнения гнезд по признакам (3).

Словарь исходных форм был введен вручную. Далее исследования при помощи программы 1 выявили основные группы окончаний слов, имеющих в гнезде идентичное изменение и кодирование. Например, слова учитель, строитель, канавокопатель изменяются и кодируются аналогично в обоих языках и имеют группу (гласная)+тель.

Далее программа 2 строила, исходя из группы, возможное гнездо, и оператор после беглого просмотра (в ходе работы было выяснено, что ошибки в кодах могут встречаться лишь в двух падежах) подтверждал или отменял выбор системы. Этим способом было создано около 70% словаря. Однако эти слова (наиболее легко формализуемые) имеют самую низкую частоту встречаемости в текстах. Таким образом, эти 70% словаря переводили лишь 5-15% текста! Следовательно, оставалась небольшая, но очень сложноформализуемая и сложнокодируемая часть словаря.

Программа 3 создавала гнезда, исходя не из окончаний (хотя тоже исследовала некоторые признаки), а из задаваемых оператором параметров для исходного слова. Например, слова стол и слон аналогичны в смысле кодирования. Но сгруппировать их по признаку гласная +согласная в конце нельзя, потому что еще множество слов оканчиваются так же, но изменяются по-другому. Поэтому оператор относил их к группе существительное мужского рода, согласная в конце вручную, а гнездо создавалось автоматически. С помощью этой программы удалось ввести еще 20% словаря. Обработка недостающих 10% производилась практически вручную.

Таким образом алгоритм задачи построения машинного словаря словоформ можно представить в виде следующей схемы:

1. Ввод исходных словоформ (вручную).

2. Выделение по окончаниям групп слов, которые кодируются идентично (автоматически).

3. Построение гнезд по группам (автоматически).

4. Выделение групп аналогично кодируемых слов исходя из их морфологии и состава (вручную).

5. Построение гнезд по группам (автоматически).

6. Добавление оставшейся части словаря (вручную).

6. Заключение

В данной работе была исследована роль машинных словарей в задачах автоматической обработки текста, их основные типы и особенности. Рассмотрено такое явление естественного языка как омонимия, показаны вызываемые ею сложности при обработке текста и предложена система кодирования для ее снятия. Поставлена задача автоматизированного построения машинного словаря на этапе развертывания основных грамматических форм. Разработаны алгоритмы ее решения, реализованные в виде трех программных модулей, каждый из которых на соответствующем этапе обеспечивает значительное ускорение построения словаря.

7. Литература

1. Совпель И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста. - Мн.: Выш.шк.,1991.

2. Совпель И.В., Невмержицкая Г.П. и др. Отчет о научно-исследовательской работе "Разработать программные средства машинного перевода текста".