Логические грамматики превратились с течением лет в инструментарий высокого уровня, и теперь они позволяют пользователю сконцентрироваться на лингвистических феноменах. Грамматики, построенные на определенных предложениях, поддерживают использование логики для обработки данных естественного языка, и они подготовили почву для практической работы лингвистов на языке программирования PROLOG.
ГРАММАТИКА, ПОСТРОЕННАЯ НА ОПРЕДЕЛЕННЫХ ПРЕДЛОЖЕНИЯХ (DEFINITE-CLAUSE GRAMMAR или DCG)
Проведение работ по исследованию построения грамматик для понимания естественного языка (далее ЕЯ) приобрело большую популярность после введения Колмеройером в 1975 году грамматических формализмов, основанных на предложениях Хорна. Так называемые метаморфозные грамматики (metamorphosis grammars или MGs) определили рост заинтересованности в области выражения лингвистических понятий в логике (qv) и заложили основу для создания качественных блоков предварительной обработки данных (процессоров ввода-вывода) и интерфейсов. Основное применение результаты этих исследовательских работ нашли в консультировании и создании баз данных на основе ЕЯ, выработке вопросов и ответов, переводе текстов и синтезе текстов, исходя из надлежащим образом оформленных спецификаций.
Понятие грамматик, построенных на определенных предложениях (DCGs), как особого случая метаморфозных грамматик, было введено в 1978 году Перейрой и Уорреном в качестве грамматического формализма, для которого PROLOG имеет эффективный механизм синтаксического анализа. Одни практические системы были созданы для одновременного использования синтаксического и семантического знания для привнесения логики в структуру, содержа в себе информацию для семантической интерпретации. Другие системы были выстроены на более чем одном уровне трансляции; использование синтаксического и семантического знания осуществлялось отдельно друг от друга, и конечным результатом являлось в PROLOGе предложение Хорна, выполнение которого осуществлялось механизмом планирования (qv).
Техника экстрапозиционных грамматик (extraposition grammars или XGs) была предложена Перейрой для описания определенных глобальных отношений или экстрапозиций, таких как связь между относительным местоимением и его записью. В конечном итоге разработки наподобие грамматик структуры определений (modifier structure grammars или MSGs) Даля и МакКорда, древовидных грамматик (tree grammars или TGs) Колмеройера и усложненных грамматик (puzzle grammars или PGs) Сабатье увеличили силу выражения лингвистических понятий.
Все эти исследовательские работы по грамматическим формализмам, замешанным на логике, стали возможны и проще в осуществлении после выбора PROLOGа, языка программирования основанного на подмножестве логики первого порядка.
ЛОГИЧЕСКИЕ ГРАММАТИКИ
Грамматики описывают структуру (синтаксис) языков множеством продукций (правил, перерабатывающих текст). Например, правилом
sentence -> noun-phrase verb-phrase
устанавливается связь между тремя нетерминальными символами: предложение может состоять из именной группы и следующей за ней глагольной группы.
Такие правила могут быть отображены в PROLOGе следующим образом:
sentence (S1, S3): - noun-phrase (S1, S2), verb-phrase (S2, S3).
verb-phrase (S1, S2): - connects (S1, writes, S2).
connects (1, each, 2).
connects (2, author, 3).
connects (3, writes, 4).
(Примечание: предикаты (т. е. выражения с неопределенными терминами, или переменными, которые преобразуются в истинные или ложные высказывания при выборе конкретных значений для этих самых терминов) заносятся в PROLOG через запятую. Переменные отличаются от констант первой заглавной буквой.)
В нижеследующей записи числа обозначают начало и конец каждого слова:
1each2 author3 writes4
Чтобы проверить правильность построения предложения, необходимо указать цель
? - sentence (1, 4).
(где ? - бинарное обозначение структуры (или бинарный функтор), содержащееся в любой системе PROLOG) и продемонстрировать, что она подтверждается предыдущими условиями. Используя список в качестве информационной структуры для представления предложения, числа больше не нужны, так как PROLOG имеет устройство синтаксического анализа, способного перевести:
? - sentence ([each, author, writes]. [ ]).
Грамматики, построенные на определенных предложениях, являются объемом понятия контекстно-свободных грамматик, которые также могут быть транслированы на язык PROLOG. Грамматики, построенные на определенных предложениях, позволяют любому логическому выражению стать нетерминальным, они построены на логических символах: константах, переменных, выражениях, - а не только на одних константах. Также они имеют только один нетерминальный символ в левой части каждого правила. Контекстные зависимости (контекстные отношения подчинения) описываются логическими переменными в рамках параметров (или независимых переменных) грамматических символов.
У правила грамматики, построенной на определенных предложениях, следующая форма:
nonterminal symbol -> body (основная часть программы).
где “body” (“основная часть”) является последовательностью одного или более элементов данных, отделенных друг от друга запятыми. Каждый элемент данных является либо нетерминальным символом, либо последовательностью терминальных символов. Значение правила состоит в том, что "основная часть"- это возможная форма для группы типа “нетерминальный символ”. В PROLOGе нетерминальный символ записывается как выражение (а не как список), а последовательность терминальных символов - в виде списка.
В правой части правила наряду с нетерминальными символами и списком терминальных символов могут находиться последовательности вызовов процедур, записываемых в фигурных скобках ({and}). Они используются для выражения дополнительных условий, которые в обязательном порядке должны выполнятся, чтобы правило действовало. Нетерминальный символ преобразуется в (N + 2)-местный предикат (имеющий идентичное название), чьи первые N параметры полностью описаны в нетерминальном символе и чьи последние два параметра являются такими же, как и при трансляции контекстно-свободного нетерминального символа. Вызовы процедур в правой части правила транслируются так, как они есть.
Каждое грамматическое правило, типа
p(X) -> q(X).
получает группу входящих данных, анализирует некую исходную часть и генерирует остаток для дальнейшего анализа. Это частное правило транслируется системой PROLOG как
p(X, S0, S): - q(X, S0, S).
Следовательно, система грамматической индексации в PROLOGе обеспечивает более сжатую запись, когда параметры для групп входящих и выходящих данных неявно выражены.
Когда в правиле содержатся терминальные символы, они транслируются со сказуемым "connects". Кпримеру,
connects(S1, X, S2)
означает, что суть S1 связана через X с сутью S2.
Правило
p(X) -> (older), q(X), (high).
преобразуется в
p(X, S0, S): - | connects(S0, older, S1), |
q(X, S1, S2), | |
connects(S2, high, S). |
АНАЛИЗ ЕЯ
В 1977 году Колмеройер ввел общую схему анализа ЕЯ, что явилось решающим шагом вперед и вызвало огромный интерес в области использования логических грамматик как альтернативы прочно утвердившимся грамматикам расширенных сетей переходов (augmented transition network grammars). С исторической точки зрения, это можно признать поворотным пунктом, так как был указан метод преобразования предложений ЕЯ в логические структуры. Метод заключался в рассмотрении простейших высказываний, содержащих собственные имена существительные, какой бы то ни было артикль в виде квантора (кванторного слова) с тремя операциями перехода и четыре приоритетных правила, для разрешения проблемы иерархии квантования (количественного измерения качественных признаков).
Краткий обзор общей схемы побуждает к дальнейшему развитию приемов составления логических грамматик. Например, предложение
Chomsky is (a) writer
содержит имя собственное, и глагол “to be” преобразуется в формулу
writer(chomsky)
Главным образом глаголы, прилагательные, имена существительные вводят характеристики с n параметрами. Для глаголов, n может равняться 1 [непереходные глаголы] или N+1 [переходные глаголы, где N - количество комплементов (дополнений, следующих за глаголом в составном сказуемом и описывающих его подлежащее)]. Для прилагательных и имен существительных n равняется или больше 1 (отношения, где n - это n-место его параметров). Параметры представляют в предложении дополнения при имени существительном, глаголе или прилагательном.
Например, предложение
Chomsky writes a book
содержит глагол “write”, существительное “book” и артикль “a” и может быть заменено следующей формой:
for a
B
such that
B is (a) book (1)
it is true that
Chomsky writes B (2)
где (1) и (2) являются простейшими высказываниями.
Эта же логическая структура может быть записана в стенографических индексах:
a(B, book (B), writes(Chomsky), B)).
Обратите внимание, что высказывания (1) и (2) преобразуются в формулы “book(B)” и “writes(Chomsky, B),” соответственно.
Логическая структура выражает смысл предложения, и каждая из ее составных частей соответствует смыслу обособленных слов согласно принципу Фреже. Записи, передающие значение, указываются как логические структуры, так как единственным из области значения, что люди научились точным образом представлять в виде записи в ЭВМ, являются логические отношения.
Всякий артикль a представляет квантор q (кванторное слово) с тремя операциями перехода, создающий новую формулу из переменной x и двух формул f1 и f2,
q(x, f1, f2).
Эта формула соответствует высказыванию
for a x such that e1, it is true that e2
где e1 и e2 являются простейшими высказываниями соответствующими f1 и f2.
Например, предложение
Chomsky writes a book for each publisher
содержит глагол “write”, два существительных (“book” и “publisher”) и два артикля (“a” и “each”) и может быть заменено следующей формой:
for each P such that P is a publisher it is true that for a B such that B is a book, it is true that Chomsky writes B for P
Предложение преобразуется в логическую структуру