Смекни!
smekni.com

Изобретание, проектирование, разработка и сопровождение) Том Интеллектуальные системы (Системы решения проблем)  Альберт Александрович Красилов (стр. 33 из 85)

Логический вывод в принципе не может приводить к потере какой-либо части знания. Преобразование знаний по законам (аксиомам и правилам) ИЛ исключает потерю знаний. Потеря может происходить только при формировании БЗ или запроса. МЛВ и МАВ решают задачу сохранения знаний и контролируют фактическую и возможную потерю. Это обосновано составлением правил преобразования. Можно привести пример внесения искажений знания. Пусть имеется формальная запись: «А * Х = В». Она обрабатывается программой МАВ так, что в результате получается запись: «Х = В / А и А <> 0». Если в результат не посылалось бы неравенство «А <> 0», то произошло бы искажение знания о линейном уравнении.

Поставим другим образом вопрос сохранения знаний. А всегда ли необходимо сохранять знания? Потеря знаний может играть и положительную роль. Это утверждение может показаться абсурдным. Но рассмотрение примера поможет сгладить впечатление абсурдности. Пользователь описывает понятие «человек». Формально это понятие представляется записью со многими полями, среди которых может присутствовать поля «паспорт» и «цвет волос». При рассмотрении задач о пригодности человека к торговле едва ли будут использованы указанные поля с данными из паспорта или о цвете волос. Поэтому, если при описании понятия будут опущены такие поля, то потери знания не произойдет. Формализация понятий со структурными характеристиками требует особого внимания к выбору частей структуры. В этом проявляется сущность процесса абстрагирования - учета главного и исключения второстепенного. Пример проиллюстрировал положительность роли потери знания. Не всегда следует скрупулезно исследовать понятия по второстепенным характеристикам, связанная с абстрагированием, потеря сведений может принести выгоду в использовании памяти или быстродействия Интеллсист.

7.6. Общие операции анализа текстов и МГР

К операциям анализа текстов относятся следующие операции: выделение, сравнение и генерация слов терминов и языковых фрагментов. С помощью этих операций можно строить алгоритмы обработки текстов. Некоторые из них рассматриваются ниже.

Значительную роль в концептуальной информатике играет программа МГР или подобные ей программы. Они используются в первую очередь для грамматического анализа текстов и выявления терминов. Это не означает умаление свойств и назначение программ, которые реализуют поиск сообщений, идентификацию терминов и выражений, проводят корреляционный анализ смысла произвольных текстов и др. Важным свойством МГР для указанных целей является ее способность проверять принадлежность текстов языку или порождать тексты данного языка.

Тексты подвергаются анализу для решения следующих задач:

- частотный анализ по буквам (вообще, символам), по словам, по терминам или по фразам;

- подготовка текстов (первичная обработка) для эффективного преобразования его (вторичная обработка) в выходные тексты или таблицы в соответствии с выходным языком;

- выделение терминов с частотными характеристиками их использования в тексте;

- проведение корреляционного анализа текста по смыслу для составления словного или терминологического словарей;

- использовать текст в поиске необходимых сведений с помощью ключевых слов, терминов или фраз;

- выполнить текст, если он является программой;

- ввести текст в Интеллсист, если он является записью знаний или запросом.

Отсюда следуют операции, с помощью которых решают одну какую-либо задачу из числа указанных. Многие операции являются частью семантических подпрограмм МГР. Например, выбор и идентификация слов и терминов, а также составление словарей, ведение подсчета числа использования элементов словарей, перевод лексем во внутреннее представление, сравнение слов и терминов, формирование таблиц с лексемами и характеристиками терминов - все эти операции являются составной часть подпрограмм семантического преобразования. МГР используется для распознавания лексем и грамматических понятий во входном тексте, распознавание описаний понятий. Такие операции необходимы при вводе исходных данных СП, если эти операции не применялись до формирования файлов с исходными данными.

МГР может с успехом применяться для решения многих задач концептуальной информатики. Отметим лишь некоторые. Прежде всего, программа МГР применима для анализа текстов на предмет контроля правильности использования языковых конструкций, другими словами - проводить полный грамматический анализ. Программа МГР применима для выделения малого контекста заданного термина, она применима для сравнения фрагментов текста с заведомо поставленной целью и для генерации фрагментов по заданной части грамматики. Конечно, с помощью семантических подпрограмм можно решать самые разнообразные задачи. Но их реализация таким методом сложна и (скорее всего) непродуктивна.

7.7. Проблемы концептуальной информатики

Исследования любого типа и любого уровня всегда завершаются постановкой проблем. Ведь отсутствие проблем означает прекращение развития (или смерть науки или теории). Это в равной мере относится и к исследованиям концептуальной информатики. Разделы концептуальной информатики были рассмотрены не полно, поэтому и проблемы рассматриваются здесь только в самом общем виде и частично.

Для изучения определений крайне необходимы словари имен и терминов для построения трансляторов ЯПП и выявления слов из фраз. Словари составляются эффективно только при полной или хотя бы частичной автоматизации процессов сбора и анализа слов и словосочетаний. Для повышения эффективности Интеллсист и ее готовности решать задачи крайне необходимо создавать машинные словари. Они должны быть отлаженными и практически проверенными. Может быть в меньшей степени это относится и к машинным словарям из слов, но заслуживает самого ответственного подхода к вопросам создания машинных терминологических словарей. Конечно, полный терминологический словарь ЕЯ составить невозможно, поскольку термины имеют различные смыслы в языках различных специальностей. Поэтому речь может идти о профессиональном терминологическом словаре. Здесь еще имеются многочисленные проблемы создания машинных лексиконов по профессиям и словарей из слов в соответствии с текстами знаний. Построение единых и унифицированных словарей станет гарантом правильности передачи знаний для Интеллсист.

Следующей по степени сложности проблемой является проблема разрешения заданий по формализации текстов при выделении понятий и переводе текстов знаний и запросов на ФЯ Лейбниц. После формализации текстов ставится проблема анализа результирующих логических формул на непротиворечивость, независимость и полноту всей совокупности выражений (формул) в пределах одного определения или в пределах системы определений понятий, терминологического словаря. Описание термина для Интеллсист представляет собой некоторую начальную стадию формализации знаний. Емкое описание может привести к неразрешимым противоречиям не только в существе описания, но и способах обозначений для терминов и значений понятия. Проблема концептуальной информатики состоит в пополнении и развитии ЯПП и в особенности СеГ. Пополнение СеГ начинается со сбора терминологического словаря для операций (собирание термаций) или величин (собирание термандов) и завершается внесением или учетом этого пополнения в словарях транслятора Интеллсист.

Имеется еще система проблем, связанная с анализом и синтезом текстов ЯПП. Общая формулировка проблемы такова: разработать алгоритмы распознавания по вводимой информации (текстам из символов букв, цифр и т.п.) терминов, понятий и определений понятий. Некоторые из этих проблем имеют решения, другие проблемы находятся на стадии постановки. Пожалуй, самой интересной проблемой в системе проблем является проблема распознавания понятий. Ее разрешение позволит приблизиться к автоматическому вводу знаний из учебников, пособий и руководств. Такой ввод знаний позволит контролировать точность знаний в учебниках, пособиях и руководствах. Имеющиеся в Интеллсист средства разрешают проблему поиска терминов или создания словаря из терминов по «сырому» тексту знаний, которые представляют самые различные публикации.

Наиболее актуальной проблемой является проблема использования понятия смысла для решения важных задач и повышения смысловой эффективности результатов решений. Поиск решений по смыслу эффективнее поиска решений по ключевым словам, терминам или фразам (по ключам). Распознавание свойств и классификация текстов по смыслу эффективнее распознавания и классификации текстов по ключам. Создание рубрик для классов текстов по смыслу также эффективнее ручного способа или автоматического создания рубрик по ключам. Наконец, отнесение текста по смыслу к той или иной рубрике также эффективнее сопоставления текстов по ключам.

Имеются некоторые технические и алгоритмические проблемы анализа больших текстов и словарей. Сегодня анализу подвергаются тексты, которые характеризуются размерами до десятков и сотен Гб. Здесь трудно предвидеть предел роста размеров текстов. Они увеличиваются непрерывно и, как кажется, беспредельно. Словари больших размеров возникают при попытке объединения всевозможных ЯПП в единый язык. Проблема состоит в распознавании понятий с одинаковыми терминами по контексту большого размера. К этому надо добавить, что ЕЯ различных национальностей также объединяются во всеобщий язык. Размеры словарей складываются из числа внесенных слов (в нескольких регистрах букв), дат (они могут играть роль ключей для поиска), последовательностей знаков или строк. Этим не ограничивается перечень лексем, которые распознает и сохраняет та или иная система в словарях. Хорошие программы потенциально учитывают, что размеры словарей будут иметь порядок 2 - 5 млрд. единиц. Проблема заключается в поиске способов кодирования словарей для реализации эффективной идентификации их элементов с помощью большого словаря.