Под термином «знания» при этом понимается вся совокупность информации, необходимой для решения задачи, включающая в себя, в том числе информацию о:
· системе понятий предметной области, в которой решаются задачи;
· системе понятий формальных моделей, на основе которых решаются задачи;
· соответствии систем понятий, упомянутых выше;
· текущем состоянии предметной области;
· методах решения задач.
При этом система знаний должна быть организована таким образом, чтобы обеспечить взаимодействие вычислительной системы с пользователем в системе понятий и терминов предметной области.
Что же такое знания и чем они отличаются от данных в системах машинной обработки?
Знания — это целостная и систематизированная совокупность понятий о закономерностях природы, общества и мышления, накопленных человечеством в процессе активной преобразующей производственной деятельности и направленная на дальнейшее познаниеи изменение объективного мира.
Следовательно, интеллектуальная деятельность человека связана с поиском решений в новых, нестандартных ситуациях. Отсюда, задача называется интеллектуальной, если алгоритм ее решения априори неизвестен. При этом задача и ее решение понимаются в самом широком смысле. Решение задачи — это любая деятельность (человека или машины), связанная с выработкой планов и действий, необходимых для достижения определенной цели; выводом новых закономерностей и т. п. Любая интеллектуальная деятельность опирается на знания о предметной области, в которой ставятся и решаются задачи. Предметной областью обычно называют совокупность взаимосвязанных сведений, необходимых и достаточных для решения данной задачи или определенной совокупности задач.
Знания о предметной области включают описания объектов, явлений, фактов, а также отношений между ними.
В общем виде знания в ЭВМ представляются некоторой семиотической (знаковой) системой, в которой выделяются по аналогии с данными три аспекта: синтаксический, семантический и прагматический.
Синтаксис описывает внутреннее устройство знаковой системы, т. е. правила построения и преобразования сложных знаковых выражений. Для естественного языка синтаксис определяет правильное построение предложений и связанного текста.
Семантика определяет отношения между знаками и их свойствами (концептами), т. е. задает смысл или значения конкретных знаков.
Прагматика определяет знак с точки зрения конкретной сферы его применения либо субъекта, использующего данную знаковую систему.
В соответствии с перечисленными аспектами семиотических систем можно выделить три типа знаний: синтаксические, семантические и прагматические.
Синтаксические знания характеризуют синтаксическую структуру описываемого объекта или явления, которая не зависит от смысла и содержания используемых при этом понятий.
Семантические знания содержат информацию, непосредственно связанную со значениями и смыслом описываемых объектов и явлений.
Прагматические знания описывают объекты и явления с точки зрения решаемой задачи, например, с учетом действующих в данной даче специфических критериев.
Трем типам знаний соответствуют и три типа моделей для их представления: синтаксические, семантические и прагматические. Наличие двух последних является наиболее существенным признаком, отличающим интеллектуальные системы от всех других.
Прежде чем перейти к описанию моделей представления знаний, проанализируем особенности знаний, которые собственно и отличают их от данных.
Интерпретируемость. Данные, помещенные в ЭВМ, могут содержательно интерпретироваться лишь соответствующей программой. В отрыве от нее данные не несут никакой содержательной информации. Знания отличаются тем, что возможность содержательной интерпретации всегда присутствует.
Структурированность или наличие классифицирующих отношений. Несмотря на разнообразие форм хранения данных, ни одна из них не обеспечивает возможности компактного описания всех связей между различными типами данных. Информационные единицы знаний должны обладать гибкой структурой, т. е. для них должен выполняться «принцип матрешки» — такой вложимости, когда любую информационную единицу можно включить в состав другой и из каждой информационной единицы можно выделить некоторые ее составляющие. Это позволяет записывать и хранить отдельно информацию, одинаковую для всех элементов множества. При необходимости эту информацию можно автоматически передать описанию любого элемента множества. Такой процесс называется «наследованием» информации.
Наличие ситуативных связей или связность. Они определяют ситуативную совместимость отдельных событий или фактов, хранимых или вводимых в память, а также такие отношения, как одновременность, расположение в одной области пространства, нахождение в состоянии механического или иного взаимодействия и т. п. Ситуативные связи помогают строить процедуры анализа знаний на совместимость, противоречивость и другие, которые трудно реализовать при хранении традиционных массивов данных.
Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношение, характеризующее ситуационную близость информационных единиц, т. е. Силу ассоциативной связи между ними. Это отношение можно назвать отношением релевантности для информационных единиц. Такое отношение дает возможность выделять в информационной базе некоторые типовые ситуации. Отношение релевантности при работе с информационными единицами дает возможность находит знания, близкие к уже найденным.
Активность. Все процессы, протекающие в ЭВМ, инициируются командами, которые являются активной компонентой, а данные используются этими командами лишь при необходимости, т. е. последние — пассивная компонента. Такая ситуация, характерная для классических систем обработки информации, для интеллектуальных систем (ИС) неприемлема. По аналогии с человеком в ИС актуализации тех или иных действий способствуют знания, имеющиеся в системе. Таким образом, выполнение программ в ИС должно инициироваться текущим состоянием информационной базы. Появление в базе фактов (объектов выбора) или описаний событий (квалификаторов и их значений), установление связей (правил в продукционных системах) может стать источником активности системы.
Особенности знаний, их назначение и структура, способы хранения и интерпретации вызывают определенные аналогии со способами организации человеческой памяти. Однако человеческая память хранит не только числовые данные, но и образы или символы. Символьные образы в памяти человека объединены в так называемые чанки — наборы фактов и связей между ними, запоминаемые и извлекаемые как единое целое. В каждый момент времени человек может обрабатывать и интерпретировать не более 4-7 чанков. Способность формировать чанки отличает Эксперта в конкретной предметной области от не эксперта. Эксперт, в силу профессиональной необходимости, упорно развивает свою способность объединять в чанки большие объемы данных и устанавливать иерархические связи между ними (т. е. преобразовывать данные в знания) для того, чтобы быстро извлекать эти данные из памяти и с их помощью распознавать новые ситуации по мере поступления информации об этих ситуациях. Средний специалист в конкретной предметной области помнит от 50 000 до 100 000 чанков, которые могут быть использованы для решения той или иной проблемы. Накопление в памяти человека и построение указателей для такого объема данных требует от 10 до 20 лет.
Перечисленные особенности информационных единиц определяют ту грань, за которой данные, превращаются в знания, а базы данных перерастают в базы знаний.
Однако в настоящее время не существует баз знаний, в которых комплексно, в полной мере были бы реализованы внутренняя интерпретируемость, структуризация, связность, введена семантическая мера и обеспечена активность знаний.
Все это предопределяет многообразие моделей представления данных, используемых в интеллектуальных системах, хотя некоторые из них являются производными из существующих.
Как уже отмечалось, технологию построения экспертных систем часто называют инженерией знаний. Как правило, этот процесс требует специфической формы взаимодействия создателя экспертной системы, которого называют инженером знаний, и одного или нескольких экспертов в некоторой предметной области. Инженер знаний «извлекает» из экспертов процедуры, стратегии, эмпирические правила, которые они используют при решении задач, и встраивает эти знания в экспертную систему. Одной из наиболее сложных проблем, возникающих при создании экспертных систем, является преобразование знаний эксперта и описания, применяемых им способов поиска решений в форму, позволяющую представить их в базе знаний системы, а затем эффективно использовать для решения задач в данной предметной области.
Обычно эксперт не прибегает к процедурным или количественным методам; его основные средства — аналогия, интуиция и абстрагирование. Часто эксперт даже не может объяснить, как именно им было найдено решение. В лучшем случае вы получите от него лишь описание основных приемов или эвристик, которые помогли ему успешно справиться с задачей. На инженера знаний возлагается очень сложная работа по преобразованию этих описаний в строгую, полную и непротиворечивую систему, которая позволяла бы решать прикладные задачи не хуже, чем это сделал бы сам эксперт, поскольку процесс построения базы знаний плохо структурирован и по своей природе является скорее циклическим, чем линейным.
Построение базы знаний включает три этапа:
1. описание предметной области;
2. выбор модели представления знаний (в случае использования оболочки этот этап исключается);
3. приобретение знаний.
Первый шаг при построении базы знаний заключается в выделении предметной области, на решение задач из которой ориентирована экспертная система. По сути, эта работа сводится к очерчиванию инженером знаний границ области применения системы и класса решаемых ею задач. При этом необходимо: