Следует ожидать, что спрос на тематические базы данных будет стремительно расти и дальше. Появление поисковых систем нового поколения, использующих смысловую оценку содержания текстов и документов, скорее всего приведет к еще большему спросу на такие базы.
Область применения программы
*поиск текстовых файлов на собственном компьютере
* Поисковые системы для корпоративных пользователей
* Поисковые системы для интернет проектов
Из-за большого количества мусора в сети, необходима сортировка выдачи по степени релевантности или другим критериям (например рейтингу сайта).
* Самое сложная задача, это поиск информации в больших полнотекстовых массивах. Такая система должна искать не просто документы, а информацию, содержащуюся в них.
Программа работы с полнотекстовыми базами данных обычно состоит из нескольких функциональных блоков:
* Программа сканирования файловой структуры исходного массива документов.
Задача программы, достучаться до каждой директории и каждого файла и передать файл соответствующей программе обработчику.
* Комплекс программ извлечения текстовых данных из файлов различных форматов.
на выходе чистый текст для индексирования.
* Программа создания индекса. Индекс полнотекстовой базы это файл, в котором записана информация о каждом слове исходного массива документов: к какому документу оно принадлежит, в какой части документа находится, относится оно к заголовку, основному тексту и т.д.
* Программа леммитизации, работающая с морфологическим словарем.
Лемматизация - слово при индексации и поиске заменяется на базовое
* Программа поиска слов в базе данных
* Лингвистическое обеспечение
- словарь словоизменения (морфологического анализа)
- словарь моделей управления предикатов русского языка
- тезаурус общей лексики (прежде всего синонимы и обобщающие понятия)
- специальные словари и правила, например словари служебных идиоматических единиц (многословные предлоги, союзы, наречия, вводные), часи составных наименований организаций и др.
* (Некоторые системы имеют) Модули работы со смыслом текста
Используют семантические сети, ассоциативные связи.
Такая интеллектуальная система может найти в тексте фрагменты по смыслу отвечающие запросу, хотя они вообще не содержат слов из запроса.
Различные варианты сетевого поиска
* поиск в сетевом окружении.
Такая программа может индексировать файлы, расположенные не только на своем компьютере, но и на дисках других ПК, объединенных в локальную сеть. При этом поиск может осуществляться только с ПК, на котором установлена система и расположена база данных, включая поисковый индекс.
* поисковые системы работающие по интернет протоколу
В этом случае база данных и основная программа установлены на центральном сервере локальной сети.
* программные системы имеющие клиент-серверную архитектуру с собственной клиентской частью программы
Примеры:
* Поисковая система Windows XP (система индексирования, текстов, содержащихся на компьютере)
* Яндека
* Cros
* ODB-Text
* Ищейка
* МБД
Оболочки экспертных систем.
http://www.itpedia.ru/index.php/ Экспертные_системы_(оболочки)
http://expro.kzn.ru/materials/ii_i_es/book.html
http://prof9.narod.ru/doc/doc035.html
http://www.mari-el.ru/mmlab/home/AI/7_8/
Экспертная система - это компьютерная программа, содержащая накопленные знания специалистов в определенной предметной области, Эта программа способна вырабатывать рекомендации, какие бы дал эксперт-человек, запрашивая при необходимости дополнительную информацию. Экспертные системы могут работать на том же уровне что и эксперты, а в некоторых случаях они лучше, потому что в нее вложен коллективный опыт их создателей.
Экспертная поддержка принимаемых пользователем решений реализуется на двух уровнях.
Первый уровень: типовой набор альтернатив
Второй уровень: генерирует альтернативы на базе имеющихся в информационном фонде данных, правил преобразования и процедур оценки синтезированных альтернатив.
Известны три основные разновидности исполнения экспертных систем:
* Экспертные системы, выполненные в виде отдельных программ, на некотором алгоритмическом языке, база знаний которых является непосредственно частью этой программы. Как правило, такие системы предназначены для решения задач в одной фиксированной предметной области. При построении таких систем применяются как традиционные процедурные языки PASCAL, C и др., так и специализированные языки искусственного интеллекта LISP, PROLOG.
* Оболочки экспертных систем - программный продукт, обладающий средствами представления знаний для определенных предметных областей. Задача пользователя заключается не в непосредственном программировании, а в формализации и вводе знаний с использованием предоставленных оболочкой возможностей. Недостатком этих систем можно считать невозможность охвата одной системой всех существующих предметных областей. Примером могут служить ИНТЕРЭКСПЕРТ, РС+, VP-Expert.
* Генераторы экспертных систем - мощные программные продукты, предназначенные для получения оболочек, ориентированных на то или иное представление знаний в зависимости от рассматриваемой предметной области. Примеры этой разновидности - системы KEE, ART и др..
Оболочки экспертных систем - программный продукт, обладающий средствами представления знаний для определенных предметных областей. Задача пользователя заключается не в непосредственном программировании, а в формализации и вводе знаний с использованием предоставленных оболочкой возможностей. Недостатком этих систем можно считать невозможность охвата одной системой всех существующих предметных областей. Примером могут служить ИНТЕРЭКСПЕРТ, РС+, VP-Expert.
Оболочка, shell - базовый элемент операционной системы, определяющий интерпретацию команд и действий пользователя.
CLIPS (Язык C, интегрированная Продукционная Система) - OPS-ПОДОБНАЯ продукционная система, использующая вывод от фактов к цели, написанная на C в ANSI NASA. Механизм логического вывода CLIPS включает сопровождение , динамическое добавление правил и настраиваемые cтратегии разрешения противоречий. CLIPS, включая динамическую версию , легко встраивается в другие прикладные программы. CLIPS включает объектно-ориентированный язык, названный COOL(Объектно-ориентированный Язык CLIPS), который прямо интегрирован с механизмом логического вывода. CLIPS выполняется на многих платформах, включая IBM PC ( Windows 3.1 и версии МС-ДОС 386). Домашняя страница Software Technology Branch - http://www.jsc.nasa.gov/stb/STB_homepage.html NASA, домашняя страница Nasa Information Services http://hypatia.gsfc.nasa.gov/NASA_homepage.html и домашняя страница CLIPS - http://www.jsc.nasa.gov/~clips/CLIPS.html Cписок ЧАСТО ЗАДАВАЕМЫХ ВОПРОСОВ по CLIPS и ошибки располагаются на jsc.nasa.gov:/pub/clips/ и поддерживаются Gary Riley.
DYNACLIPS (динамические Утилиты CLIPS ) - включает доску объявлений, механизм динамического обмена знаниями и инструментальные средства для CLIPS v5.1 и v6.0. Она существлена как набор библиотек, который может быть связан с CLIPS v5.1 или CLIPS v6.0. Исходный текст не предоставляется. Для связи с другими интеллектуальными средствами используется доска объявлений. Она находится в ИИ архиве на ftp.cs.cmu.edu:/user/ai/areas/expert/systems/clips/dyna/
FuzzyCLIPS 6.02 - версия CLIPS, оболочка экспертной системы, основанная на правилах, используется для представления и управления нечеткими фактами и правилами. В дополнение к функциональным возможностям CLIPS, FuzzyCLIPS может иметь дело с точными, нечеткими (или неточными) знаниями, сложными рассуждениями, которые можно свободно смешивать в правилах и фактах экспертной системы. Система использует две базисных концепции о неточности , нечеткость и неопределенность. Имеются версии для систем UNIX, Macintosh и IBM PC.Программное обеспечение распространяется бесплатно, но документация по FuzzyCLIPS имеет сроки использования. Находится на http://ai.iit.nrc.ca/home_page.html или более прямо, на URL http://ai.iit.nrc.ca/fuzzy/fuzzy.html или анонимном ftp-сервере ai.iit.nrc.ca:/pub/fzclips/
WxCLIPS снабжает CLIPS v5.1, CLIPS v6.0 и CLIPS v6.0 с нечетким представлением знаний простым графическим внешним интерфейсом.Имеется WxCLIPS для Windows 3.1, 32-разрядного Windows и Windows 95. WxCLIPS находится на анонимном FTP-сервере Ftp.aiai.ed.ac.uk:/pub/packages/wxclips / [192.41.104.6] Или на http://www.aiai.ed.ac.uk/~jacs/wxclips/wxclips.html Чтобы Вас добавили к пользователям wxclips , пошлите сообщение по адресу wxclips-users-request@aiai.edinburgh.ac.uk. Другие оболочки экспертных систем
SOAR - ftp.cs.cmu.edu : /afs/cs.cmu.edu/project/soar/public/Soar5/ - Версия на лиспе /afs/cs.cmu.edu/project/soar/public/Soar6/ - Версия на C Контакт: soar-request@cs.cmu.edu OPS5 - содержит механизмы представления знаний и управления. Хотя эта система обеспечивает основные потребности инженерии знаний, она не ориентирована на конкретные стратегии решения задач или схемы представления знаний. Система разрешает программисту использовать символы и представлять отношения между символами, однако эти символы и отношения не имеют заранее определенных значений. Последние полностью определяются порождающими правилами, которые пишет программист. Механизм управления интерпретатора OPS5 представляет собой простой цикл, называемый "циклом распознавания", детали которого пользователь разрабатываетсам в соответствии со своими потребностями. Находится по адресу: ftp.cs.cmu.edu:/user/ai/areas/expert/systems/ops5/ops5.tar.gz
BABYLON - среда для разработки для экспертных систем . Она включает фреймы , модели данных, Пролог-подобный логический формализм, и язык для написания диагностических прикладных программ. Она написана на Лиспе и переносима на широкий диапазон аппаратных платформ. Располагается на анонимном ftp-сервере tp.gmd.de:/gmd/ai-research/Software/Babylon/ [129.26.8.84] как BinHexed stuffit архив, в WEB- сети по адресу http://www.gmd.de/
MIKE (Микро Интерпретатор для инженерии знаний) - это полная, свободная и переносимая программная среда, разработанная для целей обучения в Открытом Университете ВЕЛИКОБРИТАНИИ. Она включает прямые и обратные правила вывода от цели к фактам с определяемыми пользователем cтратегиями разрешения противоречий, и фреймовый язык представления знаний с наследственностью и ' демонами', плюс определенные пользователем cтратегии наследования. Правила вывода автоматически снабжаются, объяснениями 'как ', пользователь может сформировать объяснения ' почему '. Порядок применения правил в процессе трассировки и выполнения может отображаться графически на дисплее. MIKE, который формирует ядро курса по Инженерии знаний Открытого Университета, написан на консервативном и переносимом подмножестве Пролога, исходный текст программы свободно распространяется. MIKE версии 1 был написан в октябре / ноябре 1990. MIKE v1.50, который прежде находился на ftp- сервере, был заменен двумя более новыми версиями: MIKE v2.03, полная версия исходного текста на Пролога, включая RETE алгоритм для быстрого поиска вперед, систему сопровождения , обработки неопределенности, и гипотетических миров, и MIKE V2.50, (DOS-версия под ключ) с интерфейсом, управляемым с помощью меню, и инструментальными средствами для создания и просмотра фреймов, полностью совместимая с MIKE V2.03, но без исходного текста. Они располагаются на анонимном ftp-сервере hcrl.open.ac.uk [137.108.81.16] в виде файлов: /pub/software/src/MIKEv2.03/* MIKEv2.50: /pub/software/pc/MIKEV25.ZIP Для получения дальнейшей информации войдите в контакт с Marc'ом Eisenstadt'ом M.Eisenstadt@open.ac.uk.