Корпоративные системы управления (стр. 3 из 6)

Системы EDMS реализуют ввод, хранение и поиск всех типов электронных документов, как текстовых, так и графических. С помощью систем этого класса вы можете организовать хранение в электронном виде административных и финансовых документов, факсов, технической библиотеки, изображений, т.е. всех документов, входящих в организацию и циркулирующих в ней.

На рынке предлагается более 500 систем EDMS. Технологически они различаются по способам индексирования и поиска информации. Основной способ ввода документов в систему - сканирование, хотя информация может поступать с магнитных носителей, через модемы и т.д. В системах EDMS первого поколения графические образы введенных документов идентифицируются с помощью ключевых слов, по которым и происходит поиск необходимой информации. В качестве примеров таких систем можно привести программные продукты SoftSolutions (SoftSolutions), DocuData (LaserData), WorkFLO Business System (FileNet).

В более поздних системах EDMS используется технология оптического распознавания символов (OCR - Optical Character Recognition). После сканирования и ввода документа в систему происходит перевод графического образа документа в текстовый файл, после чего следует достаточно трудоемкий процесс исправления ошибок в тексте, допущенных при распознавании. Необходимая информация ищется с помощью механизма четкого поиска по полному содержанию документа. Примерами систем, использующих описанную технологию, могут служить ZyIMAGE (ZyLAB Division of IDI), Topic (Verity), BRS/Search (Dataware).

Каковы наиболее серьезные ограничения предлагаемых систем:

· Использование технологии ключевых слов "стоит" от $5 до $20 на документ.

· Определение ключевых слов - достаточно субъективный процесс, а также ключевые слова со временем теряют свою значимость.

· При использовании технологии OCR требуется тратить значительные усилия на "очистку" текста после использования средств OCR, т.к. даже самые совершенные средства распознавания не дают 100% точность. Это очень трудоемкий и дорогостоящий процесс, его стоимость составляет от $1 до $10 на страницу.

· Во всех предлагаемых системах EDMS используется механизм четкого поиска, поэтому если в запросе допущены орфографические ошибки или в тексте документа не исправлены ошибки распознавания, система никогда не найдет нужной информации.

· Индекс систем с полноконтекстным поиском составляет от 200% до 400% от объема исходных документов, что предъявляет серьезные требования к ресурсам компьютера и существенно увеличивает время поиска при увеличении потока документов.

В начале 90-х годов на рынке систем EDMS появились новые разработки с использованием новейших технологий нейронных сетей и искусственного интеллекта. В системах третьего поколения, созданных на основе этих технологий, реализован нечеткий поиск по полному содержанию документа и очень "компактное" индексирование (всего лишь 30% от объема исходного текста).

Нечеткий поиск означает индифферентность по отношению к ошибкам как во входных данных, так и в формулировках запроса, т.е. он сокращает до минимума влияние ошибок распознавания символов, ошибок набора на клавиатуре при вводе данных, а также ошибок правописания в запросах поиска. С помощью механизма нечеткого поиска вы можете найти то, что ищете, даже если вы не знаете, как это пишется, забыли, как это называется или если это окажется неправильно зарегистрировано. Система всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса, по которому проводится поиск.

На рынке коммерческие системы EDMS третьего поколения представлены программным продуктом Excalibur EFS (Excalibur Technologies Corp.). Пакет Excalibur EFS базируется на технологии адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), разработанной компанией Excalibur Technologies и реализованной в пакете с использованием механизма нейронных сетей.

Технология APRP обеспечивает автоматическую индексацию всего содержания документа, что исключает необходимость выбирать ключевые слова вручную и дает возможность проведения нечеткого поиска любого слова в документе. Это означает, что в экстремальной ситуации пользователю системы Excalibur EFS не нужно беспокоиться о том, как вспомнить правильное название документа, точную фразу или правильное написание сложной формулы, чтобы получить именно ту информацию, которая ему нужна в данный момент.

Excalibur EFS предоставляет пользователю и другие режимы поиска и получения информации: нечеткий поиск по именам документов; ассоциативный поиск по всему тексту с установленными пользователем синонимами; прямой доступ по пиктограммам файлов; запросы в стиле обычной базы данных; поиск по ключевым словам в полном тексте, именах и названиях; логический поиск по всему тексту.

СУБД, системы workflow и системы EDMS - это средства управления информационными потоками. Как же они соотносятся друг с другом? В таблице 2 приведены их краткие характеристики.

Таблица 2.

Назначение	Примечание
СУБД	Ввод, хранение и поиск структурированной информации в электронной форме	Это только 15% всей информации, с которой приходится работать
Системы управления документами	Ввод, хранение и поиск неструктурированной информации в электронном виде	Это 85% всей информации, которая проходит через организацию, включая бумажные документы, переведенные в электронную форму
Системы workflow	Управление, маршрутизация и координация передвижением документов в рамках корпоративной системы; контроль за своевременной обработкой документов	Системы могут быть интегрированы как с СУБД, так и системами управления документами

Комбинация технологий СУБД, workflow и управления электронными документами и, соответственно, интеграция программных продуктов, реализующих эти технологии, дает полное решение проблемы автоматизации работы с документами любого вида в корпорации любого рода деятельности.

Этап VI. Выбор специализированных прикладных программных средств.

При всей описанной общности каждая компания имеет свою специфику, которая определяется родом ее деятельности. Выбор специализированных программных средств в значительной степени зависит от этой специфики.

Например, для компаний, связанных с добычей нефти, в составе информационной системы важно иметь геоинформационные системы. Для промышленных предприятий - системы автоматизации технологических процессов, а также системы класса CAD/CAM. Для коммерческих служб любой фирмы желательно иметь системы финансового анализа, планирования и прогнозирования, для торговых фирм - системы учета клиентов и т.д. При этом могут быть использованы старые наработки (например, бухгалтерия, система регистрации товара на складе и т.д.), интеграция которых в информационную систему будет не слишком трудоемка. Не исключено, что потребуется разработка отдельных специализированных компонентов и интеграция их в единую систему.

Абсолютно для всех компаний необходимо иметь в составе информационной системы стандартный набор приложений, таких как текстовые редакторы, электронные таблицы, коммуникационные программы и т.д. Одним из критериев выбора подобных систем должна быть возможность их несложной интеграции в корпоративную информационную систему.

Этап VII.

Необходимо отметить специальный класс приложений - систем поддержки принятия решений, позволяющие моделировать правила и стратегии бизнеса и иметь интеллектуальный доступ к неструктурированной информации. Системы подобного класса основаны на технологиях искусственного интеллекта.

Различают два направления в развитии технологий искусственного интеллекта:

· Технология вывода, основанного на правилах;

· Технология вывода, основанного на прецедентах.

Практически все ранние экспертные системы моделировали процесс принятия экспертом решения как чисто дедуктивный процесс с использованием вывода, основанного на правилах. Это означало, что в систему закладывалась совокупность правил "если...то...", согласно которым на основании входных данных генерировалось то или иное заключение по интересующей проблеме. Такая модель являлась основой для создания экспертных систем первых поколений, которые были достаточно удобны как для разработчиков, так и для пользователей-экспертов. Однако с течением времени было осознано, что дедуктивная модель эмулирует один из наиболее редких подходов, которому следует эксперт при решении проблемы.

На самом деле, вместо того чтобы решать каждую задачу, исходя из первичных принципов, эксперт часто анализирует ситуацию в целом и вспоминает, какие решения принимались ранее в подобных ситуациях. Затем он либо непосредственно использует эти решения, либо при необходимости, адаптирует их к обстоятельствам, изменившимся для конкретной проблемы.

Моделирование такого подхода к решению проблем, основанного на опыте прошлых ситуаций, привело к появлению технологии вывода, основанного на прецедентах (по-английски: Case-Based Reasoning, или CBR), и в дальнейшем - к созданию программных продуктов, реализующих эту технологию.

Прецедент - это описание проблемы или ситуации в совокупности с подробным указанием действий, предпринимаемых в данной ситуации или для решения данной проблемы. Хотя не все CBR-системы полностью включают этапы, приведенные ниже, подход, основанный на прецедентах, в целом состоит из следующих компонентов:

· получение подробной информации о текущей проблеме;

· сопоставление (сравнение) этой информации с деталями прецедентов, хранящихся в базе, для выявления аналогичных случаев;