Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения (стр. 22 из 22)

Прежде чем говорить о решениях, предложенных и реализованных для повышения эффективности поиска, коснемся основных моментов проблемы поиска.

Проблема существует с момента возникновения первых систем управления документами. К решению проблемы применяется множество разнообразных подходов.

Рассмотрим модели поиска. Здесь существует два подхода. Первый состоит в том, что в процессе поиска вы ищете документ, который точно существует в системе, и ваша задача - свести процесс к его нахождению. Второй подход состоит в том, что вы ищете все документы, которые могут относиться к интересующему вас вопросу. Для этого подхода характерны такие термины, как полнота поиска - соответствие между найденными документами по данному запросу и действительному списку документов; шум при поиске - соотношение (соответствие) соответствующих и несоответствующих запросу документов.

Теперь о типах поиска. Существует два основных типа: атрибутивный (реквизитный), когда каждому документу присваивается набор определенных атрибутов (полей). При сохранении документа в архив поля заполняются определенными значениями, в дальнейшем при поиске проверяется совпадение значений этих полей запросу. Второй тип поиска носит название полнотекстовый. В этом случае автоматически обрабатывается все содержание, как правило предварительно проиндексированного, документа, и затем его можно найти по любому входящему в него слову. Также существует так называемый "нечеткй поиск". Данное понятие в приложении к системам управления документами связано с продуктом компании Excalibur Technologies – системой Excalibur EFS. В основе системы лежит технология так называемого "адаптивного распознавания образов", позволяющая, с точки зрения разработчиков, обеспечить эффективный поиск в распознанных документах, непрошедших трудоемкий этап выявления и исправления ошибок. Таким образом, декларируется возможность работы с документами, заведомо содержащими ошибки. На самом деле у данного метода больше минусов, чем плюсов. Системы, использующие данный метод поиска требуют больших вычислительных ресурсов, налагаются определенные требования к минимальной длине запроса, в ответе содержится слишком много шума, а значит пользователю прийдется вручную отсеивать лишние документы.

В данном дипломном проекте реализованы полнотекстовый и атрибутный поиск.

Поиск документа более полный, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те, в которых присутствуют различные его словоформы. Данная технология носит название нормализации. Причем эффективность поиска зависит от применяемого алгоритма. Для русского языка наиболее эффективен применяемый в данном дипломном проекте словарный метод, когда слово нормализуется на основе словарей, в которых содержатся основы слов.

Для повышения эффективности поиска в созданной системе были реализованы некоторые процедуры. Одни из них направлены на повышения скорости поиска, другие – на улучшение достоверности поиска.

Так, для повышения достоверности поиска индекс документа предварительно заполняется терминами, широко используемыми в Министерстве Торговли РФ. Это позволяет в дальнейшем эффективно распознавать эти термины, в то время как обычная система поиска как правило исказила бы их при занесении в индекс и сделала бы затруднительным поиск по данным терминам.

В качестве мер для повышения скорости поиска было предложено объеденить индексы документов в единый индекс определенного формата. Это также целесообразно с точки зрения экономии дискового пространства.

Для того чтобы подтвердить эффективность разработанного алгоритма, были проведены испытания, дающие определенное представление о скорости и качестве поиска при использовании различных средств поиска.

Для испытаний использовался ПК с процессором Pentium – 166MMX, RAM 64 Mb, HDD Quantum Fireball TM 2,1 GB и операционной системой MS Windows NT 4.0 Workstation.
Массив данных для поиска: 473 файла в 54 каталогах, общим объемом 53,5 Mb.

Испытываемые средства поиска:

Windows NT Server Explorer;

Medialingua Text Pilot (программа смыслового поиска документов "Следопыт" российской компании "Медиалингва");

"Евфрат 99", система автоматизации делопроизводства компании Cognitive Technologies.

Программа, реализующая алгоритм, предложенный в данном дипломном проекте.

Для составления запроса использовались слова "поиск", все словоформы которого содержат исходное слово и "автоматизация", не обладающее этим свойством.

Полученныерезультаты:

Время поиска: 30, 15, 13 и 9 секунд соответственно.
Количество обнаруженных документов: для слова "поиск" – 34 документа для каждого средства поиска, для слова "автоматизация" – 2, 16, 18 и 22 документов соответственно.

Проведенное исследование не претендует на абсолютную объективность. Тем не менее, очевидно, что применение предложенных мер существенно увеличивает эффективность поиска.

Теперь коснемся архивации информации.

Принцип организации хранения документов в системе изолирует пользователя от физического хранилища документов по двум причинам:

1. При доступе к библиотеке, пользователь не знает, где располагается база данных, и не знает, где располагается сервер, который открывает доступ к базе. Вся эта информация находится под управлением специального приложения.

2. Внутри библиотеки, пользователи работают с логической организацией документов. Они ничего не знают о физической организации библиотеки.

Физическое хранилище скрыто от пользователей, но может в полной мере контролироваться разработчиками и администраторами. Система хранит объекты документов в базе данных.

Не существует ограничения на количество объектов хранения, которые могут использоваться всеми базами данных.

Устройства хранения.

Как уже отмечалось, все данные в системе могут находиться в двух видах: индекс документа и собственно сам документ. Из-за высоких требований к скорости доступа к индексу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения вместе с оперативной базой документов, например RAID-массивах.

Для архивного хранения самих документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические (МО), фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (см. таблицу). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски.

Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза.

Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для хранения документов и меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.