Смекни!
smekni.com

Методика электронной обработки документов с использованием программно-методических средств библиографической и предметно-аналитической обработки для системы электронных библиотек Санкт-Петербург (стр. 2 из 12)

Лингвистическое обеспечение (ЛО) определяется как совокупность применяемых в технологии АИС информационно-поисковых языков, лингвистических словарей, а также их средств поддержки. Основные функции лингвистического обеспечения таковы:

  • Индексирование новых поступлений;
  • Эффективный поиск в электронном каталоге;
  • Обеспечение совместимости электронных каталогов на содержательном уровне;

Параметрами лингвистического обеспечения регламентируются:

  • Структура машиночитаемой библиографической (и авторитетной записи);
  • Набор информационных поисковых языков, используемых в записях;
  • Параметры каждого из информационно-поисковых языков

Метаданные

Метаданные - предварительные данные, создаваемые как минимальная информация об информации. Метаданные могут быть категориальными, описательными или определяемыми пользователем. Они должны отражать отношения, рабочие условия и особенности, содержание или структуру описываемых ресурсов.

Выбор системы метаданных определяет набор задач, решаемых на основе этой системы. В конечном счете, он формируется на основании требуемой функциональности электронной библиотеки, для которой эта система метаданных создается. Формализация метаданных является их обязательным условием.

Общим свойством метаданных является их относительный характер. Сведения, которые в одной информационной системе являются метаданными, в другой — собственно данными. Аналогично, метаданные могут являться и данными в рамках одной системы, присутствуя в явной форме как в метаописании объекта, так и в самом объекте.

В ЦБОР объектами метаданных являются произведения печати и/или их электронные копии, хранящиеся в фондах библиотек-участниц ЦБОР

В этом случае метаданные рассматриваются в качестве более эффективного электронного аналога традиционных сводных каталогов, с помощью которого осуществляется поиск в фондах библиотек и управление им. Наборы метаданных и их формулировки приводятся в соответствии с отечественными и международными стандартами и правилами описания изданий. Структурно метаданные реализованы в соответствии с форматом Machine-Readable Cataloging Records, MARC - одним из первых, наиболее известных и распространенных международных форматов библиотечных метаданных. В процессе обмена информацией достигается совмещение с любым из вариантов формата MARC, в том числе и с Российскими коммуникативными форматами семейства MARC.

Система метаданных является центральным логическим компонентом любого электронного каталога как реальной, так и электронной библиотеки.

На основе системы метаданных строятся следующие основные технологические процессы ЦБОР:

  • Навигация в информационном пространстве ЦБОР;
  • Поиск отдельных информационных ресурсов или их совокупностей;
  • Ввод, обработка и организация хранения единиц описания, а также их исключение (изъятие).

Выделяются следующие основные типы метаданных:

  • Описательные - библиографическая информация или другие сведения о содержании (семантике) ресурса;
  • Структурные - сведения о форматах, структуре, объеме и других формальных свойствах ресурса.

В рамках ЦБОР реализуется стандартизация метаданных как в содержательном, так и структурном аспектах на основании нормативно-методической документации - ГОСТов, правил каталогизации, методических материалов по формальной и содержательной обработке документов, а также дополнительных соглашений между библиотеками-участницами ЦБОР.

Основной формат метаданных ЦБОР - MARC (Машиночитаемые библиографические записи (Machine-Readable Cataloging Records, MARC)) - формат метаданных для подготовки данных о данных в электронной форме. Сфера применения данного формата:

· Библиографические метаданные;

· Метаданные, раскрывающие содержание;

· Технологические метаданные .

Метаданные в формате MARC, размещаются вне информационного ресурса, что позволяет с равным успехом использовать их для описания как печатных изданий, так и их электронных версий.

Информационные языки

ИЯ АИС являются формальными языками и в функциональном аспекте подразделяются на:

  • Языки индексирования (ЯИ), т.е. языки, на которых непосредственно строятся исходные поисковые образы документов и/или тематических запросов;
  • Информационно-поисковые языки (ИПЯ), т.е. языки, на которых представляются поисковые образы документов (ПОДы) и тематические поисковые предписания для их непосредственной информационно-поисковой идентификации;
  • Информационные языки-посредники (ЯП), т.е. языки, на которых представляются ПОДы в записях документов в коммуникативных форматах.

Информационно-поисковый язык обладает системой средств, позволяющих выполнять коммуникативную функцию (создавать тексты на данном языке), однако его лексика и грамматика носит формальный характер. Морфология ИЯ (правила формирования лексических единиц (ЛЕ)), синтаксис (правила комбинирования ЛЕ), парадигматика (взаимоотношения ЛЕ) строится в соответствии с общими требованиями к ИПЯ.

Требования к ИЯ (ГОСТ 14.409-75):

· Полно и точно передавать смысл любого документа (запроса);

· Допускать строго однозначную запись, имеющую только одно истолкование;

· Отождествлять смыслового содержания документа.

Высказывание на ИПЯ - описание смыслового содержания документов и запросов. Лексические единицы (ЛЕ), использованные для такого описания, организуются по правилам синтаксиса, принятыми в данном ИЯ, и становятся элементами не языка, а текста. Для поиска по широкотематическим запросам наиболее эффективными являются классификационные ИПЯ; для поиска по детальным запросам - вербальные ИПЯ.

Выбор ИПЯ, используемых в ЦБОР должен обеспечить не только максимальную эффективность поиска, но и внутрисистемную лингвистическую совместимость электронных каталогов библиотек – участниц ЦБОР, а также лингвистическую совместимость системы с наиболее развитыми библиотечно-информационными центрами зарубежных стран.

Можно сказать, что библиографическое описание документа также является специфическим вербальным информационно-поисковым языком с максимальной формализацией структуры.

Классификационные ИПЯ

Обеспечение доступа к массивам ЦБОР обеспечивается с помощью индексов различных классификационных систем. Классификационный индекс определят тему конкретного документа и раскрывает содержание фонда по отрасли знаний в целом или научной дисциплине. Группировка БЗ в соответствии с классификационными делениями ББК (или иной иерархической классификации) является средством тематического/ отраслевого подхода к раскрытию содержания библиотечных фондов.

В отечественных библиотеках особенно широко применяются следующие классификационные схемы:

  1. Библиотечно-библиографическая классификация (ББК) (различные версии),
  2. Универсальную десятичную классификацию (УДК),

Классификационные системы регламентируются и имеют соответствующие центры, обеспечивающие методическую поддержку, регулярное внесение изменений и дополнений, переиздание и т.д.

Систематизация документов и организация полноценного поиска по классификационным индексам в электронном каталоге предполагает применение машиночитаемой версии таблиц классификации и методов организации поиска с их использованием.

Использование классификационных индексов с ЦБОР осложняется двумя обстоятельствами:

  1. Различные организации могут применять при систематизации различные системы классификации или различные версии одной классификации. В этом случае требуется маркирование индексов различных версий и развитые возможности взаимного конвертирования индексов различных систем классификаций и их версий друг в друга.
  2. Классификационные системы используют буквенно-цифровую индексацию, то есть их лексика представлена кодами. При этом в описании ресурса отсутствует словесная формулировка индекса. В этом случае необходимо наличие АФ классификационных данных, содержащих их словесные расшифровки и методические указания.
Вербальные ИПЯ

Вербальные ИПЯ – это поисковые языки, лексика которых строится на основании лексики естественного языка. Вербальные ИПЯ могут быть предкооординированными и посткоординатными:

  1. ИПЯ, в которых слова в словосочетаниях и фразах которого связаны какой-либо связью до индексирования, представляют собой предкооординированные ИПЯ (Аналитико-тематические рубрики)
  2. ИПЯ, в которых лексические единицы объединяются в поисковые образы лишь во время индексирования или в процессе их поиска, представляют собой посткоординированные (Ключевые слова, дескрипторы).

В зависимости от степени нормируемости используемой терминологии вербальные ИПЯ могут быть: