Смекни!
smekni.com

Методика электронной обработки документов с использованием программно-методических средств библиографической и предметно-аналитической обработки для системы электронных библиотек Санкт-Петербург (стр. 5 из 12)

Анализ документа

Процесс индексирования содержания документа всегда начинается с его анализа. Цель анализа - выявление в тексте документа смысловых компонентов — значимых элементов содержания, которые потенциально могут использоваться в информационном поиске. Смысловые компоненты являются основой для формулировки индексов любого информационно-поискового языка.

Выявление смысловых компонентов осуществляется только по самому документу. Библиографическая запись не может заменить документ в качестве объекта индексирования.

Выделенные смысловые компоненты должны точно передавать содержание документа, не расширяя и не сужая его. Например, если в документе идет речь только о конкретном промышленном предприятии, недопустимо вводить смысловой компонент, обозначающий всю отрасль промышленности или тип предприятия. Кроме того, название любого объекта (имя лица, название организации и т. п.), вопроса, темы, входящих в смысловой компонент, должно быть сформулировано с конкретностью, достаточной для его идентификации.

В обязательном порядке выделяются смысловые компоненты, отражающие основные темы индексируемого документа. Компоненты содержания, отражающие второстепенные темы документа, могут выделяться выборочно, с учетом их поисковой актуальности, обеспеченности материалом, содержания потенциальных запросов и т. д. Глубина анализа должна быть достаточной для адекватного отражения содержания документа любым языком индексирования.

Если при анализе документа компоненты содержания не детализировать сразу в той мере, в какой требует документ, впоследствии возникнет необходимость повторного обращения к документу, когда для накопившегося массива БЗ уровень глубины и детализации информации о темах окажется недостаточным.

Принято выделять несколько категорий смысловых компонентов, различающихся набором выявляемых сведений и правилами формулирования:

· персоналии (индивидуальные и родовые)

· наименования организаций

· географические названия

· унифицированные заглавия

· темы

Эти категории выделяются не только по содержанию, но и по общности правил формулирования. Так, например, индивидуальная персоналия (“Сидоров И. И.”) будет входить в категорию «персоналии», а обобщенная персоналия (“Математики”) — в категорию «темы», несмотря на то, что также обозначает людей.

Для каждой категории смысловых компонентов определен минимально необходимый набор выявляемых сведений.

Основы методики аналитико-тематического индексирования.

Задача аналитико-тематического индексирования — с необходимой и достаточной для данной системы полнотой и точностью представить в виде тематических рубрик основное содержание документа, а при необходимости — его форму и назначение для обеспечения эффективного информационного поиска. Такая рубрика — краткая формулировка предмета (факта, события, аспекта и т. п.) рассматриваемого в документе.

Язык аналитико-тематического индексирования является контролируемым языком. Его использование предполагает обязательное наличие:

· списка рубрик, включающего: перечень одночленных тематических рубрик, вариантные формы рубрик, а также различные примечания, уточняющие их содержание, возможности применения, статус и т.д.

· четкого соблюдения правил (методики) аналитико-тематической обработки;

· авторитетного / нормативного контроля правильности ведения и использования списка аналитико-тематических рубрик на основании методики аналитико-тематического индексирования.

Правила формулирования аналитико-тематических рубрик

Среди категорий рубрик выделяются имена личные и родовые, географические названия, наименования организаций и унифицированные заглавия произведений. Они формулируются по правилам, принятым в для формулирования нормируемых точек доступа - для заголовков БО и описанным выше. Аналитико-тематические рубрики, не вошедшие в указанный перечень формулируются по следующим принципам.

Среди тематических рубрик выделяются сформулированные на основании устойчивых терминов (в том числе многословных). Формулировка рубрики может быть признана термином только в том случае, если он (термин) зафиксирован именно в такой формулировке в соответствующей современной справочной или учебной литературе. Термины, используемые в качестве рубрик, формулируются в том виде, как это принято в терминосистеме науки, и не подлежат никакой модификации.

При наличии нескольких синонимичных терминов предпочтение следует отдавать терминам, получившим наиболее широкое распространение в современной науке. При использовании термина в качестве аналитико-тематической рубрики в авторитетной записи обязательно приводится его определение со ссылкой на источник.

Рубрики, выбранные из компонентов содержания текста, но не зафиксированные такой форме в специальной справочной литературе формулируются на основании обрабатываемого документа. Если элемент представляет из себя словосочетание, то оно должно состоять не более, чем из трех слов: главного и максимум двух взаимодополняющих определений. В таком словосочетании сохраняется прямой порядок слов естественного языка.

Вариантные формы тематических рубрик

При наличии двух или нескольких формулировок тематических рубрик, одинаковых или весьма близких по смыслу, во избежание дублирования и распыления материала одна формулировка принимается, а другие отвергаются, т.е. не используются для индексирования, однако участвуют в выполнении поисковых запросов. Между рубрикой, принятой для индексирования, и одним или несколькими вариантными, отвергнутыми тематическими рубриками существуют отношения эквивалентности (равнозначности). Отношения эквивалентности выражаются ссылками от вариантной формы к принятой и используются в следующих случаях:

  1. от неприменяемого синонима к принятому термину
  2. от сокращенной формы - к полной
  3. от отвергнутого однокоренного термина к принятому.
  4. от непринятой транскрипции конкретного термина к принятой

Установление отношений равнозначности между тематическими рубриками различных категорий недопустимо. При этом к одной принятой для индексирования формулировке может быть несколько таких отсылок от отвергнутых вариантов/синонимов.

Лекционное занятие № 2 Структура данных и представление машиночитаемых библиографических записей участниками обмена

Основные положения.

Нормирование данных и средства их унификации в сводном каталоге ЦБОР. Базы авторитетных/нормативных данных. Контролируемые точки доступа библиографических записей сводного каталога ЦБОР: основные категории, их наполнение и структура.

Авторитетные/нормативные файлы как инструмент стандартизации

В практике работы библиотек значительную роль начинают играть авторитетные файлы, нормирующие потенциальные точки доступа к библиографической информации. Нормируемые данные фиксируются в самостоятельной базе данных - системе авторитетных файлов - которая связана с библиографической и служит инструментом контроля при каталогизации и поиске.

Основные цели формирования авторитетных/нормативных файлов определяются следующим образом::

  1. Необходимо наличие источника авторитетной/нормативной информации при обработке документов и формировании библиографических записей;
  2. Необходимо средство выявления и коррекции ошибок в библиографических записях;
  3. Необходимо средство, обеспечивающее возможность доступа пользователей к нормированным точкам доступа при поиске библиографических записей в электронном каталоге.

Ведение авторитетных файлов позволяет стандартизировать форму представления элементов различных областей записи. Стандартизации подвергается как содержание, так и форма машиночитаемой записи. В АФ представлены следующие категории элементов:

  1. личные и родовые имена,
  2. наименования постоянных и временных организаций
  3. географические наименования,
  4. унифицированные и обобщающие типовые заглавия,
  5. тематические понятия.

Каждый элемент авторитетного файла образовывает авторитетную/нормативную запись. Для всех вариантов написания дается ссылка на стандартное написание, служащее точкой доступа. Авторитетная/нормативная запись контролирует точки доступа к машиночитаемым библиографическим записям по механизму "один к многим". Именно этот механизм обеспечивает содержательную и структурную стандартизацию данных. Составление файлов доступа - авторитетных файлов - и их постоянная актуализация представляет собой особое направление библиотечной работы.

Структурное представление нормируемых данных в структуре Российского коммуникативного формата представления авторитетных/нормативных записей позволяет готовить записи для национального и международного обмена.

Содержательно авторитетные файлы создаются на основании соответствующих ГОСТов, методик и правилам, а также в соответствии с международными руководствами.

В 1984 г. под эгидой Международной программы Универсального библиографического контроля IFLA было издано Руководство по ведению авторитетных и ссылочных записей (GARE). При подготовке Руководства инструменты содержательного доступа (предметные рубрики) намеренно не рассматривались. Руководство по предметным авторитетным и ссылочным записям было разработано рабочей группой по “Руководству по предметным авторитетным файлам” Секции по классификации и индексированию Отделения библиографического контроля Международной федерации библиотечных ассоциаций и организаций.