Систематизация - вид индексирования. Систематизация включает определение или составление классификационного индекса документа в соответствии с его содержанием по таблицам определенной системы классификации (УДК, МКИ, Указатель стандартов, Рубрикатор ГАСНТИ и др.)
В автоматизированных информационных сетях не меньшее значение, чем индексирование приобрело понятие «кодирование» - преобразование сообщения в код. Код -система условных, обычно сокращенных обозначений (слов, названий) текста, применяемых при обработке, хранении, передаче информации. Шифр - это тоже условные знаки, которые используются, главным образом, для секретного письма. Код, в отличие от шифра, представляет собой совокупность знаков, символов, которые используются, как правило, для сжатия, уменьшения физических объемов информации.
Кодирование информации преследует цели:
• обеспечить оперативную передачу информации по каналам связи пользователю;
• организовать так информационные массивы, чтобы они были доступны пользователю, поиск информации в массивах был бы не только оперативным, но и удобным для пользователя;
• увеличить информационную емкость носителя информации и наиболее рационально использовать долговременную и оперативную память;
• позволяет наиболее полно раскрывать содержание документа и получать пользователю релевантные документы по его запросам.
Индексирование (кодирование) в информационной технологии переработки документов находит широкое применение в информационных, библиотечных и вычислительных сетях
1.3. Об информационно-поисковых языках и их применении в
информационной технологии
Под методикой индексирования понимают совокупность приемов и правил образования поискового образа документа или запроса, т.е. приемов и правил образования индексов (УДК, ББК и т.д.) для понятий, тематических и предметных рубрик, отражающих содержание документа или запроса. Основной задачей методики индексирования является обеспечение единообразия подходов в создании поисковых образов документов. Единообразие индексирования позволяет обеспечить быстрый, полный и точный поиск по большинству типовых для данного фонда запросов. Способствует правильной организации информационных массивов первичных и вторичных документов.
Предметом общей методики является разработка приемов и правил индексирования, отбора понятий в поисковый образ документа, вытекающих из особенностей эксплуатируемых в информационных системах информационно-поисковых языков. Специфика ИПЯ определяется их функциональным назначением и требует введения специальных правил и приемов индексирования документов не только по предметным областям, но и тематическим ^направлениям.
В связи с тем, что во многих ИПС используется не один, а одновременно несколько ИПЯ для обслуживания различных нужд системы в настоящем пособии предпринята попытка коротко охарактеризовать наиболее часто используемые ИПЯ, Основными критериями в выборе ИПЯ для ИПС являются: семантическая сила, однозначность, мнемоничность, эффективность поиска.
Семантическая сила - способность ИПЯ описать объект с присущими этому объекту характеристиками.
Под однозначностью понимается то, что ключевое слово, термин, понятие должны передавать только одно значение.
Мнемоничность представляет собой некоторое приспособление (символ, знак) для формы записей (кода, индекса), не несущее смысловой нагрузки, но существующее для облегчения зрительного восприятия, прочтения, запоминания. Например, точка в классификационном индексе УДК (УДК 621.315.61).
Индексирование всегда представляет собой попытку более или менее адекватно отразить объективную реальность. Поэтому мера расхождения с объективной реальностью может являться мерой качества индексирования. Эта мера дает представление лишь о возможностях определенного ИПЯ обеспечивать полноту, точность (релевантность) информационно-поисковой системы, которая реализована с помощью того или иного языка.
Общеметодические правила, независимо от применяемого языка индексирования, подразумевают, что индексирование должно отражать не сумму локальных (отраслевых понятий), а быть единой системой, в которой учитываются, взаимосвязи и взаимозависимости понятий.
Интегральный подход в ИПЯ, которые обслуживают "свои" и "чужие" информационные ресурсы и запросы, должны в равной степени использоваться для индексирования, невзирая на их близость или отдаленность от профиля формируемых информационных ресурсов.
Универсальная десятичная классификация (УДК). УДК является международной системой классификации документов. Она отвечает наиболее существенным требованиям, предъявляемым к ИПЯ классификационного типа:
• международность;
• универсальность;
• мнемоничность;
• возможность отражения новых достижений науки и техники без существенных изменений в ее структуре.
Наличие детально разработанных таблиц общих и специальных определителей и их применение при индексировании документов безгранично раздвигает рамки классификации и делает ее гибкой и более дробной.
УДК в органах информации и научно-технических библиотеках используется для организации, как универсальных информационных массивов, так и для отраслевых и узкоспециализированных фондов.
Развитие науки и техники требует постоянного совершенствования любого ИПЯ, в том числе и УДК,
Постоянные усилия специалистов многих стран и международных организаций, направлены на усовершенствование УДК, а также единые методические принципы ее совершенствования создали возможность поднять УДК до уровня международной и стандартизованной систем классификации.
Специальные определители, называемые аналитическими, отражают дополнительные качества предмета. Знаки, применяемые в УДК представляют возможность наиболее эффективно использовать как основные, так и вспомогательные таблицы УДК.
Библиотечно-библиографическая классификация (ББК) входит в комплекс информационно-поисковых языков иерархического типа. ББК как ИПЯ обслуживает универсальные, отраслевые и специализированные документальные фонды. Состав лексических единиц ББК позволяет наиболее полно раскрыть предметное содержание документа, описать объект с различных точек зрения, в частности, заиндексировать документ по форме издания, хронологическим рамкам, территориальным границам и многим другим аспектам. Структура ББК представлена основными' таблицами, планами расположения, а также таблицами общих и специальных типовых делений. ББК имеет алфавитно-предметный указатель для быстрого отыскания в таблицах индексов. В основе построения ББК лежат две логические операции: делен объемов понятий и упорядочение понятий, образованных результате деления. При делении понятий в ББК были соблюдены требования формальной логики. Чтобы делен понятий было обоснованным, за основание деления выбирался существенный признак, от которого не только зависит, но из которого вытекают все другие признаки классифицируемых объектов, предметов; сумма объемов членов деления понятий всегда адекватна объему родового понятия. При создании ББК соблюдался принцип непрерывности и последовательности деления понятий: от высшего класса к низшему, от родового к видовым, для которой делимое понятие является самым ближним.
ББК позволяет применять альтернативные решения, е. отражать один и тот же предмет в различных отделах классификации. Это объясняется тем, что классифицируемые объекты могут являться предметом изучения двух или боле дисциплин. Комбинируя индексы основных таблиц и индексы типовых делений, ББК обеспечивает многоаспектную классификацию, что в свою очередь повышает эффективность информационного поиска и выдачу релевантных документов.
Международная классификация изобретений (МКИ). Предназначена для единообразного, в международном масштабе индексирования патентных документов. МКИ представляет собой эффективный инструмент для патентных ведомств и других потребителей, осуществляющих поиск патентных документов для различных целей, в том числе для определения новизны, приоритета и т. д. МКИ служит не только для раскрытия содержания патентных документов и их поиска, но и является инструментом для упорядоченной хранения патентной документации, что в свою очередь облегчает доступ к ней. МКИ, как УДК и ББК, имеет иерархическую структуру и охватывает все области знаний, объекты которых могут подлежать защите охранными документами. МКИ создает хорошую основу для поиска информации, на основе которой определяется современный уровень развития техники и технологий, получения статистических данных в области промышленной собственности.
Алфавитно-предметные классификации (АПК). Структура АПК:
• предметный заголовок;
• предметный подзаголовок;
• предметная запись.
Предметный заголовок - это подразделение предметной классификации, определяющее основную тематику документов, собранных под этой рубрикой. Предметный заголовок может быть выражен как одним словом, так и словосочетанием, а также фразой естественного языка, которая используется для обозначения предмета.
Предметный подзаголовок - вторые и последующие подразделения предметной классификации, конкретизирующие основную предметную рубрику.
Предметный подзаголовок - это слово, словосочетание, фраза, которая выражает аспект рассмотрения предмета. Предметный подзаголовок может обозначать и подкласс предметов, которые входят в более широкий класс, обозначенный предметным заголовком, например, предметный заголовок - тракторы, предметный подзаголовок - тракторы гусеничные, тракторы колесные пропашные.