Смекни!
smekni.com

Анализ машиночитаемых документов компьютерными средствами (стр. 2 из 2)

Файлы NAPR и NAZPR формируются в программе базы на основе информации, содержащейся в словарях.

Выход:

Файл FCSG.DAT Этот файл представляет собой одну запись, состоящую из следующих элементов:

1 Номер группы
2 Число объектов в данной группе=nobg
3-2+nobg Номера объектов в группе
2+nobg+1 Номер уровня, на котором произошло разбиение по этому признаку
2+nobg+2 Номер признака
2+nobg+3 Число значений данного признака
следующие jpr элементов Номера значений признака

Затем номер следующей группы, далее все аналогично. Номера уровней идут по убыванию, как только номер уровня=1, начинается следующая группа.

На входе в RASH также:

Файлы:

napr.txt - имена признаков, которые мы выбрали из словаря словарей

nazpr.txt - название значений признаков из соответствующего словаря, код словаря по каждому признаку

Берутся подряд все признаки, сначала числовой код, затем названия признака подряд все перечисляются.

Файл PARAM.TXT - 500_3_"выходной признак"_0,200. Включает: Число записей (500), число входных признаков (3), название выходного признака, необходимую точность вычислений (0.2).

Файл BNAPR.DBF - следующие поля:

NSLOV, LSLOV - число записей в словаре, NAPRIZ - название словаря, NSL - имя словаря.

STRA.DBF - файл dbf, в который записываются выбранные параметры построчно.

На выходе системы формируется текстовый файл итоговых расчетов. Пример его приведен в Приложении 3. В данной версии этот файл затирается, но может быть легко восстановлен стандартными средствами (типа UNDELETE и пр.). В дальнейшем он может редактироваться любым текстовым редактором.

Описанная система будет использована при обсчете больших массивов информации, нарабатываемх в ходе реализации совместных проектов с Государственным архивом РФ.

Приложение 1. Состав системы.

Система помещается на 1 дискете 5,25' (1,2 мБ) или 3,5' (1,44 мБ) и включает следующие файлы:

VVPR.EXEDOS4GW.EXERASCH.EXE Расчетные программы для классификации.
ITOG.DBFKAT_A.DBFKAT_S.DBFPROSM.DBFSHAB_A.DB_SHAB_S.DBFITG_D.DBFSHAB_AD.DBF Файлы баз данных необходимых для нормального функционирования системы.

DIAG_DEM.EXE - Демонстрационная программа

RECLAMA.EXE - Рекламный ролик с музыкой

ITG_D.SYS - Текстовый файл - пример результата полученного в ходе классификации (необходим для нормального функционирования демонстрационной программы)

BRED.BAT - Специфичный файл, не требующий запуска пользователем. Необходим для нормальной работы системы.

Приложение 2. Варианты написания файлов config.sys и autoexec.bat:

Содержимое файла config.sys

DEVICE=C:\DOS\HIMEM.SYS

DEVICEHIGH=C:\DOS\EMM386.EXE NOEMS NOVCPI /V

DEVICE=C:\STACKER\DPMS.EXE

DEVICEHIGH=C:\STACKER\STACHIGH.SYS

LASTDRIVE=H DOS=HIGH,UMB

rem Загрузка DOS наверх

FILES=100

DEVICEHIGH=C:\DOS\SETFNT.SYS

COUNTRY=07,,C:\DOS\COUNTRY.SYS

DEVICEHIGH=C:\MOUSE\MOUSE.SYS /1

SHELL=C:\COMMAND.COM /P /E:4096 STACKS=9,256

Содержимое файла autoexec.bat (в машине используется пакет STACKER)

@REM THE CHECK LINE BELOW PROVIDES ADDITIONAL SAFETY

@REM PLEASE DO NOT REMOVE IT.

@C:\STACKER\CHECK /WP

SET COMSPEC=C:\COMMAND.COM

LH C:\DOS\SMARTDRV.EXE 512 256 /V

PATH С:\SIDIAK;C:\;C:\DOS;..C:\STACKER; E:\LEXICON

SET BLASTER= A220 I10 D1 T4

SET CLIPPER=F100

REM БЕЗ NOVCPI - SET CLIPPER=E0

SET TEMP=C:\WINDOWS\TEMP

SET LEX=D:\TEXTKAF

LH C:\UTIL\RUS\UNISCR

LH C:\UTIL\RUS\UNIKBD LH C:\VC\VC

Приложение 3. Пример файла itog.txt с результатами расчетов

Исходная совокупность объектов разбита на 1 группу.
Всего обсчитано 500 обьектов
Выходной признак ВОЗРАСТ ДЕПУТАТОВ ГОСУДАРСТВЕННОЙ ДУМЫ
Параметр классификации 0.50
Число входных признаков 3
Входной признак ОСНОВНАЯ ПРОФЕССИЯ
Входной признак НАЦИОНАЛЬНОСТЬ
Входной признак ПАРТИЙНОСТЬ
N групп Число объектов Среднее значение выходн. признака Ст. откл. вых.призн.
N 1 500 42.56 9.84

ГРУППА N 1

В данную группу входит 500 объектов со следующими номерами:

102 254 154 157 166 177 321 150 158 160
161 162 167 169 174 175 195 201 239 240
241 242 245 250 256 260 263 264 265 267

и так далее ...

Выходной признак - ВОЗРАСТ ДЕПУТАТОВ ГОСУДАРСТВЕННОЙ ДУМЫ

Среднее значение выходного признака - 42.56

Стандартное отклонение - 9.84

Группа определяется следующими значениями входных признаков:

Признак N 1 - ОСНОВНАЯ ПРОФЕССИЯ и так далее....

Список литературы

1. Устинов В.А., Фелингер А.Ф. Историко- социальные исследования, ЭВМ и математика.-М., 1973.

2. Первоначальная версия программы была реализована на FORTRAN 77 А. Кардаш и А. Бегуном под руководством В. Саакяна.

3. Самохин А.Б., Самохина А.С. Фортран и вычислительные методы для пользователя IBM PC. М., Русина, 1994.