Смекни!
smekni.com

Научные проблемы Интернета (стр. 5 из 5)

Последующее изложение раскрывает существо указанной методики и ее теоретико-практическое наполнение.

Оценка

- априорной вероятности того, что владельцем документа является домен wi

Значение искомой вероятности можно получить путем математической обработки экспертных оценок специалистов с привлечением теории многокритериальных решений и функции полезности.

Значения dij частных функций полезности, присваиваемые экспертами каждому домену, могут располагаться в диапазоне [0, 1]. Чем dij ближе к единице, тем, по мнению эксперта, вероятнее соответствие факта принадлежности j -го ключевого слова i- му домену.

Для выявления возможного домена - владельца выбраны следующие критерии:

Т1 - степень соответствия входной спецификации тематике i -го шаблона-документа,

Т2 – распространенность тематики;

Т3 – цитируемость документов по тематике за последний месяц;

Т4 – степень общности тематики (широта тематики).

Для получения обобщенной, комплексной оценки вероятности по p критериям одновременно необходимо определить коэффициенты dj, характеризующие значимость, приоритеты (статистические веса) каждого критерия. Для этой цели используется алгоритм Саати, по которому строится матрица приоритетов D:

Т1 Т2 Т3 Т4
Т1 1 d12 d13 d14
Т2 d21 1 d22 d24
Т3 d31 d32 1 d34
Т4 d41 d42 d43 1

Для каждой строки находим

( 1.36 )

Откуда

( 1.37 )

Найденные значения статистических весов считаются согласованными, если выполняется условие Саати:

( 1.38 )

где

Размер матрицы 1 2 3 4 5 6 7 8 9 10
x 0 0 0,58 0,90 1,12 1,24 1,32 1,41 1,45 1,49

Обобщенную оценку вероятности владельца документа Iiможно вычислить по формуле:

( 1.39 )

гдеp- количество обобщаемых признаков;

dij- частные функции полезности i-го объекта поj-му критерию;

mj - статистический вес (важность) j-го критерия ( 0 £mj£ 1).

Величины q(...) используются следующим образом. Находим, например,P(wя ) - оценку априорной вероятности того, что владельцами являются домены 1, 2 , а остальные три источника – 3,4,5,6 – нет:

P(wR ) = q(1)*q(2)*(1-q(3))*(1-q(4))*(1-q(5)) *(1-q(6)).

Отметим, что эта и подобные формулы получаются из общей формулы Бернулли для вероятности сложного события.

Определение

- вероятностифактического наблюдениявектора |х|,значимо не отличающегося от результатов расчета частотвстречаемости термов в документах, порождаемых от источника Ii.

Перед тем как приступить к построению информационной сети, нужно обосновать выбор необходимого числа факторов и уровней варьирования каждого фактора. Этапами формирования информационной сети являются составление групп координат вершин связок плоскостей на бесконечности, численно равных количеству факторов и выступающих в качестве генераторов планов эксперимента, а также решение проблемы упаковки ортогональных таблиц путем заполнения их элементами поля Галуа в соответствии с генераторами планов.

При составлении групп координат вершин связок плоскостей на бесконечности, действуют следующие правила:

- ( *) в группу входит столько координат, сколько вершин в фундаментальном симплексе;

- ( **) число уровней варьирования каждого фактора обозначается S и называется модулем;

- (***) каждая последующая группа координат получается прибавлением единицы к младшему разряду по модулю;

- (****) первая ненулевая координата не может быть больше единицы.

Необходимое число опытов в узлах информационной сети определяется по формуле

N = Sn , ( 1.40)

a количество факторов, которое можно описать этим количеством опытов, находится из выражения

F =(Sn -1)/(S-1) ( 1.41 )

где S - число уровней варьирования;

n - число вершин фундаментального симплекса.

Следующей операцией формирования информационной сети является заполнение элементами поля Галуа столбцов ортогональной таблицы под координатами вершин фундаментального симплекса (составление линейно независимых векторов).

Правила составления линейно независимых векторов:

- группы координат вершин фундаментального симплекса должны располагаться в первых столбцах ортогональной таблицы;

- в первом столбце элементы поля Галуа, численно равные уровням варьирования факторов, перечисляются по порядку столько раз, сколько уровней варьирования, т.е. число элементов должно быть (0,1,..,S)´S;

- во втором столбце каждый элемент, численно равный уровню варьирования, повторяется S раз подряд;

- в третьем столбце смена уровней варьирования происходит через S´S повторений и т.д.

Решение проблемы упаковки ортогональной таблицы производится путем умножения и сложения элементов поля Галуа в кольце классов вычетов по модулю S в соответствии с координатами вершин связок плоскостей на бесконечности (генераторов информационной сети).

Определение векторов |mi| оценок достоверности владельца шаблона Ii

Для получения оценок векторов средних значений miи стандартных отклонений (коэффициентов корреляции) частот встречаемости термов необходимо рассмотреть ряд документов, относящихся к одной тематике, представленной шаблоном wi. Этот этап должен быть проведен заранее при создании системы идентификации.

Оценка

, вероятности того, что владельцем входного документа является шаблон Ii

Предельные распределения значений частот термов от каждого источника должны подчиняться многомерному нормальному закону:

( 1.42 )

где: mi - вектор математических ожиданий частот встречаемости термов в документа, порождаемых от источника Ii,

m - размерность вектора х

ci - ковариационная матрица векторов частот термов,

ci-1 - обратная матрица ci,

- определитель матрицы сi

Для определения элементов ковариационной матрицы используется соотношение:

( 1.43 )

Определение классифицирующего множества документов-шаблонов

С целью формализации процедуры принятия решения о требуемом количестве документов-шаблонов предложено рассматривать некоторую метрику, устанавливающую меру близости двух различных документов-шаблонов.

Расстоянием между двумя документами назовем величину d(a,b) (x,c):

(1.44)

Значения евклидова расстояния можно использовать для разбиения множества документовна кластеры (зоны), представляющие некоторые типовые сюжеты.

На основании этих данных строится 0,1 - матрица В = [bjj], такая, что bij = 1в том и только в том случае, когда расстояние dij между документами iи jне превосходит d, и bij = 0 в противном случае. Каждому документу присвоим вес Сi , отражающий его типичность для раскрываемой в нем темы.

Подготовленные таким образом исходные данные позволяют сформулировать и решить следующую важную прикладную задачу.

Во-первых, можно найти минимальное взвешенное покрытие pmin, т.е. такое множество строк из ½В½, которые имеют минимальную стоимость и, по крайней мере, любая одна строка из pmin содержит на пересечении с каждым из столбцов единицу. Эта задача позволяет определить необходимое число шаблонов документов в классифицирующем множестве.

Таким образом, процедура определения необходимого числа документов в классифицирующем сводится к решению хорошо известной NP- полной задаче о минимальном взвешенном покрытии 0,1-матрицы множеством строк (ЗМВП).


Литература

1. Успенский И. Интернет как инструмент маркетинга. BHV, С-т Петербург, 256с., 2002. .

2. Меградж З. Разработка приложений для электронной коммерции на ORACLE и JAVA. Вильямс, 2000, 328с.

3. ПироговВ.П. MS SQL Server 2000. Управление и программирование. – СПб. БХВ.-2005,-600с.

4. Холл М., Браун Л. Программирование для WEB. Вильямс, 2002, - 1280с.