Научные проблемы Интернета (стр. 4 из 5)

(1.31)

Заметим, что величины

изменяются для

так что в результате из них можно построить следующую матрицу преобразования (для

)


1	1	1	1	1	1	1	1
0,981	0,831	0,556	0,195	-0,195	-0,556	-0,831	-0,981
0,924	0,383	-0,383	-0,924	-0,924	-0,383	0,383	0,924
0,831	-0,195	-0,981	-0,556	0,556	0,981	0,195	-0,831
0,707	-0,707	-0,707	0,707	0,707	-0,707	-0,707	0,707
0,556	-0,981	0,195	0,831	-0,831	-0,195	0,981	-0,556
0,383	-0,924	0,924	-0,383	-0,383	0,924	-0,924	0,383
0,195	-0,556	0,831	-0,981	0,981	-0,831	0,556	-0,195

Эта матрица является ортогональной и построена по тем же принципам, что и матрица W, которую мы рассмотрели выше. Нам остается коротко охарактеризовать алгоритм сжатия JPEG, основу которого составляет DCT-преобразование.

В JPEG используется цветовая модель YCrCb, где Y передает светимость пикселя. Преобразование DCT выполняется отдельно к светимости Y, и отдельно к матрице, кодирующей хроматические числа Cr и Cb. К светимости Y применяется одномерное DCT преобразование. Для компоненты <Cr, Cb> выполняется разбиение изображения на матрицы пикселей

. К каждой из таких матриц применяется двумерное DCT-преобразование. Таким образом, выполняется сжатие с потерей информации.

Сокращение JPEG происходит от слов JointPhotographicExpertGroup – совместная группа по фотографии. Проект JPEG стал стандартом в 1991г. – принят международной организацией стандартов ISO.

3. Классификация документов

Методы спецификации и обработки документов в Internet получают широкое применение в связи с созданием новых технологий и расширением возможностей представления семантики текстов, в первую очередь в документах XML.

В настоящем разделе рассматриваются программно-математические аспекты обработки текстов и создания интеллектуальных поисковых систем в Internet.____________________________________

Задача классификации и идентификации документов

Пусть в базе данных имеются спецификации текстов документов I₁, I₂,...,I_n, на входе системы имеется спецификация документа Х = (х₁, х₂, ...,х_m). Требуется установить, к какому классу документов I₁, I₂,...,I_n относится Х.

Задачу будем решать при следующих условиях:

· Параметры х₁, х₂, ...,х_m задают частоты встречаемости термов в тексте. Аналогичным образом, спецификации представлены векторами частот встречаемости термов в текстах-шаблонах. Под термом понимается ключевое слово текста.

· Известны весовые оценки значимости термов для соответствующих документов.

В результате будут вычислены некоторые оценки b₁, b₂, ...,b_n, определяющие систему предпочтений в установлении документа-шаблона, к которому принадлежит текст Х, при этом åb_i =1 и если b_p>b_s, то объективно принадлежность Х к I_p оцениваетсявыше, чем к I_s.

Описание проблемы и этапов ее решения

Допустим, что в силу общности или пересечения тем документов может возникнуть nкластеров (доменов, зон) с различной степенью (оценки) принадлежности к ним рассматриваемого документа Х; Пусть P(w_iï х) - условная вероятность того, что наблюдаемый вектор х относится к домену w_i. В силу теоремы Байеса получим:

, (1.32)

где

- вероятность фактического наблюдения вектора х с данными значениями частот встречаемости ключевых слов (термов);

- априорная вероятность того, что документ относится к домену w_i,

- вероятность того, что доменw_i мог привести к появлению вектора х;

w_i- идентификатор домена.

Рассматриваются следующие домены:

w₀ – ни один из шаблонов-документов не является владельцем Х;

w₁ – 1-й источник является владельцем Х, остальные – нет;

w_m – m-й источник является владельцем Х, остальные – нет;

w_m₊₁ – 1-й и 2-й источники в совокупности могут быть владельцами Х, остальные нет;

w_n– все nмогут быть в совокупности владельцами Х.

Введем штрафную оценку

, (1.33)

где

- штраф, который следует заплатить за ошибочную классификацию владельца I_i вместо фактического I_j.

С учетом (1.32) перепишем (1.33) в виде

Теперь, приняв L_kk =0 и L_ij = L_ji =1 (для всех i, j, i¹j), получим окончательно

(1.34)

Формула (1.34) служит основой для принятия решений.

Введя соотношение

, (1.35)

можно утверждать, что наименьшему значению b_i будет соответствовать документ с наименьшей оценкой возможности быть владельцем Х.

Применение формулы (1.34) потребует упрощающего допущения, а именно - предельные распределения значений частот встречаемости термов в тексте должны подчиняться многомерному нормальному закону.

Априорную вероятность

того, что владельцем документа является шаблон I_i, можно определить на основе теории выбора многокритериальных решений с использованием функции полезности.

Для оценки вероятности

необходимо определить

, вероятность фактического наблюдения вектора х, значимо не отличающегося от результатов расчета частот встречаемости термов, порождаемых доменом w_m ,что повлечет за собой необходимость спланировать специальный вычислительный эксперимент с построением информационной сети через проективные геометрии и поля Галуа.

Таким образом, методика расчетов сводится к определению членов формулы (1.34). Для определения множителей P(w_i ) используется техника многокритериальной оценки на основе процедуры Саати, где в качестве альтернатив рассматриваются домены w_i, а критериями являются факторы, обусловливающие априорные значения P(w_i ). Для оценки значений P(x|w_i ) проводится серия вычислительных экспериментов, целью которых является получение математического ожидания и среднеквадратического отклонения частот встречаемости термов в домене w_i.