. | (1.31) |
Заметим, что величины
изменяются для
и так что в результате из них можно построить следующую матрицу преобразования (для )1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | |
0,981 | 0,831 | 0,556 | 0,195 | -0,195 | -0,556 | -0,831 | -0,981 | |
0,924 | 0,383 | -0,383 | -0,924 | -0,924 | -0,383 | 0,383 | 0,924 | |
0,831 | -0,195 | -0,981 | -0,556 | 0,556 | 0,981 | 0,195 | -0,831 | |
0,707 | -0,707 | -0,707 | 0,707 | 0,707 | -0,707 | -0,707 | 0,707 | |
0,556 | -0,981 | 0,195 | 0,831 | -0,831 | -0,195 | 0,981 | -0,556 | |
0,383 | -0,924 | 0,924 | -0,383 | -0,383 | 0,924 | -0,924 | 0,383 | |
0,195 | -0,556 | 0,831 | -0,981 | 0,981 | -0,831 | 0,556 | -0,195 |
Эта матрица является ортогональной и построена по тем же принципам, что и матрица W, которую мы рассмотрели выше. Нам остается коротко охарактеризовать алгоритм сжатия JPEG, основу которого составляет DCT-преобразование.
В JPEG используется цветовая модель YCrCb, где Y передает светимость пикселя. Преобразование DCT выполняется отдельно к светимости Y, и отдельно к матрице, кодирующей хроматические числа Cr и Cb. К светимости Y применяется одномерное DCT преобразование. Для компоненты <Cr, Cb> выполняется разбиение изображения на матрицы пикселей
. К каждой из таких матриц применяется двумерное DCT-преобразование. Таким образом, выполняется сжатие с потерей информации.Сокращение JPEG происходит от слов JointPhotographicExpertGroup – совместная группа по фотографии. Проект JPEG стал стандартом в 1991г. – принят международной организацией стандартов ISO.
Методы спецификации и обработки документов в Internet получают широкое применение в связи с созданием новых технологий и расширением возможностей представления семантики текстов, в первую очередь в документах XML.
В настоящем разделе рассматриваются программно-математические аспекты обработки текстов и создания интеллектуальных поисковых систем в Internet.____________________________________
Пусть в базе данных имеются спецификации текстов документов I1, I2,...,In, на входе системы имеется спецификация документа Х = (х1, х2, ...,хm). Требуется установить, к какому классу документов I1, I2,...,In относится Х.
Задачу будем решать при следующих условиях:
· Параметры х1, х2, ...,хm задают частоты встречаемости термов в тексте. Аналогичным образом, спецификации представлены векторами частот встречаемости термов в текстах-шаблонах. Под термом понимается ключевое слово текста.
· Известны весовые оценки значимости термов для соответствующих документов.
В результате будут вычислены некоторые оценки b1, b2, ...,bn, определяющие систему предпочтений в установлении документа-шаблона, к которому принадлежит текст Х, при этом åbi =1 и если bp>bs, то объективно принадлежность Х к Ip оцениваетсявыше, чем к Is.
Описание проблемы и этапов ее решения
Допустим, что в силу общности или пересечения тем документов может возникнуть nкластеров (доменов, зон) с различной степенью (оценки) принадлежности к ним рассматриваемого документа Х; Пусть P(wiï х) - условная вероятность того, что наблюдаемый вектор х относится к домену wi. В силу теоремы Байеса получим:
, (1.32)где
- вероятность фактического наблюдения вектора х с данными значениями частот встречаемости ключевых слов (термов); - априорная вероятность того, что документ относится к домену wi, - вероятность того, что доменwi мог привести к появлению вектора х;wi- идентификатор домена.
Рассматриваются следующие домены:
w0 – ни один из шаблонов-документов не является владельцем Х;
w1 – 1-й источник является владельцем Х, остальные – нет;
wm – m-й источник является владельцем Х, остальные – нет;
wm+1 – 1-й и 2-й источники в совокупности могут быть владельцами Х, остальные нет;
wn– все nмогут быть в совокупности владельцами Х.
Введем штрафную оценку
, (1.33)где
- штраф, который следует заплатить за ошибочную классификацию владельца Ii вместо фактического Ij.С учетом (1.32) перепишем (1.33) в виде
Теперь, приняв Lkk =0 и Lij = Lji =1 (для всех i, j, i¹j), получим окончательно
(1.34)Формула (1.34) служит основой для принятия решений.
Введя соотношение
, (1.35)можно утверждать, что наименьшему значению bi будет соответствовать документ с наименьшей оценкой возможности быть владельцем Х.
Применение формулы (1.34) потребует упрощающего допущения, а именно - предельные распределения значений частот встречаемости термов в тексте должны подчиняться многомерному нормальному закону.
Априорную вероятность
того, что владельцем документа является шаблон Ii, можно определить на основе теории выбора многокритериальных решений с использованием функции полезности.Для оценки вероятности
необходимо определить , вероятность фактического наблюдения вектора х, значимо не отличающегося от результатов расчета частот встречаемости термов, порождаемых доменом wm ,что повлечет за собой необходимость спланировать специальный вычислительный эксперимент с построением информационной сети через проективные геометрии и поля Галуа.Таким образом, методика расчетов сводится к определению членов формулы (1.34). Для определения множителей P(wi ) используется техника многокритериальной оценки на основе процедуры Саати, где в качестве альтернатив рассматриваются домены wi, а критериями являются факторы, обусловливающие априорные значения P(wi ). Для оценки значений P(x|wi ) проводится серия вычислительных экспериментов, целью которых является получение математического ожидания и среднеквадратического отклонения частот встречаемости термов в домене wi.