1.1. Многомерная модель данных. 6
1.2 Определение OLAP-систем. 9
2. КОНЦЕПТУАЛЬНОЕ МНОГОМЕРНОЕ ПРЕДСТАВЛЕНИЕ. 11
2.1. Двенадцать правил Кодда. 11
2.2. Дополнительные правила Кодда. 13
3. АРХИТЕКТУРА OLAP-СИСТЕМ.. 18
Целью курсовой работы является изучение технологии OLAP, понятие ее реализации и структуры.
В современном мире компьютерные сети и вычислительные системы позволяют анализировать и обрабатывать большие массивы данных.
Большой объем информации сильно усложняет поиск решений, но дает возможность получить намного точнее расчеты и анализ. Для решения такой проблемы существует целый класс информационных систем, выполняющих анализ. Такие системы называют системами поддержки принятия решений (СППР) (DSS, Decision Support System).
Для выполнения анализа СППР должна накапливать информацию, обладая средствами ее ввода и хранения. Всего можно выделить три основные задачи, решаемые в СППР:
· ввод данных;
· хранение данных;
· анализ данных.
Ввод данных в СППР осуществляется автоматически от датчиков, характеризующих состояние среды или процесса, или человеком-оператором.
Если ввод данных осуществляется автоматически от датчиков, то данные накапливаются по сигналу готовности, возникающему при появлении информации или путем циклического опроса. Если же ввод осуществляется человеком, то они должны предоставлять пользователям удобные средства для ввода данных, проверяющих их на правильность ввода, а так же выполнять необходимые вычисления.
При вводе данных одновременно несколькими операторами, необходимо решать проблемы модификации и параллельного доступа одних и тех же данных.
СППР предоставляет аналитику данные в виде отчетов, таблиц, графиков для изучения и анализа, именно поэтому такие системы обеспечивают выполнение функции поддержки принятия решений.
В подсистемах ввода данных, называемых OLTP (On-linetransactionprocessing), реализуется операционная обработка данных. Для их реализации используют обычные системы управления БД (СУБД).
Подсистема анализа может быть построена на основе:
· подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL;
· подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP, использующая концепцию многомерного представления данных;
· подсистемы интеллектуального анализа. Данная подсистема реализует методы и алгоритмы DataMining[1].
С точки зрения пользователя, OLAP-системы представляют средства гибкого просмотра информации в различных срезах, автоматического получения агрегированных данных, выполнения аналитических операций свёртки, детализации, сравнения во времени. Благодаря всему этому OLAP-системы являются решением с большими преимуществами в области подготовки данных для всех видов бизнес-отчетности, предполагающих представление данных в различных разрезах и разных уровнях иерархии, таких как, отчетов по продажам, различных форм бюджетов и других. OLAP-системы имеет большие плюсы подобного представления и в других формах анализа данных, в том числе для прогнозирования.
1. OLAP-СИСТЕМЫ
Подсистемами анализа решают проблемы связанные с организацией эффективного анализа данных и предоставления к ним доступа. В процессе принятия решений пользователь составляет некоторые гипотезы чтобы они стали законченными решениями необходимо провести их. Проверка гипотез осуществляется на основании информации об анализируемой предметной области. Обычно наиболее удобный способ представления такой информации для человека является зависимость между некоторыми параметрами.
В процессе анализа данных, поиска решений часто появляется необходимость в построении зависимостей между различными параметрами, но так как число таких параметров может изменяться в широких пределах, а традиционные средства анализа, работающие с данными, представленных в виде таблиц реляционной БД, не могут полностью соответствовать этим требованиям. В 1993 г. Э. Ф. Кодд — основоположник реляционной модели БД — рассмотрел ее недостатки в первую очередь он указал на невозможность "объединять, просматривать и анализировать данные с точки зрения множественности измерений, т. е. самым понятным для аналитиков способом". Измерение — это последовательность значений одного из анализируемых параметров. Множественность измерений предполагает представление данных в виде многомерной модели. По измерениям в многомерной модели откладывают параметры, относящиеся к анализируемой предметной области.
По Кодду, многомерное концептуальное представление есть множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных.
Одновременный анализ по нескольким измерениям определяется как многомерный анализ[2], где измерение можно представлять не только в виде иерархической структуры, но и в некоторых случаях как несколько видов иерархического представления.
На пересечениях осей измерений располагаются данные, количественно характеризующие анализируемые факты, — меры, такие как издержки, остатки на складе или же объемы продаж, выраженные в единицах продукции или в денежном выражении и т. п.
Многомерную модель данных можно представить как гиперкуб (приложение 1, a) (конечно, название не очень удачно, поскольку под кубом обычно понимают фигуру с равными ребрами, что в данном случае далеко не так). Я ячейками гиперкуба, представляющего модель данных являются меры, а ребрами – измерения. Благодаря такой модели данных пользователи могут получать подмножества данных, формулировать сложные запросы, генерировать отчеты.
Над гиперкубом могут выполняться три типа операций:
· Срез (приложение 1, b) — формируется подмножество многомерного массива данных, которое должно соответствовать единственному значению нескольких или даже одного элементов измерений, не входящих в это подмножество. Если рассматривать термин «Срез» со стороны конечного пользователя, то чаще всего его роль выполняет двумерная проекция куба.
· Вращение (приложение 2) — изменение расположения измерений, представленных на отображаемой странице или же в отчете. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот (при этом внетабличное измерение становится новым измерением строки или измерением столбца). В качестве примера для первого случая может служить такой отчет, для которого элементы измерения "Время" располагаются поперек экрана (являются заголовками столбцов таблицы), а элементы измерения "Продукция" — вдоль экрана (являются заголовками строк таблицы). После применения операции вращения отчет будет иметь следующий вид: элементы измерения "Продукция" будут расположены по горизонтали, а элементы измерения "Время" — по вертикали. Примером второго случая может служить преобразование отчета с измерениями "Меры" и "Продукция", расположенными по вертикали, и измерением "Время", расположенным по горизонтали, в отчет, у которого измерение "Меры" располагается по вертикали, а измерения "Время" и "Продукция" — по горизонтали. При этом элементы измерения "Время" располагаются над элементами измерения "Продукция". Для третьего случая применения операции вращения можно привести пример преобразования отчета с расположенным по горизонтали измерением "Время" и измерением "Продукция", расположенным по вертикали, в отчет, у которого по горизонтали представлено измерение "Время", а по вертикали — измерение "География" (синоним: Pivot).
· Консолидация и детализация (приложение 3) — операции, определяющие переход вверх по направлению от детального (down) представления данных к агрегированному (up) и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями. Например, если при анализе данных об объемах продаж в Северной Америке выполнить операцию DrillDown для измерения "Регион", то на экране будут отображены такие его элементы, как "Канада", "Восточные Штаты Америки" и "Западные Штаты Америки". В результате дальнейшей детализации элемента "Канада" будут отображены элементы "Торонто", "Ванкувер", "Монреаль" и т. д[3].
Технология комплексного многомерного анализа данных получила название OLAP. OLAP — это ключевой компонент организации ХД.
OLAP-функциональность может быть реализована различными способами, как простейшими, такими как анализ данных в офисных приложениях, так и более сложными - распределенными аналитическими системами, основанными на серверных продуктах.
OLAP (On-LineAnalyticalProcessing) – технология оперативной аналитической обработки данных использующая средства и методы для сбора, хранения и анализа многомерных данных и целях поддержки процессов принятия решений.
Основное назначение OLAP-систем — поддержка аналитической деятельности, произвольных запросов пользователей-аналитиков. Целью OLAP-анализа является проверка возникающих гипотез.