Смекни!
smekni.com

Статистический пакет STATISTIKA (стр. 2 из 4)

Значимое уравнение (с R2 близким к 1) используется, как правило, для прогнозирования изучаемого явления. Прогноз – это вероятностное суждение о будущем, полученное путем использования совокупности научных методов. Например, прогнозирование финансового состояния выполняется для того, чтобы получить ответы на два вопроса: «как это может быть (какими могут стать финансовые показатели, если не будут приняты меры по их изменению)» и «как это должно быть (какими должны стать финансовые показатели фирмы для того, чтобы ее финансовое состояние обеспечивало высокий уровень конкурентоспособности)». Прогнозирование с целью получения ответа на первый вопрос принято называть исследовательским, на второй – нормативным.

Существует два способа прогнозов по уравнению регрессии: в пределах экспериментальных значений (интерполяция) иза пределами (экстраполяция). Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области, т.к. характер зависимости может существенно измениться. Поэтому достоверность исследовательского прогноза может быть невысокой. Однако его выполнение полностью обосновано.

1.2 Статистический пакет STATISTICA

Так как статистические методы находят широкое применение во всех сферах производства, то рынок компьютерных технологий предлагает большое количество прикладных программ, которые позволяют проводить такой анализ. Обилие систем, создатели которых утверждают, что их программа является наилучшей для обработки данных, а также отсутствие у большинства специалистов достаточного времени для освоения нескольких пакетов приводит к усложнению процесса выбора. Однако, по данным statsoft.ru, лидером статистических пакетов является STATISTICA.

История развития, области применения

STATISTICA (американской компании StatSoft, http://www.statsoft.com, StatSoft RUSSIA – российское представительство StatSoft) – система, реализующая известные методы статистической обработки и визуализации данных, управления базами данных и разработки пользовательских приложений при помощи встроенного языка программирования Statistica Basic.

Пакет разработан в 1984 г., и первоначально он был представлен в виде модуля для самой популярной в то время электронной таблицы Lotus. Как самостоятеный продукт Statistica впервые заявила о себе в 1991 г. и с тех пор постоянно занимает лидирующее место среди специализированных пакетов по статистике.

Благодаря широкому набор процедур анализа STATISTICA применяется в научных исследованиях, технике, бизнесе. Также система хорошо зарекомендовала себя в страховании (например, в страховой компании РОСНО). STATISTICA широко используется в учебном процессе (в Московском государственном университете, например, на механико-математическом и экономическом факультетах, в Московском институте электроники и математики на экономическом факультете и факультете прикладной математики, в Московском экономико-статистическом институте и др.). Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и, что очень важно, промышленных задач: Карты контроля качества, Анализ процессов и Планирование эксперимента. Модуль Карта контроля позволяет автоматизировать процесс контроля за качеством производимой продукции, анализировать причины появления отклонений от плановых спецификаций. Statistica осуществляет анализ пригодности (пригодности процессов/механизмов), как одной из важнейших характеристик производственного процесса. Вычисление показателей (или индексов) пригодности позволяет дать ответ на важный вопрос: какое количество изделий попадает в заданные границы инженерного допуска?

Таким образом, STATISTICA является одной из наиболее простых для неподготовленного пользователя систем, с наименьшим периодом овладевания ее возможностями и удачным набор графических возможностей.

Интерфейс, основные возможности

Наборы файлов данных системы STATISTICA (расширение *.sta) можно рассматривать как “рабочие книги” файлов, поскольку они содержат и автоматически сохраняют информацию обо всех дополнительных файлах (например, графиках, отчетах и программах), которые используются с текущим набором данных.

STATISTICA использует стандартный интерфейс электронных таблиц. Текущий файл данных всегда отображается в виде электронной таблицы. Данные организованы в виде наблюдений и переменных. Наблюдения можно рассматривать как эквивалент столбцов электронной таблицы. Каждое наблюдение состоит из набора значений переменной.

Рис. 1

Система состоит из ряда модулей, работающих независимо. Каждый модуль включает определенный класс процедур. Почти все процедуры являются интерактивными, т.е. для запуска обработки необходимо выбрать из меню переменные и ответить на ряд вопросов системы. Это очень удобно для начинающего пользователя, однако резко замедляет деятельность опытного и не позволяет эффективно повторять одну и ту же процедуру несколько раз.

Модули и процедуры

Описательные статистики

Анализ многомерных таблиц

Подгонка распределений

Корреляционный анализ

Регрессионный анализ (в том числе и многомерный, нелинейный)

Дисперсионный анализ

Кластерный анализ

Дискриминантный анализ

Факторный анализ

Анализ соответствий

Многомерное шкалирование

Анализ выживаемости

Структурные модели

Деревья классификаций

Прогнозирование временных рядов

Непараметрическая статистика

Анализ Монте-Карло и др.

Виды анализа

Basic Statistics/Tables (Основные статистики и таблицы):

Advanced Linear/Nonlinear Models (прогрессивные линейные/нелинейные модели):

Multivariate Exploratory Techniques (Многомерные Исслед. Методы):


Industrial Statistic and Six Sigma (промышленная статистика и статистика 6-ти сигм):

Графическое представление данных в STATISTICA

STATISTICA позволяет строить различные типы графиков:

Матричные графики

ПиктографикиДиаграммы рассеяния

ГистограммыТернарные графики

Карты линий уровняКруговые диаграммы

Категоризованные

Вероятностные

Графики поверхностей

Трассировочные

Комбинированные

Вращение и перспектива


Подгонка, сглаживание, сечения и др.:


Типы графиков вSTATISTICA
Виды 2D графиков
Виды 3D графиков
Виды 3D линий

2. Статистический анализ экономических данных в STATISTICA

2.1 Практическое задание 1. Корреляционно-регрессионный анализ в STATISTICA

Постановка задачи

Руководство компании по результатам производственной деятельности 15 своих филиалов в различных городах России анализирует факторы, влияющие на производительность труда (y) и предполагает, что важнейшими из них являются следующие:

x1среднегодовая стоимость основных фондов, тыс. руб.

х2 – удельный вес рабочих высокой квалификации в общей численности рабочих, %

х3– трудоемкость единицы продукции

х4– среднегодовая численность рабочих

x5– коэффициент сменности оборудования

x6– удельный вес потерь от брака

x7– среднегодовой фонд заработной платы, тыс. руб.

Были собраны данные за последний год (см. таб. 3).

Таблица 3 – Исходные данные

Город y х1 х2 х3 х4 x5 x6 x7
1 Москва 14 101,03 35 0,4 15780 2,01 0,22 13002
2 Санкт-Петербург 14,02 98,54 36 0,42 14760 1,86 0,25 10145,6
3 Нижний-Новгород 7,03 49 17 1,83 630 0,95 0,5 5040,9
4 Ульяновск 7,01 50 17 1,85 633 0,93 0,52 5027,39
5 Пенза 8,21 57,42 19 1,43 752 1,08 0,44 5903,3
6 Самара 10 70 24 1,01 920 1,33 0,35 7100
7 Чебоксары 9,02 61,03 22 1,23 830 1,19 0,39 6494,6
8 Саранск 11 78,09 26 0,82 1028 1,44 0,37 7500
9 Челябинск 9,05 63,31 28 1,2 804 1,2 0,38 6516,5
10 Тольятти 11 77,05 29 0,81 1028 1,46 0,32 7940
11 Волгоград 12 84,03 27 0,64 1126 1,6 0,29 8900
12 Рязань 12 83 29 0,66 1127 1,59 0,25 8668
13 Красноярск 12 84 30 0,68 1096 1,59 0,29 8670,91
14 Тула 7,26 50,81 17 1,75 657 0,96 0,49 5209,8
15 Казань 7,01 55,01 16 1,85 631 0,93 0,51 5027,3

С использованием системы STATISTICA необходимо: