Другим важным требованием, обеспечивающим надежность выводов корреляционного анализа, является требование достаточного числа наблюдений. Как уже указывалось, влияние существенных причин может быть затушевано действием случайных факторов, "взаимопогашение" влияния которых на результативный показатель в известной мере происходит при выведении средней результативного показателя для массы случаев.
Определенные требования существуют и в отношении факторов, вводимых в исследование. Все множество факторов, оказывающих влияние на величину результативного показателя, к действительности не может быть введено в рассмотрение, да практически в этом и нет необходимости, так как их роль и значение в формировании величины результативного показателя могут иметь существенные различия. Поэтому при ограничении числа факторов, включаемых в изучение, наряду с качественным анализом целесообразно использовать и определенные количественные оценки, позволяющие конкретно охарактеризовать влияние факторов на результативный показатель (к оценкам можно отнести парные коэффициенты корреляции, ранговые коэффициенты при экспертной оценке влияния факторов и др.). Включаемые в исследование факторы должны быть независимыми друг от друга, так как наличие тесной связи между ними свидетельствует о том, что они характеризуют одни и те же стороны изучаемого явления и в значительной мере дублируют друг друга.
Выбор формы связи. Определяющая роль в выборе формы связи между явлениями принадлежит теоретическому анализу. Так, например, чем больше размер основного капитала предприятия (факторный признак), тем больше при прочих равных условиях оно выпускает продукции (результативный признак).
С ростом факторного признака здесь, как правило, равномерно растет и результативный, поэтому зависимость между ними может быть выражена уравнением прямой Y=a+b*x, которое называется линейным уравнением регрессии.
Параметр b называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признаках на одну единицу. При x = 0 a = Y. Увеличение количества внесенных удобрений приводит, при прочих равных условиях, к росту урожайности, но чрезмерное внесение их без изменения других элементов к дальнейшему повышению урожайности не приводит, а, наоборот, снижает ее.
Такая зависимость может быть выражена уравнением параболы Y=a+b*x+c*x2.
Параметр c характеризует степень ускорения или замедления кривизны параболы, и при c>0 парабола имеет минимум, а при c<0 - максимум. Параметр b, характеризует угол наклона кривой, а параметр a - начало кривой.
Однако с помощью теоретического анализа не всегда удается установить форму связи. В таких случаях приходится только предполагать о наличии определенной формы связи. Проверить эти предположения можно при помощи графического анализа, который используется для выбора формы связи между явлениями, хотя графический метод изучения связи применяется и самостоятельно.
Применение методов корреляционного анализа дает возможность выражать связь между признаками аналитически - в виде уравнения - и придавать ей количественное выражение. Чтобы измерить тесноту прямолинейной связи между двумя признаками, пользуются парным коэффициентом корреляции, который обозначается r.
Коэффициент корреляции r применяется только в тех случаях, когда между явлениями существует прямолинейная связь. Если же связь криволинейная, то пользуются индексом корреляции, который рассчитывается по формуле:
Коэффициент корреляции является мерой тесноты связи только для линейной формы связи, а индекс корреляции - и для линейной, и для криволинейной. При прямолинейной связи коэффициент корреляции по своей абсолютной величине равен индексу корреляции:
|r|=R.
Если индекс корреляции возвести в квадрат, то получим коэффициент детерминации. Коэффициент детерминации является наиболее конкретным показателем, так как он отвечает на вопрос о том, какая доля в общем результате зависит от фактора, положенного в основание группировки.
Индекс корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r|< 0,30, то связь слабая; при |r|= (0,3÷0,7) – средняя; при |r|> 0,70 – сильная, или тесная. Когда |r|= 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии связи между У и X.
1.3. Непараметрические методы оценки связи
Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.
Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.
Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.
В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.
При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.
Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (r) и Кендэлла (t). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.
2. Расчетная часть
Имеются следующие выборочные данные по предприятиям одной из отраслей промышленности региона в отчетном году (выборка 20-% механическая):
Таблица 2
Статистическая информация о результатах производственной деятельности организации
№ организации | Выпуск продукции, млн. руб. | Фонд заработной платы, млн. руб. | Средне-списочная численность работников, чел. | Средне-годовая заработная плата, тыс. руб. | Уровень производительности труда |
1 | 36,450 | 11,340 | 162 | 70 | 0,225 |
2 | 23,400 | 8,112 | 156 | 52 | 0,150 |
3 | 46,540 | 15,036 | 179 | 84 | 0,260 |
4 | 59,752 | 19,012 | 194 | 98 | 0,308 |
5 | 41,415 | 13,035 | 165 | 79 | 0,251 |
6 | 26,860 | 8,532 | 158 | 54 | 0,170 |
7 | 79,200 | 26,400 | 220 | 120 | 0,360 |
8 | 54,720 | 17,100 | 190 | 90 | 0,288 |
9 | 40,424 | 12,062 | 163 | 74 | 0,248 |
10 | 30,210 | 9,540 | 159 | 60 | 0,190 |
11 | 42,418 | 13,694 | 167 | 82 | 0,254 |
12 | 64,575 | 21,320 | 205 | 104 | 0,315 |
13 | 51,612 | 16,082 | 187 | 86 | 0,276 |
14 | 35,420 | 10,465 | 161 | 65 | 0,220 |
15 | 14,400 | 4,320 | 120 | 36 | 0,120 |
16 | 36,936 | 11,502 | 162 | 71 | 0,228 |
17 | 53,392 | 16,356 | 188 | 87 | 0,284 |
18 | 41,000 | 12,792 | 164 | 78 | 0,250 |
19 | 55,680 | 17,472 | 192 | 91 | 0,290 |
20 | 18,200 | 5,850 | 130 | 45 | 0,140 |
21 | 31,800 | 9,858 | 159 | 62 | 0,200 |
22 | 39,204 | 11,826 | 162 | 73 | 0,242 |
23 | 57,128 | 18,142 | 193 | 94 | 0,296 |
24 | 28,440 | 8,848 | 158 | 56 | 0,180 |
25 | 43,344 | 13,944 | 168 | 83 | 0,258 |
26 | 70,720 | 23,920 | 208 | 115 | 0,340 |
27 | 41,832 | 13,280 | 166 | 80 | 0,252 |
28 | 69,345 | 22,356 | 207 | 108 | 0,335 |
29 | 35,903 | 10,948 | 161 | 68 | 0,223 |
30 | 50,220 | 15,810 | 186 | 85 | 0,270 |
СУММА | 1320,54 | 418,954 | 5190,000 | 2350,000 | 7,423 |
СРЕДНЕЕ | 44,018 | 13,965 | 173,000 | 78,333 | 0,247 |
Задача 1
Построить статистический ряд распределения по признаку – среднегодовая заработная плата. Вычислим среднегодовую заработную плату как отношение фонда заработной платы к среднесписочной численности работников (данные задачи приложение 2).