Смекни!
smekni.com

Трансформации социально-экономических систем в КНР и Венгрии (стр. 20 из 28)

Базовый анализ данных

Базовый анализ данных включает:

· изучение распределения частот значений переменной (изучение вариационных рядов)

· определение статистик, связанных с распределением частот (среднее арифметическое, мода, медиана, показатели вариации)

· определение показателей формы распределения

· проверку гипотез (гипотез о связях между переменными, гипотезы о различиях)

С распределением частот используют для анализа следующие статистики: среднее арифметическое, мода, медиана, размах межквартирный размах, стандартные отклонения, коэффициент вариации, асимметрия и эксцесс.

Среднеарифметическое используется, когда данные собраны с помощью интервальной или относительной шкалы. Среднее арифметическое определяется по формуле:

,

где Хij – значение i-й переменной по j-му объекту;

n – число объектов в выборке.

Мода – значение переменной, встречающееся чаще других. Мода является хорошим показателем центра распределения. В табл. 3.1 для показателя – доступ к санитарно техническим системам чаще всего встречается значения равное 74 и 78 %.

Медиана – это значение переменной в середине ряда данных, расположенных в порядке возрастания или убывания. В табл. 3.4 представлен показатель – доступ к санитарно техническим системам для выборки в 20 стран в порядке возрастания этого показателя.

Для данных измеряемых с помощью интервальных или относительных шкал определяют следующие показатели вариации:

- рамках вариации;

- межквартальный размах;

- дисперсию;

- стандартное отклонение;

- коэффициент вариации.

Разmах i=Xmaxi ‑ Xmini

Для показателя – городское население (процент от общего населения) Разmах=91-27=64%

Межквартальный размах – это разность между 75 и 25 процентилями.

Среднеквадратическое (стандартное) отклонение определяется по формуле:

.

Коэффициент вариации вычисляется по формуле:

.

Коэффициент вариации определяется для данных, измеряемых с помощью относительной шкалы.

Для базового анализа оценивают закон распределения данных с помощью асимметрии и эксцесса.

Асимметрия – это характеристика распределения, которая оценивает симметрию расположения значений данных относительно средней.

При симметричном распределении значения среднего арифметического, моды и медианы равны между собой, а частоты любых двух значений переменной, которые расположены на одном и том же расстоянии от центра распределения, одинаковы..

Эксцесс (kurtosis)- это показатель, показывающий островершинность или плосковершинность кривой вариационного ряда по сравнению с нормальным распределением.

Эксцесс случайной величины, имеющий нормальный закон распределения, равен нулю. Если эксцесс имеет положительный знак, то распределение более островершинной, при отрицательном знаке более плосковершинной.

Проверка гипотезы заключается в выполнении следующих этапов:

a) формулируется нулевая гипотеза Н0 и альтернативная гипотеза Н1;

b) выбирается статистический критерий проверки гипотезы;

c) выбирается уровень значимости a;

d) определяется объем выборки, собираются данные, вычисляется значение выборочной статистики;

e) определяется вероятность, которую примет статистика критерия (см. этап b) при выполнении нулевой гипотезы, а для альтернативной гипотезы определяется критическое значение статистики, которое делит интервал на область критерия и непринятия нулевой гипотезы;

f) сравнивается полученная вероятность по результатам выборки с заданным уровнем значимости, а для альтернативного варианта определяют, попадет ли выборочное значение в область критерия или отклонения нулевой гипотезы;

g) формулируется решение принять или отвергнуть нулевую гипотезу;

h) излагается статистическое решение с позиций экономического смысла.

Корреляционный анализ

Корреляционный анализ - один из методов статистического анализа взаимозависимости нескольких признаков.

В процессе статистического исследования связей между экономическими явлениями определяют следующие виды коэффициентов корреляции:

a) коэффициент парной корреляции;

b) корреляционное отношение;

c) множественный коэффициент корреляции;

d) частный коэффициент корреляции;

e) коэффициент ранговой корреляции;

f) коэффициент канонической корреляции.

Корреляция – стохастическая (случайная, вероятностная) связь двух или более случайных переменных или рядов данных явлений. При помощи корреляции можно выразить интенсивность и направленность связей между исследуемыми экономическими явлениями.

Самая простая форма корреляции это корреляция между двумя переменными (х и у).

Тесноту линейных связей двух случайных переменных х и у (у= а01х) показывает коэффициент парной корреляции (линейный коэффициент корреляции).

В процессе статистического исследования связей между экономическими явлениями встречаются и такие, в которых корреляция имеет форму кривой, которая может быть гиперболой, параболой и т.д. Степень криволинейной стохастической связи между х и у измеряется корреляционным отношением.

В случае сложных связей между массовыми экономическими явлениями появляется несколько независимых переменных, существенно влияющих на зависимую. Общее влияние этих переменных измеряется с помощью показателей корреляции. Показателем тесноты линейной зависимости случайной переменной у от к случайных переменных х1, х2…хk являет множественный коэффициент корреляции.

Так же рассматривается теснота зависимости между двумя переменными при исключении влияния на эту зависимость остальных переменных. Показателем тесноты зависимости в данном случае является частный коэффициент корреляции.

В некоторых статистических исследованиях существует вероятность того, что некоторые переменные нельзя точно измерить, а даже если такие измерения и получены, есть вероятность того, что в некоторых случаях значения показателей недостоверны. В таких случаях можно проранжировать объекты по значениям показателей одного и второго, получив последовательность. Зависимость между двумя этими последовательностями оценивается коэффициентом ранговой корреляции Спирмана. Коэффициент ранговой корреляции является показателем измерения силы линейной зависимости между двумя наборами рангов.

Корреляционные связи между двумя группами случайных величин оцениваются коэффициентом канонической корреляции. Эта зависимость определяется при помощи новых аргументов канонических величин, вычисленных как линейные комбинации исходных признаков.

Коэффициент парной корреляции

Коэффициент парной корреляции является мерой линейной статистической зависимости между величинами и определяется для генеральной совокупности на основе выборки.

А. Генеральная совокупность с двумя признаками.

Для генеральной совокупности с двумя признаками определяются следующие пять параметров (два математических ожидания, две дисперсии, один коэффициент парной корреляции):

1. Математическое ожидание х: Mx=μx

2. Математическое ожидание у: My=μy

3. Дисперсия х: Dx=σ2x

4. Дисперсия у: Dy=σ2y

5. Коэффициент парной корреляции:

Квадрат коэффициента корреляции называют коэффициентом детерминации.

а) Проверка значимости параметров связи

Значимость коэффициента корреляции показывает зависимость или независимость признаков.

Если коэффициент незначим, то признаки x и y считаются независимыми.

Проверяется гипотеза Н0: r = 0. Для этого вычисляется tнабл.. и находится tтабл.. по таблице t– распределения Стьюдента

tтабл. находится для определенного значения a (a=10%, 5%, 2%, 1%) и n=n-2

Если çtнабл.ç>tтабл., то гипотеза H0 отвергается с вероятностью ошибки a.

Если çtнабл.ç≤tтабл, то гипотеза не отвергается

при n>100

или

б) Интервальная оценка параметров связи