Смекни!
smekni.com

Курс социально-экономической статистики (стр. 167 из 182)


где

(53.1)

(53.2)

xij значение i-го наблюдения j-го фактора,

ril выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями xj и xl. При этом rjlявляется оценкой генерального парного коэффициента корреляции.

Матрица R является симметричной (rjl = rlj) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (k - 2)-го порядка между переменными х1 и х2 равен

(53.3)

где Rjl алгебраическое дополнение элемента rjl корреляционной матрицы R. При этом Rjl = (-l)j+l Mjl, где Mjl — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.

Множественный коэффициент корреляции (k - 1)-го порядка результативного признака x1 определяется по формуле

(53.4)

где | R | — определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H0: ρ = 0, проверяется по t-критерию Стьюдента. Наблюдаемое значение критерия находится по формуле

(53.5)

где r — соответственно оценка частного или парного коэффициента корреляции ρ; l — порядок частного коэффициента корреляции, т.е. число фиксируемых факторов (для парного коэффициента корреляции l=0).

Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза H0: ρ = 0 отвергается с вероятностью ошибки α, если tнабл по модулю будет больше, чем значение tкр, определяемое по таблицам t-распределения для заданного α и υ = n l - 2.

Значимость коэффициентов корреляции можно также проверить с помощью таблиц Фишера — Иейтса.

При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку для Z:

(53.6)

где tγ вычисляют по таблице значений интегральной функции Лапласа из условия

значение Z' определяют по таблице Z-преобразования по найденному значению r. Функция Z' — нечетная, т.е.

Обратный переход от Z к ρ осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для ρ с надежностью γ:

Таким образом, с вероятностью γ гарантируется, что генеральный коэффициент корреляции ρ будет находиться в интервале (rmin, rmax).

Значимость множественного коэффициента корреляции (или его квадрата — коэффициента детерминации) проверяется по F-критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. H0 : ρ1/2,…,k = 0, а наблюдаемое значение статистики находится по формуле

(53.7)

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между х1 и остальными факторами х2, ..., хk, если Fнабл > Fкр, где Fкр определяется по таблице F-распределения для заданных α, υ1 = k - 1, υ2 = n - k.

53.2. Регрессионный анализ

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) хj(j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения xj.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием

= φ(x1, ..., хk), являющимся функцией от аргументов хj и с постоянной, не зависящей от аргументов дисперсией σ2.

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x1, х2, ..., хj, ..., хk) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных i, xi1, хi2, ..., хij, ..., xik), где хij значение j-й переменной для i-го наблюдения (i = 1, 2,..., n), уi значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

(53.8)

где βj — параметры регрессионной модели;

εj — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ2.

Отметим, что модель (53.8) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров β0, β1,…, βj, …, βk и аргументов.

Как следует из (53.8), коэффициент регрессии Bj показывает, на какую величину в среднем изменится результативный признак у, если переменную хj увеличить на единицу измерения, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

(53.9)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака 1, у2,.... уn); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ..., k; x0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора εi не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mεi = 0) и неизвестной постоянной σ2 (Dεi = σ2).

На практике рекомендуется, чтобы значение п превышало k не менее чем в три раза.

В модели (53.9)

В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x0, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β0, β1, …, βk модели (53.8) или вектора β в (53.9).

Так как в регрессионном анализе хj рассматриваются как неслучайные величины, a Mεi = 0, то согласно (53.8) уравнение регрессии имеет вид

(53.10)

для всех i = 1, 2, ..., п, или в матричной форме:

(53.11)

где

— вектор-столбец с элементами
1...,
i,...,
n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений уi от модельных значений

i, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.