Смекни!
smekni.com

Статистическая проверка гипотез (стр. 5 из 8)

На рис.3а) – явно линейная зависимость между X и Y,

на рис.3б) –зависимость нелинейная,

на рис.3в) – зависимость между X и Y отсутствует.

Простейшим видом эмпирической формулы является линейная зависимость

Y = aX + b.

Функцию f(x) = ax + b называют линейной регрессией Y на X .

Существуют различные методы вычисления коэффициентов a и b: метод “натянутой нити”, метод сумм и метод наименьших квадратов.

Рассмотрим метод “натянутой нити”.

Нанесём результаты эксперимента на координатную плоскость (см. рис.4)) . Мысленно натянем нить таким образом, чтобы по обе стороны от неё оставалось приблизительно равное число точек, при этом суммы расстояний от точек до нити с обеих сторон должны быть одинаковы и минимальны.


Рис.4. Метод ”натянутой нити”.

На прямой, совпадающей с направлением нити, выберем две точки с координатами (x1,y1) и (x2,y2). Подставим координаты точек в уравнение y=ax+b. Получим систему из двух уравнений с двумя неизвестными a и b и решаем её

Составим уравнение y=ax+b, используя решение (a,b) системы.

8.1 Метод наименьших квадратов

Будем искать уравнение регрессии в виде линейной зависимости:


Коэффициенты a0 и a1 определяются из условия: сумма квадратов отклонений экспериментальных значений y от рассчитанных по уравнению регрессии должна быть минимальной.

Для отыскания минимума составим систему уравнений

Решая эту систему, получаем значения коэффициентов:

Обозначим через rxy оценку коэффициента линейной корреляции:

.

Тогда коэффициенты регрессии определяются равенствами

- уравнение линейной регрессии.

Аналогичные вычисления для второго уравнения регрессии x=b1y+b0=g(y) дают следующие значения коэффициентов:

.

Тогда уравнение регрессии имеет вид:

.

Свойства коэффициента линейной корреляции:

1.Коэффициент линейной корреляции rxy по абсолютной величине не превышает 1:

2.Если X и Y (случайные величины) независимы, то rxy=0, обратное утверждение верно не всегда.

3.Если rxy=±1, то величины X, Y связаны функциональной линейной зависимостью.

4.Если

, то зависимость X и Y строят в виде линейной функции. В случае
рассматриваются другие виды зависимости, например, квадратичная зависимость, гиперболическая, логарифмическая:

,

8.2 Проверка незначимости коэффициента корреляции

Пусть по результатам эксперимента рассчитана оценка коэффициента корреляции rxy. Выберем нулевую гипотезу: H0 - коэффициент корреляции rxy незначим; альтернативную гипотезу: H1 – коэффициент корреляции rxy значим.

Для проверки справедливости H0 выберем критерий Стьюдента. Наблюдаемое значение критерия рассчитывается по результатам эксперимента по следующей формуле:

;

По таблице критических точек критерия Стьюдента определим Ткр.= Т( q, f ) по уровню значимости q и числу степеней свободы f = N-2. Если набл|<Ткр, то гипотеза H0 – справедлива, т.е. коэффициент корреляции rxy - незначим. В противном случае, нулевая гипотез H0 отвергается, т.е. случайные величины X и Y связаны линейной зависимостью (критическая область двусторонняя).


Рис.5. Критическая область критерия Стьюдента..

При использовании метода наименьших квадратов для вычисления коэффициента корреляции и построения уравнения регрессии предполагается, что X и Y имеют нормальное распределение.

8.3. Использование корреляционной таблицы для вычисления коэффициента корреляции

Если число экспериментов велико, то составляются корреляционные таблицы. Для этого среди результатов эксперимента выбираются xmin, xmax, ymin, ymax. Интервал [xmin, xma)] возможных значений X делим с шагом h1 на n частичных интервалов, Интервал [ymin,ymax] для Y делим с шагом h2 на m частичных интервалов. Границы интервалов по X записываются в 1-ый столбец, по Y - в 1-ую строку.

Для каждой пары (xi, yi) определяем в какую строку попало значение xi и в какой столбец yi. В клетку, расположенную на пересечении найденной строки и столбца, ставим палочку (или точку) . Операцию проводим для всех пар. Подчитываем число палочек (точек) в каждой клетке и записываем полученное число в клетку. Просуммируем числа, стоящие в 1- ой строке, получим частоту

- число пар (xi,yi), у которых первая координата попала в первый частичный интервал. Проведём суммирование по всем остальным строкам, полученные числа
заносим в последний столбец.

Таблица 7

Y,V X, U
[y0, y1) y1*, v1 [y1, y2) y2*, v2 …… [yj1,yj) yj*, vj C2 …… [ym-1, ym) ym*, vm
[x0, x1) x1*, u1
……
……
[x1, x2) x2*, u2
……
……
……… ……… ……… …… ……… …… ………… …………
[xi-1,xi) C1, xi*, ui
……
……
[xn1,xn) xn*,un
……
……
……
……
N

Просуммируем величины, которые стоят в первом столбце. Получим частоту

- число пар (xi, yi), у которых y попадает в первый интервал. Найдём суммы по всем столбцам. Полученное значение запишем в последнюю строку. Суммы полученных значений равны N: