На рис.3а) – явно линейная зависимость между X и Y,
на рис.3б) –зависимость нелинейная,
на рис.3в) – зависимость между X и Y отсутствует.
Простейшим видом эмпирической формулы является линейная зависимость
Y = aX + b.
Функцию f(x) = ax + b называют линейной регрессией Y на X .
Существуют различные методы вычисления коэффициентов a и b: метод “натянутой нити”, метод сумм и метод наименьших квадратов.
Рассмотрим метод “натянутой нити”.
Нанесём результаты эксперимента на координатную плоскость (см. рис.4)) . Мысленно натянем нить таким образом, чтобы по обе стороны от неё оставалось приблизительно равное число точек, при этом суммы расстояний от точек до нити с обеих сторон должны быть одинаковы и минимальны.
На прямой, совпадающей с направлением нити, выберем две точки с координатами (x1,y1) и (x2,y2). Подставим координаты точек в уравнение y=ax+b. Получим систему из двух уравнений с двумя неизвестными a и b и решаем её
Составим уравнение y=ax+b, используя решение (a,b) системы.
Будем искать уравнение регрессии в виде линейной зависимости:
Коэффициенты a0 и a1 определяются из условия: сумма квадратов отклонений экспериментальных значений y от рассчитанных по уравнению регрессии должна быть минимальной.
Для отыскания минимума составим систему уравнений
Решая эту систему, получаем значения коэффициентов:
Обозначим через rxy оценку коэффициента линейной корреляции:
.Тогда коэффициенты регрессии определяются равенствами
- уравнение линейной регрессии.Аналогичные вычисления для второго уравнения регрессии x=b1y+b0=g(y) дают следующие значения коэффициентов:
.Тогда уравнение регрессии имеет вид:
.Свойства коэффициента линейной корреляции:
1.Коэффициент линейной корреляции rxy по абсолютной величине не превышает 1:
2.Если X и Y (случайные величины) независимы, то rxy=0, обратное утверждение верно не всегда.
3.Если rxy=±1, то величины X, Y связаны функциональной линейной зависимостью.
4.Если
, то зависимость X и Y строят в виде линейной функции. В случае рассматриваются другие виды зависимости, например, квадратичная зависимость, гиперболическая, логарифмическая: ,Пусть по результатам эксперимента рассчитана оценка коэффициента корреляции rxy. Выберем нулевую гипотезу: H0 - коэффициент корреляции rxy незначим; альтернативную гипотезу: H1 – коэффициент корреляции rxy значим.
Для проверки справедливости H0 выберем критерий Стьюдента. Наблюдаемое значение критерия рассчитывается по результатам эксперимента по следующей формуле:
;По таблице критических точек критерия Стьюдента определим Ткр.= Т( q, f ) по уровню значимости q и числу степеней свободы f = N-2. Если |Тнабл|<Ткр, то гипотеза H0 – справедлива, т.е. коэффициент корреляции rxy - незначим. В противном случае, нулевая гипотез H0 отвергается, т.е. случайные величины X и Y связаны линейной зависимостью (критическая область двусторонняя).
При использовании метода наименьших квадратов для вычисления коэффициента корреляции и построения уравнения регрессии предполагается, что X и Y имеют нормальное распределение.
Если число экспериментов велико, то составляются корреляционные таблицы. Для этого среди результатов эксперимента выбираются xmin, xmax, ymin, ymax. Интервал [xmin, xma)] возможных значений X делим с шагом h1 на n частичных интервалов, Интервал [ymin,ymax] для Y делим с шагом h2 на m частичных интервалов. Границы интервалов по X записываются в 1-ый столбец, по Y - в 1-ую строку.
Для каждой пары (xi, yi) определяем в какую строку попало значение xi и в какой столбец yi. В клетку, расположенную на пересечении найденной строки и столбца, ставим палочку (или точку) . Операцию проводим для всех пар. Подчитываем число палочек (точек) в каждой клетке и записываем полученное число в клетку. Просуммируем числа, стоящие в 1- ой строке, получим частоту
- число пар (xi,yi), у которых первая координата попала в первый частичный интервал. Проведём суммирование по всем остальным строкам, полученные числа заносим в последний столбец.Таблица 7
Y,V X, U | [y0, y1) y1*, v1 | [y1, y2) y2*, v2 | …… | [yj1,yj) yj*, vj C2 | …… | [ym-1, ym) ym*, vm | |
[x0, x1) x1*, u1 | …… | …… | |||||
[x1, x2) x2*, u2 | …… | …… | |||||
……… | ……… | ……… | …… | ……… | …… | ………… | ………… |
[xi-1,xi) C1, xi*, ui | …… | …… | |||||
[xn1,xn) xn*,un | …… | …… | |||||
…… | …… | N |
Просуммируем величины, которые стоят в первом столбце. Получим частоту
- число пар (xi, yi), у которых y попадает в первый интервал. Найдём суммы по всем столбцам. Полученное значение запишем в последнюю строку. Суммы полученных значений равны N: