Отметим, что при вычислениях условных средних значений, а также других математических характеристик признаков
и , всем наблюдениям, попавшим в некоторый интервал, придаётся значение середины этого интервала.Значения
находят, суммируя число наблюдений, попавших в соответствующие интервалы по признаку соответственно. Вычисления производят по формулам:где
-число интервалов.В нижней строке и в последнем столбце таблицы представлены условные средние значения, вычисленные по формулам:
Рассмотрим линейную связь
и .2) Вычисление коэффициента корреляции, нахождение уравнения регрессии.
Коэффициент корреляции является мерой линейной связи между зависимыми случайными величинами: он показывает, насколько хорошо, в среднем, может быть представлена одна из величин в виде линейной функции от другой.
Коэффициент корреляции по абсолютной величине не превосходит 1. Чем ближе
к единице, тем линейная связь между величинами и считается более тесной. Отметим, что вычисления по формулам (2) и (3) производятся по данным, не объединённым в группы. Если число наблюдений велико, коэффициент корреляции и другие математические характеристики системы величин находят по группированным данным.Так, расчёт коэффициента корреляции по группированным данным, выполняется по формуле
, (1.3.2)где
(1.3.3)Все величины в этих формулах должны быть взяты из корреляционной таблицы.
Уравнение прямой линии, относительно которой наилучшим образом расположены условные средние значения
, а также отдельные точки с координатами , может быть найдено по формуле (1.3.4)Величины, входящие в уравнение (4), могут быть найдены по данным, объединённым в группы.
При вычислениях по группированным данным величины
и вычисляются по таким формулам: (1.3.5)Уравнение линейной регрессии может быть найдено методом наименьших квадратов. В случае двух переменных
уравнение линейной регрессии представлено многочленом первой степени. .Неизвестные параметры
определяются методом наименьших квадратов, исходя из требования .Найдя частные производные данного выражения по
, и приравняв их к нулю, получим систему нормальных уравнений для определения неизвестных параметров и . (1.3.6)Данная система линейных алгебраических уравнений может быть решена матричным методом или методом Крамера.
3) Вычисление коэффициента детерминированности
Для количественной оценки соответствия теоретической линии регрессии эмпирическим данным используется коэффициент детерминированности
, вычисляемый по формуле ,где
и - суммы квадратов, вычисляемые соответственно по формулам: (1.3.7)где
- данные эмпирические значения признака ,- среднее арифметическое значение ,
- теоретическое значение признака , вычисленное при подстановке соответствующего значения в найденное уравнение регрессии.
Обычно коэффициент детерминированности лежит между 0 и 1. Чем ближе этот коэффициент к 1, тем лучше найденная линия регрессии представляет экспериментальные данные, положенные в основу расчётов.
1.4 Разработка алгоритма решения задачи
Чтобы решить поставленную задачу, необходимо воспользоваться следующим алгоритмом:
1) По результатам наблюдений двух измеримых признаков (X,Y) построить вспомогательную ( корреляционную ) таблицу, распределив значения X,Y на 5-6 интервалов. Найти условные средние значения
, . Корреляционную таблицу можно построить вручную.2) Вычислить значение коэффициента корреляции по группированным данным, используя формулы.
3) Найти уравнение регрессии, используя формулы.
4) Найти уравнение регрессии методом наименьших квадратов.
5) По данным значениям переменных построить точечную диаграмму, указать на ней линию тренда. При построении линии тренда с помощью вкладки «Параметры» показать на диаграмме уравнение линии тренда и величину R2.
6) Найти теоретические значения Y, подставив данные значения xi в уравнение регрессии, найденное в пункте 3.
7) Построить графики условных средних значений
( ) , а также график теоретических значений Y на одной диаграмме.8) Найти коэффициент детерминированности для уравнения регрессии, найденного в пункте 3.
9) Найти коэффициент детерминированности для уравнения регрессии, найденного в пункте 3.
2. Контрольный вариант