Вместе с тем на практике часто встречаются с необходимостью изучения связи между ординальными (порядковыми) переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь порядок, в котором объекты выстраиваются по степени проявления признака (например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т.п.). Если, скажем, по некоторой дисциплине два студента имеют оценки «отлично» И «удовлетворительно», то можно лишь утверждать, что уровень подготовки по этой дисциплине первого студента выше (больше), чем второго, но нельзя сказать, на сколько или во сколько раз больше.
Оказывается, что таких случаях проблема оценки тесноты связи разрешима, если упорядочить, или ранжировать, объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением (значением) признака присваивается ранг 1, следующему за ним – ранг 2 и т.д. Объекты можно располагать и в порядке убывания проявления (значений) признака. Если объекты ранжированы по двум признакам, то имеется возможность оценить. тесноту связи между признаками, основываясь на рангах, Т.е. тесноту ранговой корреляции.
Коэффициент ранговой корреляции Спирмена находится по формуле:
(1.42)где
и ранги i-го объекта по переменным X и Y, n число пар наблюдений.Если ранги всех объектов равны, то ρ=1, т.е. при полной прямой связи ρ=1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке ρ=-
. Во всех остальных случаях .При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов.
При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:
(1.43)где
; ; число групп неразличимых рангов у переменных X и Y; число рангов, входящих в группу неразличимых рангов переменных X и Y.Коэффициент ранговой корреляции Кендалла находится по формуле:
(1.44),где K статистика Кендалла.
Для определения Kнеобходимо ранжировать объекты по одной переменной в порядке возрастания рангов (1, 2, ... , n) и определить соответствующие их ранги (
) по другой переменной. Статистика Kравна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок имеем K= 0 и τ= 1; при полной противоположности можно показать, что и . Во всех остальных случаях .Коэффициент конкордации (согласованности) рангов Кендалла W, определяемый по формуле:
(1.45)где n число объектов;
m число анализируемых порядковых переменных;
(1.46)отклонение суммы рангов объекта от средней их суммы для всех объектов, равной m(n+1)/2.
Значения коэффициента W заключены на отрезке т.е. , причем W=1 при совпадении всех ранжировок.
Корреляционный анализ может быть использован и при оценке взаимосвязи качественных (категоризованных) признаков (переменных), представленных в так называемой номинальной шкале, в которой возможно лишь различение объектов по возможным состояниям, градациям (например, пол, социальное положение, профессия и т.п.). Здесь в качестве соответствующих показателей могут быть использованы коэффициенты ассоциации, контингеници (сопряженности), бисериальной корреляции.
В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной Y от одной (или нескольких) неслучайной независимой переменной Х, называемой часто объясняющей переменной. Такая зависимость может возникнуть, например, в случае, когда при каждом фиксированном значении X соответствующие значения Y подвержены случайному разбросу за счет действия неконтролируемых факторов. Указанная зависимость Y от X (иногда ее называют регрессионной) может быть представлена также в виде модельного уравнения регрессии (1.1). В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения y будут в большей или меньшей мере отклоняться от функции регрессии
. В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде: , где — случайная переменная, характеризующая отклонение от функции регрессии. Эту переменную будем называть возмущающей или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция (Х) с точностью до случайного возмущения .Рассмотрим линейный регрессионный анализ, для которого функция
(Х) линейная относительно оцениваемых параметров: . (2.1)Предположим, что для оценки параметров линейной функции регрессии (2.1) взята выборка, содержащая n пар значений переменных (
), где i=1,2,..., . В этом случае линейная парная регрессионная модель имеет вид: (2.2)Отметим основные предпосылки регрессионного анализа:
1. В модели (2.2) возмущение
(или зависимая переменная ) есть величина случайная, а объясняющая переменная — величина неслучайная.2. Математическое ожидание возмущения
равно нулю:(или математическое ожидание зависимой переменной
равно линейной функции регрессии:M(
)= (2.3)3. Дисперсия возмущения
(или зависимой переменной ) постоянна для любого i: (2.4)(или D(
) = — условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).4. Возмущения (или переменные и) не коррелированы.
(i (2.5)5. Возмущение
, (или зависимая переменная ) есть нормально распределенная случайная величина.