Смекни!
smekni.com

Статистический анализ числовых величин (непараметрическая статистика) (стр. 4 из 12)

U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p = 95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [8]);

S – выборочное среднее квадратическое отклонение (квадратный корень из описанной выше выборочной дисперсии).

M + U(p) S / n1/2 .

С(р) = [n/2 – U(p)n1/2 /2] ,

где [.] – знак целой части числа. Нижняя доверительная граница для медианы имеет вид

Х (С(р)),

где Х(i) – член вариационного ряда с номером i, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид

Х (n + 1 - С(р)).

d2 = (m 4 - ((n – 1) /n ) 4 S 4 ) / n ,

где m 4 - выборочный четвертый центральный момент, т.е.

m 4 = { (X1 – M) 4 + (X2 – M) 4 +… + (X n – M) 4 } / n .

Íèæíÿÿ äîâåðèòåëüíàÿ ãðàíèöà äëÿ äèñïåðñèè ñëó÷àéíîé âåëè÷èíû èìååò âèä

S2 - U(p)d ,

где S2 – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

d – положительный квадратный корень из величины d2, введенной выше.

S2 + U(p)d ,

где все составляющие имеют тот же смысл, что и выше.

При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в [10, с.419]. Соответственно доверительный интервал является непараметрическим и асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. Отметим, что в случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d2 как (2 S 4 ) / n . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае.

Точечное и интервальное оценивание среднего квадратического отклонения. Дисперсия рассматриваемой случайной величины - выборочного среднего квадратического отклонения S – оценивается как дробь

d2 / (4 S2 ) .

S - U(p)d / (2S) ,

где S2 – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

d – положительный квадратный корень из величины d2, введенной выше.

S + U(p)d / (2S) ,

где все составляющие имеют тот же смысл, что и выше.

Правила расчетов настоящего подпункта получены из правил предыдущего подпункта с помощью метода линеаризации (см., например, [11, п.2.4]). В рассматриваемом случае доверительный интервал также является непараметрическим и асимптотическим, а классический подход связан с использованием распределения хи-квадрат.

Точечное и интервальное оценивание коэффициента вариации. Коэффициент вариации широко используется при анализе конкретных экономических данных (поскольку они, как правило, положительны), но не очень популярен среди теоретиков. Дисперсия выборочного коэффициента вариации

Vn = S / M

D2 = (Vn4 - Vn2 / 4 + m 4 / (4 S 2 M 2) - m 3 /M 3 ) / n ,

где М – выборочное среднее арифметическое,

S 2 – выборочная дисперсия,

m 3 - выборочный третий центральный момент, т.е.

m 3 = { (X1 – M) 3 + (X2 – M) 3 +… + (X n – M) 3 } / n ,

m 4 - выборочный четвертый центральный момент (см. выше),

Vn – выборочный коэффициент вариации,

n - объем выборки.

Vn - U(p) D,

где Vn – выборочный коэффициент вариации,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и ранее),

D – положительный квадратный корень из величины D2, введенной выше.

Vn + U(p) D,

где все составляющие имеют тот же смысл, что и выше.

Как и в предыдущих случаях, доверительный интервал является непараметрическим и асимптотическим. Он получен в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики. Эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых – степени исходных случайных величин. Второй шаг – преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг – строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно оказывается необходимым использовать необходимые и достаточные условия наследования сходимости, полученные в монографии [11, п.2.4]. Именно таким образом были получены приведенные выше результаты для выборочного коэффициента вариации. Формулы оказались существенно более сложными, чем в предыдущих случаях. Это объясняется тем, что выборочный коэффициент вариации - функция двух выборочных моментов, а ранее рассматривались либо выборочные моменты поодиночке, либо функция от одного выборочного момента - выборочной дисперсии.


О проверке однородности двух независимых выборок

Противоположным понятием является «различие». Можно переформулировать задачу: требуется проверить, есть ли различие между выборками. Если различия нет, то для дальнейшего изучения часто выборки объединяют.

Например, в маркетинге важно выделить сегменты потребительского рынка. Если установлена однородность двух выборок, то возможно объединение сегментов, из которых они взяты, в один. В дальнейшем это позволит осуществлять по отношению к ним одинаковую маркетинговую политику (проводить одни и те же рекламные мероприятия и т.п.). Если же установлено различие, то поведение потребителей в двух сегментах различно, объединять эти сегменты нельзя, и могут понадобиться различные маркетинговые стратегии, своя для каждого из этих сегментов.

Традиционный метод проверки однородности (критерий Стьюдента). Для дальнейшего критического разбора опишем традиционный статистический метод проверки однородности. Вычисляют средние арифметические в каждой выборке

,

затем выборочные дисперсии

,

и статистику Стьюдента t, на основе которой принимают решение,

. (1)

По заданному уровню значимости a и числу степеней свободы (m+n _ 2) из таблиц распределения Стьюдента находят критическое значение tкр. Если |t|>tкр, то гипотезу однородности (отсутствия различия) отклоняют, если же |t|<tкр, то принимают. (При односторонних альтернативных гипотезах вместо условия |t|>tкр проверяют, что t>tкр; эту постановку рассматривать не будем, так как в ней нет принципиальных отличий от обсуждаемой здесь.)

Рассмотрим условия применимости традиционного метода проверки однородности, основанного на использовании статистики t Стьюдента, а также укажем более современные методы.

Вероятностная модель порождения данных. Для обоснованного применения эконометрических методов необходимо прежде всего построить и обосновать вероятностную модель порождения данных. При проверке однородности двух выборок общепринята модель, в которой x1, x2,...,xm рассматриваются как результаты m независимых наблюдений некоторой случайной величины Х с функцией распределения F(x), неизвестной статистику, а y1, y2,...,yn - как результаты п независимых наблюдений, вообще говоря, другой случайной величины Y с функцией распределения G(x), также неизвестной статистику. Предполагается также, что наблюдения в одной выборке не зависят от наблюдений в другой, поэтому выборки и называют независимыми.

Возможность применения модели в конкретной реальной ситуации требует обоснования. Независимость и одинаковая распределенность результатов наблюдений, входящих в выборку, могут быть установлены или исходя из методики проведения конкретных наблюдений, или путем проверки статистических гипотез независимости и одинаковой распределенности с помощью соответствующих критериев [8].

Если проведено (т+п) измерений объемов продаж в (т+п) торговых точках, то описанную выше модель, как правило, можно применять. Если же, например, xi и yi - объемы продаж одного и того же товара до и после определенного рекламного воздействия, то рассматриваемую модель применять нельзя. (В этом случае используют модель т.н. связанных выборок, в которой обычно строят новую выборку zi = xi - yi и используют статистические методы анализа одной выборки, а не двух. Проверка однородности для связанных выборок рассматривается ниже.)

При дальнейшем изложении принимаем описанную выше вероятностную модель двух выборок.

Уточнения понятия однородности. Понятие «однородность», т. е. «отсутствие различия», может быть формализовано в терминах вероятностной модели различными способами.

Наивысшая степень однородности достигается, если обе выборки взяты из одной и той же генеральной совокупности, т. е. справедлива нулевая гипотеза

H0 : F(x)=G(x) при всех х.

Отсутствие однородности означает, что верна альтернативная гипотеза, согласно которой

H1 : F(x0)¹G(x0)

хотя бы при одном значении аргумента x0. Если гипотеза H0 принята, то выборки можно объединить в одну, если нет - то нельзя.