Пример. В таблице 1 приведена выборка результатов отчетности однотипных 60 предприятий по прибыли (млн. руб.). Составить интервальный вариационный ряд. Построить гистограмму.
Таблица 1.
Результаты решения задачи приведены в таблице 2.
Таблица2.
Контрольные вопросы:
1. Дайте определения основным категориям математической статистике: генеральная совокупность, выборка, статистическая совокупность, признак, оценка.
2. Что называется вариационным рядом? Классификация вариационных рядов.
3. Выпишите основные соотношения для вычисления количественных статистических характеристик вариационного ряда: среднего арифметического значения, дисперсии, среднего квадратического значения, коэффициента вариации, коэффициента асимметрии, коэффициента эксцесса, моды, медианы
4. Сформулируйте определения полигона частот, гистограммы и кумуляты.
5.На основе данных о результатах анализа эффективности работы 50‑и предприятий города по изменению реальной заработной платы на этих предприятиях в отчетном году (в % к предыдущему году) сформировать
Таблица 3.
No | Эр[%] | No | Эр[%] | No | Эр[%] | No | Эр[%] | No | Эр[%] |
1 | 91 | 11 | 100 | 21 | 102 | 31 | 104 | 41 | 108 |
2 | 93 | 12 | 100 | 22 | 102 | 32 | 104 | 42 | 109 |
3 | 95 | 13 | 101 | 23 | 103 | 33 | 105 | 43 | 109 |
4 | 96 | 14 | 101 | 24 | 103 | 34 | 105 | 44 | 110 |
5 | 97 | 15 | 101 | 25 | 103 | 35 | 106 | 45 | 111 |
6 | 97 | 16 | 101 | 26 | 103 | 36 | 106 | 46 | 112 |
7 | 97 | 17 | 101 | 27 | 103 | 37 | 106 | 47 | 113 |
8 | 97 | 18 | 102 | 28 | 103 | 38 | 107 | 48 | 103 |
9 | 98 | 19 | 102 | 29 | 104 | 39 | 107 | 49 | 108 |
10 | 98 | 20 | 102 | 30 | 104 | 40 | 107 | 50 | 98 |
интервальный вариационный ряд значений темпов роста реальной заработной платы для равноотстоящих вариант, разбив рассматриваемый отрезок значений исследуемого параметра на 8 равноотстоящих частичных интервалов.
4. Построить таблицу значений относительных частот для равноотстоящих вариант, таблицу значений эмпирической плотности относительных частот и эмпирической функции распределения, разбив рассматриваемый отрезок значений исследуемого параметра на 8 равноотстоящих частичных интервалов.
5. Построить полигон и гистограмму относительных частот и график эмпирической функции распределения.
6. Назовите основные характеристики вариационного ряда и выпишите основные соотношения для их определения.
7. Вычислить выборочную среднюю арифметическую выборки, её дисперсию, выборочное среднее квадратическое отклонение, коэффициент асимметрии и выборочные коэффициенты асимметрии и эксцесса, отобразив выборочную среднюю и выборочное среднее квадратическое отклонение на полигоне и гистограмме относительных частот. Найти моду, медиану. Накопленные частоты интервалов, построить кумуляты.
Тема 2.2. Статистическое оценивание
1. Статистическое оценивание. Точечные и интервальные оценки. Требование к оценкам: несмещенность, состоятельность и эффективность.
2. Методы оценивания: метод моментов, метод максимального правдоподобия (Фишера), метод наименьших квадратов.
3. Статистики. Критерии. Критериальные случайные величины Пирсона, Стьюдента, Фишера-Снедекора.
4. Проверка статистических гипотез Н0 и HI. Уровень значимости. Ошибки 1-го и 2-го рода.
1. Статистическое оценивание
Задача оценивания параметров теоретического распределения состоит в построении приближенных формул для вычисления значений этих параметров, зависящих от выборочных значений х1, ….хn. Любую функцию j = j (х1, ….хn), зависящую от выборочных переменных и поэтому являющуюся случайной величиной, принято называть статистикой. Для того, чтобы оценки неизвестных параметров, т.е. статистики, давали хорошие приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять определенным требованиям:
1. Математическое ожидание оценки параметра по всевозможным выборкам данного объёма должно равняться истинному значению определяемого параметра (как предписывает теория вероятностей). Оценку, удовлетворяющую этому требованию, называют несмещенной.
2. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра. В этом случае оценку называют состоятельной.
3. Оценка параметра представляет собой случайную величину, зависящую от выборки, поэтому естественный интерес представляет разброс этой оценки, т.е. её дисперсия. Оценку называют эффективной, если при заданном объёме выборки эта оценка имеет наименьшую дисперсию.
Поскольку в качестве оценки мы ищем число – точку на координатной оси – то такие оценки называются точечными.
2. Методы оценивания: метод моментов, метод максимального правдоподобия (Фишера), метод наименьших квадратов
Известны три основных метода нахождения приближенных формул вычисления точечных оценок: метод максимального правдоподобия, метод моментов и метод наименьших квадратов.
Пусть исследуемый нами признак Х имеете непрерывное распределение, зависящее от m параметров Θ1….Θmиз некоторого множества Θ. В этом случае плотность вероятности генеральной совокупности будет зависеть от значения признака х и этих параметров, т.е. ƒ(х, Θ1….Θm). Пусть теперь из генеральной совокупности получена выборка объёмом n: х1, …..хn. Рассмотрим представленную выборку с позиции того, что каждое значение её хiесть реализация некоторой случайной величины Хi, полученное в i-ом наблюдении, причем в силу репрезентативности выборки Хi имеет то же распределение, что и вся генеральная совокупность. В результате выборку можно рассматривать как n –мерную случайную величину (Х1, …. Хn) или выборочный вектор Х = (Х1…. Хn), все компоненты которого представляют независимые случайные величины с одинаковыми функциями плотности вероятности, совпадающими с плотностью вероятности генеральной совокупности, т.е.
ƒ Хi (хi, Θ1….Θm) = ƒ(хi, Θ1….Θm)
Из теории вероятностей известно, что плотность вероятностей совместного распределения независимых случайных величин равна произведению плотностей вероятностей каждой из случайных величин, т.е.
ƒ(х1, х2, ….хn, Θ1….Θm) = ƒ(х1, Θ1….Θm) ƒ(х2, Θ1….Θm)….. ƒ(хn, Θ1….Θm)
Метод максимального правдоподобия оценки неизвестных параметров распределения
Θ1….Θmоснован на свойстве случайной величины реализовывать в эксперименте в основном те свои значения (Х1, …. Хn) , вероятность которых максимальная.
Таким образом, в качестве оценки
неизвестных параметров распределения Θ1….Θmпринимаются те значения, которые доставляют max функции ƒ(х1, х2, ….хn, Θ1….Θm), т.е. решения уравнения :ƒ(х1, х2, ….хn,
) = max ƒ(х1, х2, ….хn, Θ1….Θm),( Θ1….Θm )
Θесли решения этого уравнения существуют.
Во многих случаях вместо функции ƒ(х1, х2, ….хn, Θ1….Θm) рассматривают её натуральный логарифм, достигающий максимума в тех же точках, что и сама функция ƒ(х1, х2, ….хn, Θ1….Θm). В результате нахождение оценок
сводится к известной задаче математического анализа - отыскания максимума функции m переменных. Для отыскания точек экстремумов получаем уравнения максимального правдоподобия: или i = 1….mПример. Пусть время t до выхода из строя группы компьютеров на испытательном стенде описывается показательным распределением: