Таблица 3. Вспомогательные расчеты для решения задачи
Xi | fi | ХИ | XИfi | (ХИ - )2 | (ХИ - )2fi |
до 300 | 8 | 200 | 1600 | 137641 | 1101128 |
300 - 500 | 28 | 400 | 11200 | 29241 | 818748 |
500 - 700 | 44 | 600 | 26400 | 841 | 37004 |
700 - 1000 | 17 | 850 | 14450 | 77841 | 1323297 |
более 1000 | 3 | 1150 | 3450 | 335241 | 1005723 |
Итого | 100 | 57100 | 4285900 |
По формуле (18) получим средний доход в выборке:
= 57100/100 = 571 (у.е.). Применив формулу (33) и рассчитав ее числитель в последнем столбце таблицы, получим дисперсию среднего выборочного дохода: Дв = 4285900/100 = 42859.Затем необходимо определить предельную ошибку выборки по формуле (39)[1]:
= t , (39)
где t – коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки; – средняя ошибка выборки, определяемая для повторной выборки по формуле (40), а для бесповторной – по формуле (41):
= , (40) = , (41)где n – численность выборки; N – численность генеральной совокупности.
В нашей задаче выборка бесповторная, значит, применяя формулу (41), получим среднюю ошибку выборки при определении среднего возраста в генеральной совокупности:
= = 19,640 (у.е.).Для определения средней ошибки выборки при определении доли рабочих с доходами более 700 у.е. в генеральной совокупности необходимо определить дисперсию этой доли. Дисперсия доли альтернативного признака w (признак, который может принимать только два взаимоисключающих значения – например, больше или меньше определенного значения) определяется по формуле (42):
. (42)В нашей задаче долю альтернативного признака (рабочие с доходами более 700 у.е.) найдем как отношение числа таких рабочих к общему числу рабочих в выборке: w = 20/100 = 0,2 или 20%. Теперь определим дисперсию этой доли по формуле (42):
=0,2*(1-0,2) = 0,16. Теперь можно рассчитать среднюю ошибку выборки по формуле (41): = = 0,038 или 3,8%.Значения вероятности
и коэффициента доверия t имеются в математических таблицах нормального закона распределения вероятностей (если в выборке более 30 единиц), из которых в статистике широко применяются сочетания, приведенные в таблице 4:Таблица 4. Значения интеграла вероятностей Лапласа
0,683 | 0,866 | 0,950 | 0,954 | 0,988 | 0,997 | |
t | 1 | 1,5 | 1,96 | 2 | 2,5 | 3 |
В нашей задаче
= 0,950, значит t = 1,96 (то есть предельная ошибка выборки в 1,96 раза больше средней). Предельная ошибка выборки по формуле (39) будет равна: = 1,96*19,64 = 38,494 (у.е.) при определении среднего дохода; = 1,96*0,038 = 0,075 или 7,5% при определении доли рабочих с доходами более 700 у.е.После расчета предельной ошибки находят доверительный интервал обобщающей характеристики генеральной совокупности по формуле (43) – для средней величины и по формуле (44) – для доли альтернативного признака:
(
- ) ( + ) (43) (w- ) p (w + ) (44)В нашей задаче по формуле (43): 571-38,494
571+38,494 или 532,506 у.е. 609,494 у.е., то есть средний доход всех рабочих предприятия с вероятностью 95% будет лежать в пределах от 532,5 до 609,5 у.е.Аналогично определяем доверительный интервал для доли по формуле (44): 0,2-0,075
p 0,2+0,075 или 0,125 p 0,275, то есть доля рабочих с доходами более 700 у.е. на всем предприятии с вероятностью 95% будет лежать в пределах от 12,5% до 27,5%.При разработке программы выборочного наблюдения очень часто задается конкретное значение предельной ошибки (
) и уровень вероятности ( ). Неизвестной остается минимальная численность выборки (n), обеспечивающая заданную точность. Ее можно получить, если подставить формулу (40) или (41) в формулу (39) и выразить из них n. В результате получатся формулы для вычисления необходимой численности повторной (45) и бесповторной (46) выборок.nповт = ; (45) nб/повт =
. (46)В нашей задаче выборка бесповторная, значит, воспользуемся формулой (46), в которую подставим уже рассчитанные дисперсии среднего выборочного дохода рабочих (Дв = 42859) и доли рабочих с доходами более 700 у.е. (Дв = 0,16):