Проведем n бросаний, что эквивалентно случайной выборке объема n из гипотетической, бесконечной, генеральной совокупности, содержащей равные доли (0.25) четырех разных элементов. Получим n выборочных значений случайной величины Х (
). Выберем статистику, которая представляет собой выборочное среднее. Величина сама является случайной величиной, имеющей некоторое распределение, зависящее от объема выборки и распределения исходной, случайной величины Х. Величина является усредненной суммой n одинаковых, случайных величин (то есть с одинаковым распределением). Ясно, что .Поэтому статистика
является несмещенной оценкой математического ожидания. Она является также состоятельной оценкой, поскольку .Таким образом, теоретическое выборочное распределение имеет тоже математическое ожидание, что и у исходного распределения, дисперсия уменьшена в n раз.
Напомним, что
равна .Математическая, абстрактная бесконечная выборка, связанная с выборкой объема n из генеральной совокупности и с введенной статистикой будет содержать в нашем случае
элементов. Например, если , то в математической выборке будут элементы со значениями статистики . Всего элементов будет 13. Доля крайних элементов в математической выборке будет минимальной, так как результаты и имеют вероятности, равные . Среди множества элементарных исходов четырех кратного бросания пирамиды имеются только по одному благоприятному и . При приближении статистик к средним значениям, вероятности будут возрастать. Например, значение будет реализоваться при элементарных исходах , , и т. д. Соответственно возрастет и доля элемента 1.5 в математической выборке.Среднее значение будет иметь максимальную вероятность. С ростом n экспериментальные результаты будут теснее группироваться около среднего значения. То обстоятельство, что среднее выборочного среднего
равно среднему исходной совокупности часто используется в статистике.Если выполнить расчеты вероятностей в выборочном распределении с
, то можно убедиться, что уже при таком небольшом значении n выборочное распределение будет выглядеть как нормальное. Оно будет симметричным, в котором значение будет медианой, модой и математическим ожиданием. С ростом n оно хорошо апроксимируется соответствующим нормальным даже, если исходное распределение прямоугольное. Если же исходное распределение нормально, то распределение является распределением Стьюдента при любом n.Для оценки генеральной дисперсии
необходимо выбрать более сложную статистику, которая дает несмещенную и состоятельную оценку . В выборочном распределении для S2 математическое ожидание равно , а дисперсия . При больших объемах выборок выборочное распределение можно считать нормальным. При малых n и нормальном исходном распределении выборочное распределение для S2 будет χ2‑распределение.Выше мы попытались представить первые шаги исследователя, пытающегося провести простой статистический анализ повторных экспериментов с правильной однородной треугольной призмой (тетраэдром). В этом случае нам известно исходное распределение. Можно в принципе теоретически получить и выборочные распределения относительной частоты, выборочного среднего и выборочной дисперсии в зависимости от числа повторных опытов n. При больших n все эти выборочные распределения будут приближаться к соответствующим нормальным распределениям, так как они представляют собой законы распределения сумм независимых случайных величин (центральная предельная теорема). Таким образом, нам известны ожидаемые результаты.
Повторные эксперименты или выборки дадут оценки параметров выборочных распределений. Мы утверждали, что экспериментальные оценки будут правильными. Мы не выполняли эти эксперименты и даже не приводили результаты опытов, полученные другими исследователями. Можно подчеркнуть, что при определении законов распределений теоретические методы используются чаще, чем прямые эксперименты.
Статистическое исследование может быть полным и выборочным. При полном исследовании измерение интересующего вас признака производится у каждого элемента совокупности. При этом определяется точное распределение признака. Например, декан получил точное распределение оценок на экзамене по математике у всех 230 студентов. Он может определить точные доли отличников и не успевающих, процент успеваемости, процент качества обучения и т.п. Но это не "настоящая" статистика.
Статистика решает задачу как, обследовав элементы выборки из генеральной совокупности, получить необходимую информацию о генеральной совокупности. Первое, что должен решить статистик — это как провести выборку, чтобы она наилучшим образом соответствовала генеральной совокупности, то есть, чтобы выборка была репрезентативной. Выборка будет репрезентативной, если отбор элементов в выборку производится случайно. Это означает, что все элементы генеральной совокупности имеют одинаковую вероятность попасть в выборку. Один из способов получения случайной выборки состоит в том, что каждому элементу генеральной совокупности присваивается номер; билеты с номерами помещаются в шляпу или шарики с номерами в барабан; случайно извлекается билет или шарик, а затем выбирается соответствующий элемент. В настоящее время случайные числа выдают ЭВМ.
Обеспечить случайность выборки не так просто как кажется. Ни в коем случае не следует полагаться на свою интуицию, следует подчеркнуть: если выборка окажется не репрезентативной (ее называют смещенной), то с ростом ее объема может уменьшаться точность или могут появляться ошибочные выводы. Закон больших чисел сработает наоборот. По видимому, по этой причине Дизраэли пошутил: "На свете есть ложь наглая, ложь и статистика".
Раздел статистики, в котором изучаются виды выборок, разрабатываются методики, обеспечивающие репрезентативность выборок, изучается влияние объема выборки на получаемые результаты и др., называется теорией выборки. Очевидна ее важная роль в планировании статистического исследования.
Допустим, произведено n измерений случайной дискретной величины Х и получено k различных значений
. При этом Х1 наблюдалось m1 раз, Х2 — m2 раз, …, Хk— mk раз. Можно сказать, что из бесконечной гипотетической совокупности результатов измерений сделана выборка объемом . Числа являются частотами измеренных значений , которые называют вариантами. Величины , ,…, называют относительными частотами вариант Хi. Ясно, что . Будем считать, что варианты мы расположили в возрастающем порядке.