Чтобы результаты, полученные при изучении выборки, можно было достаточно уверенно распространить на всю генеральную совокупность, выборка должна быть репрезентативной (представительной). При статистическом контроле это достигается путем правильного выбора метода отбора исследуемых объектов. В зависимости от поставленных целей применяют следующие способы сбора данных:
• Простой случайный отбор, когда выбор объектов осуществляется из всей генеральной совокупности случайным образом. Этот способ применяется, например, при выборочном контроле партии деталей на соответствие некоторому стандарту.
• Типический отбор, когда объекты отбираются не из всей генеральной совокупности, а из каждой ее "типической" части. Например, если однотипные детали изготавливаются на нескольких станках, то отбор производится из продукции каждого станка в отдельности.
• Механический отбор, когда генеральную совокупность делят на столько групп, сколько объектов должно войти в выборку, и из каждой группы выбирают один объект. При этом следует внимательно следить, чтобы не нарушалась репрезентативность выборки. Например, если отбирают каждый двадцатый обтачиваемый валик, причем сразу же после замера производят замену резца, то отобраны окажутся все валики, обточенные затупленными резцами. Если исследуемый параметр зависит от остроты резца, то следует устранить совпадение ритма отбора с ритмом замены резца, например, отбирать каждый десятый валик из двадцати обточенных.
• Серийный отбор, когда объекты отбирают из генеральной совокупности не по одному, а "сериями", и обследуются все элементы каждой серии. Этот вид отбора применяют тогда, когда обследуемый признак колеблется в разных сериях незначительно, например, если изделия изготавливаются большой группой станков-автоматов, то сплошному обследованию подвергают продукцию только нескольких станков. Для получения более достоверных результатов при этом можно менять наборы "серий", то есть в разные дни обследовать разные группы станков.
При применении статистических методов управления качеством для построения контрольных карт обычно используют мгновенные выборки.
Мгновенная выборка - это выборка, взятая из технических соображений таким образом, что внутри нее вариации (то есть изменения) могут появляться только как следствие случайных (общих) причин. Возможные вариации между такими выборками, как правило, определяются неслучайными (специальными) причинами. В производстве мгновенная выборка должна быть сформирована из данных, собранных в короткий отрезок времени в однородных условиях (материал, инструмент, окружающая среда, один и тот же станок или оператор и т.п.).
При сборе данных применяют различные формы регистрации информации. Наиболее часто используют вариационные ряды, таблицы, а также контрольные листки.
Вариационный ряд - запись результатов измерений какой-либо случайной величины в виде последовательности чисел. Таким образом, получается одномерный массив чисел, обработка которого обычно начинается с его упорядочения и предполагает использование вычислительной техники. Эта форма регистрации информации наименее удобна для получения оперативных результатов и чаще всего применяется при использовании автоматических датчиков, напрямую соединенных с ЭВМ.
Таблица - представление данных в виде двумерного массива чисел, в котором элементы строки или столбца отражают состояние исследуемого признака при определенных условиях. Например, пусть некоторый параметр измеряется четыре раза в день на протяжении рабочей недели. Тогда результаты удобно занести в таблицу
День недели 9.00 11.00 14.00 16.00
понедельник
вторник
среда
четверг
пятница
Такая таблица позволяет учесть и рассчитать изменение исследуемого параметра как в течение дня - по строкам, так и в различные дни - по столбцам.
Контрольный листок - стандартный бланк, на котором заранее напечатаны контрольные параметры, чтобы можно было легко и точно записать Данные измерений. При правильно разработанном типе контрольного листа данные не только очень просто фиксируются, но и автоматически упорядочиваются для последующей обработки и необходимых выводов. Для обработки результатов статистических наблюдений их удобно оформлять в виде таблицы частот.
Статистическое распределение - таблица частот, в которой указаны значения случайной величины n, и соответствующие частоты, показывающие, сколько раз в выборке встретилось данное значение случайной величины.
Для получения интервальной таблицы частот (интервального вариационного ряда) весь диапазон измеренных значений случайной величины Х делят на k равных интервалов (а,, tt,,,) и подсчитывают количество {и} значений случайной величины, попавших на соответствующий интервал. Кроме того, в таблице указывают также величину х, - середину i'-oro интервала.
Интервальная таблица частот
Номер интервала / Интервал (а,,а,,) Середина интервала
X, Частота п,
1 (а,, а,) X1 N1
2 (а,, а,) X2 N2
k (ak.ai) Xi Nk
Здесь n1, + n2 ... + ni= n - объему выборки.
Первичная обработка результатов статистических наблюдений заключается в графическом представлении собранной информации. Обычно для этого строят гистограммы.
Для построения гистограммы на оси абсцисс отмечают границы интервалов - точки а,, ..., ai-1 . Над каждым интервалом строится прямоугольник площадью п, (очевидно, если длина каждого интервала h, то высота этого прямоугольника n/h ). Получившаяся ступенчатая фигура называется гистограммой частот. При этом площадь гистограммы частот равна объему выборки п. Отрезок [а, аn,] назовем основанием гистограммы.
Аналогично строится и гистограмма относительных частот - ступенчатая фигура, состоящая из прямоугольников, площади которых равны n/h, то есть общая площадь гистограммы относительных частот равна 1.
6.2 Числовые характеристики случайных величин
Поведение любой случайной величины определяется ее распределением, средним значением и разбросом относительно этого среднего значения.
Средними значениями случайной величины являются ее
• математическое ожидание - среднее арифметическое всех значений случайной величины;
• мода - значение случайной величины, которое встречается чаще всего, то есть имеет наибольшую частоту;
• медиана - такое значение случайной величины, которое оказывается точно в середине упорядоченного вариационного ряда, то есть, если все
зафиксированные значения случайной величины расположить в порядке возрастания, то слева и справа от медианы окажется одинаковое число точек. При этом, если число наблюдений нечетно (n=2k+l), то в качестве медианы берут среднюю точку хk-1,, а если число наблюдений четно (n=2k), то медиана - это центр среднего интервала (хi.хk-1,), то есть ;X=(xi+Xk+1)/2.
Разброс случайной величины относительно средних значений характеризуется дисперсией или средним квадратическим отклонением (с.к.о.) - мерой рассеяния распределения относительно математического ожидания. При этом с.к.о. - это корень квадратный из дисперсии. Наибольший разброс случайной величины определяется размахом выборки, то есть величиной интервала, в который попадают все возможные значения случайной величины.
В математической статистике говорят о статистических оценках параметров распределения. Статистические оценки бывают точечные (определяемые одним числом) и интервальные (определяемые двумя числами -концами интервала). Точечные оценки дают представление о величине соответствующего параметра, а интервальные характеризуют точность и достоверность оценки.
Предположим, что в результате наблюдений получены n значений случайной величины Х : x1; , ... , xn . Для вычисления точечных оценок параметров распределения пользуются формулами:
среднее квадратичное отклонение s = v/5 ; (6.2.8)
Пример 6.2. Пусть в результате наблюдений получены следующие значения случайной величины X: (5; 6; 3; 6; 4; 5; 3; 7; 6;7;5;6).
Упорядоченный вариационный ряд: 3, 3,4, 5, 5, 5, 6, 6, 6, 6, 7, 7.
Таблица частот статистическое распределение:
X 3 4 5 6 7
2 1 3 4 2
Вычислим все числовые характеристики случайной величины хmin = 3; xmax = 7; медиана 5- x=(X6+X7)/2 = (5 + 6)/2 = 5,5;
мода Х = 6 , так как это значение встречалось чаще всего (n = 4);
выборочное среднее х = (2 3+1 4+3 5+4 6+2 7)/12 = 5,25 ;
размах R = 7 - 3 = 4 ;
выборочная дисперсия .S= D =(1/11) (2(3 - 5,25)2+ 1(4-5,25)2+ + 3 (5 - 5.25)2 + 4 (6 - 5,25)2 +2 (7 - 5,25)2) = 15/11 = 1,84 ;
среднее квадратичное отклонением s = 1,36 .
Замечание. Современная вычислительная техника, используя специальные пакеты прикладных программ, позволяет получить значения выборочной средней и дисперсии сразу же после введения данных выборки (наблюдаемых значений исследуемой случайной величины)
6.3 Типовые теоретические распределения случайных величин
Характер поведения случайной величины определяется ее распределением. Зная тип распределения случайной величины и его числовые характеристики, можно прогнозировать, какие значения будет принимать случайная величина в результате наблюдений, то есть можно делать определенные выводы обо всей генеральной совокупности.
Наиболее часто встречается нормальное (гауссовское) распределение. Это связано с тем, что разброс характеристик качества обусловлен суммой большого числа независимых ошибок, вызванных различными факторами, а согласно центральной предельной теореме Ляпунова в этом случае случайная величина имеет распределение, близкое к нормальному.
Нормальное распределение описывает непрерывную случайную величину, поэтому его задают плотностью вероятности/С.^. Плотность вероятности нормального распределения имеет вид:
Параметр и определяет точку максимума, через которую проходит ось симметрии графика функции, и указывает среднее арифметическое значение случайной величины, s показывает разброс распределения относительно среднего значения, то есть определяет "ширину" колокола (расстояние от оси симметрии до точки перегиба графика