Оценка размера и частоты выборки

Для сбора данных и построения статистических карт контроля процесса, независимо от их типа и предназначения, следует правильно определить размер выборки и частоту отбора проб. И первое, и второе требует статистического обоснования и подтверждения, что связано с проведением большого количества измерений, громоздких исследований, проверкой гипотез и т.д. Логично было бы предположить, что чем больше выборка и чем чаще производится отбор проб, тем легче определить отклонение процесса от "намеченного курса”. Однако, современные тенденции ведут к обратному, что вызвано стоимостью отбора и анализа проб.

В то же время, существует немало процессов, статистический контроль которых не требуют ни внутренние правила организации, ни заказчик. Или процессы, мониторинг которых требуется только на начальных стадиях: например, до завершения проекта или в ходе внедрения изменений. Проведение громоздких исследований для внедрения SPC на "пару-тройку недель” является как неэффективным, так и экономически необоснованным решением. Эмпирический же подход или применение размера и частоты отбора проб, аналогичных контролю существующего процесса может значительно упростить задачу и привести к получению не менее результативных данных.

В данной публикации, будут рассмотрены способы оценки величины, необходимой выборки и частоты отбора путем расчета показателей ARL (Average Run Length) – средний интервал между отбором проб и Sample Size – размер выборки.

Начнем с оценки необходимого для выборки количества образцов. Расчет будет производиться с помощью программы Minitab 16:

  • В меню Stat выберите пункт Power and Sample Size
  • Открывшийся список предоставляет перечень доступных опций для расчета объема выборки
  • Выберем, к примеру, 1-Sample Z…

В появившемся окне следует указать начальные данные для расчета:

  • Difference – искомую разницу
  • Power Values – вероятность определения
  • Standard Deviation – стандартное отклонение

Обратите внимание, что данный инструмент может использоваться и в других целях: для оценки разницы и вероятности, с которой данный объем выборки может ее определить.

В примере ниже мы хотим определить разницу в 0,5 с вероятностью 95%.

Нажав OK, получаем график и результаты в окне Session. Как видим, для определения разницы в 0,5 с вероятностью 95% следует отобрать 22 образца. Значительный объем выборки в данном случае обоснован величиной стандартного отклонения, превышающей искомую разницу. Если увеличить искомую разницу до 1, то размер выборки уменьшается до 6.

В меню Options… можно установить проверяемую гипотезу и уровень вероятности, принимаемый значимым.

В меню Graph… можно выбрать опцию построения кривой вероятности и задать построение дополнительных кривых при заданных объемах выборки.

Установив, к примеру, в поле Sample sizes 5 и 50, получим следующий набор диаграмм:

Интервал между отбором проб (Average Run Length) обратно пропорционально зависим от вероятности того, что процесс выйдет за контрольные границы и определяется по следующей формуле:

где p – вероятность того, что процесс выйдет за контрольные границы

К примеру, установлены пределы контроля ±3σ. Вероятность выхода процесса за контрольные лимиты равна 0,0027. Таким образом:

Что соответствует возможности выхода процесса за контрольные пределы в среднем через каждые 370 произведенных образцов.

Показатель ARL очень часто трансформируют во временной интервал, за который процесс способен произвести 370 образцов. В таком виде его легче применить на практике.

Возвращаясь к расчету размера выборки, внесем поправку: установим искомую разницу равной 1,95, что соответствует трем стандартным отклонениям 0,65. В таком случае, размер требуемой выборки снизится до 2 образцов.

26.04.2010 / 3589 / Загрузок: 0 / DMAgIC / Комментарии: 4
Всего комментариев: 4
avatar
1
1
Константин, а разве вероятность выхода процесса за контрольные лимиты  ±3σ равна 0,0027, а не 0,27?.
avatar
0
2
Вероятность выхода процесса за пределы +/-3σ равна 0,0027 (если в долях от единицы. А если в процентах, то 0,27%.

Советую вернуться к уроку "4.7. Описательная статистика" тренинга для желтых поясов. Понимание +/-3σ вам точно пригодиться на экзамене ;-)
avatar
0
3
Просьба пояснить по поводу Difference.
1. Правильно ли я понимаю, что это фактически нулевая гипотеза и мы в данном случае определяем какого количества должна быть выборка чтобы уловить отличия от значения нулевой гипотезы - 0.5? Просто термин "разница" с толку сбивает....
2. 0,5 в данном случае это разница только в верхнюю сторону? если я захочу найти значения +/- 0,5 я должен буду прописать эти 2 значения?

Спасибо.
avatar
1
4
1. Все верно: искомая разница - это нулевая гипотеза.
2. Вы можете задать сразу несколько нулевых гипотез, однако нет смысла заавать отрицательную разницу. Вместо этого вы можете выбать альтернативную гипотезу (Less then или Greater then)
avatar
SixSigmaOnline.ru © 2009-2017            Хостинг от uWeb