Этой публикацией будет завершена серия статей о выбросах. Рассмотрев определение и проблему выбросов, возможные источники и примеры, нам остается лишь вооружить читателя некоторыми рекомендациями при работе с данными, которые выделяются из общей совокупности значений. В этой статье мы разработаем план действий, которым, смею надеяться, будут пользоваться не только участники тренингов шести сигм, но и многие посетители сайта. Обратите внимание: настоящая публикация в своей основе лишь резюмирует изложенную ранее информацию, помогая исследователю прийти к выводу, однако не может быть использована как самостоятельная. Поэтому редакция сайта настоятельно рекомендует начать изучение этой статьи, предварительно ознакомившись с публикациями, ссылки на которые приведены выше. Следует также отметить, что проблема выбросов была рассмотрена в контексте задач, которые выполняют участники тренинга шести сигм для зеленых поясов. Информация, изложенная в этой и предыдущих публикациях, относится исключительно к работе с данными на этапе измерений цикла DMAIC. Таким образом, мы затронули возможные варианты работы с выбросами в ходе сбора и первичного анализа наблюдений и не затронули идентификацию и статистические критерии оценки выбросов, используемые в регрессионном анализе. Итак, резюмируя изложенную ранее информацию, можно составить первоочередный план действий по работе с выбросами:
выполнив который можно принимать решение относительно последующих действий. Обнаружение возможных выбросов осуществляется визуально, с помощью различных графиков. В статье Выбросы. Часть 1: кто это такие и почему они опасны? были рассмотрены некоторые примеры, способные помочь в определении выбросов. На стадии Measure тренинга зеленых поясов в первую очередь используется диаграмма временного ряда (Time Series Plot) и Run Chart. В отличие от гистограмм, ящичных и точечных диаграмм, эти графики не выделяют наблюдения, которые могут являться выбросами. С другой стороны, глядя на поведение процесса во времени, можно определить тренды и сезонные составляющие. С большой долей вероятности эти участки могут послужить источниками выбросов. Другими словами, вместо направленного поиска необычно низких или высоких значений, ищем случаи необычного поведения процесса. Следовательно, анализируем возможные участки появления выбросов. Следует также вспомнить, что гистограммы и точечные диаграммы подвержены влиянию ширины интервала (bining), которая в некоторых условиях приводит к ошибочной идентификации выбросов или, наоборот, – к их скрытию. Следующий шаг – расчет описательных статистик, который проводится с помощью функции Graphical Summary (Stat > Basic Statistics > Graphical Summary) в пакете Minitab. Эта функция позволяет рассчитать описательные статистики и одновременно представить их в виде графического отчета: На этом этапе работы выбросы можно не только визуально идентифицировать, но и оценить их влияние на основные статистические показатели. В случае наблюдения расчетных показателей, таких как стоимость или % брака, продуктивность, выход годных или уровень отказов, нет необходимости использовать все описательные статистики – достаточно знать среднее арифметическое или медиану, как ключевой показатель текущего состояния процесса. Кроме того, не столь важно согласие распределения переменной с нормальным законом, так как последующая оценка способности процесса будет проведена с помощью эмпирических формул расчета DPU, DPO, DPMO, DPPM и σ-уровня, а не индексов способности.
Таким образом, для показателей, которые не измеряются непосредственно, но являются расчетной характеристикой процесса, наличие выбросов не критично и может не влиять на полученный результат. Следовательно, последующий анализ может проходить параллельно с поиском причин выбросов. С другой стороны, необычно высокий уровень брака и низкий уровень выхода, связанный, к примеру, с запуском новой технологии или продуктовой линейки может искусственно ухудшать актуальное состояние процесса. Такие наблюдения следует исключить перед проведением последующего анализа. Во всех остальных случаях обнаружение выбросов служит стоп-сигналом для исследователя: последующий анализ не проводится до того момента, пока причина возникновения выбросов не будет установлена. Исключение могут составлять опечатки или ошибки ввода, допущенные оператором, которые можно либо восстановить, либо исключить без потери информации, или присутствие незначительного количества выбросов, наличие или исключение которых никоим образом не отразится на расчетных статистиках. В последнем случае, однако, рекомендуется взять повторную выборку, так как наличие небольшого числа неподтвержденных выбросов может означать, что размер выборки не достаточен для того, чтобы представлять свойства всей популяции значений. В одном из проектов зеленых поясов мы столкнулись с довольно интересным случаем: обнаруженных выбросов было так много, что они могли представлять отдельную популяцию значений. Причина столь необычного поведения процесса в том, что отслеживаемая характеристика заметно менялась в случае возникновения брака. Исключать такие выбросы было бы ошибочно – тем самым способность процесса была бы искусственно завышена. Однако последующая оценка индексов способности процесса привела к ряду уроков, которыми стоит поделиться:
Как вы могли заметить из приведенных примеров, определение причин появления выбросов зачастую приводит исследователя к принятию определенного решения. Таким образом, 4й пункт алгоритма работы с выбросами (после того, как найдена причина появления необычно высокого или низкого значения среди наблюдений) меняется в зависимости от этой причины:
| |
![]() |
Всего комментариев: 0 | |
|
|
Я добавил в таблицу графики, которые показывают α и α/2. Кстати, пока добавлял, заметил, что в исходном файле формула расчета коэффициентов подтягивала величину риска из строки α/2. Возможно, из-за этого возникла путаница? Буду рад, если повторите расчеты и отпишите.
Задача которую я решаю: Мы проводим многократные измерения случайной величины, которая подчиняется закону распределения Стьюдента (это проверяется критерием Пирсона). И с доверительной вероятностью, как правило 95% и уровнем значимости 5%, ищем области в которых с заданной доверительной вероятностью находится истинное значение измеряемой величины. Именно к этой задаче относятся вышеприведённый схемы.