Выбросы. Часть 4: что же с ними делать?

Этой публикацией будет завершена серия статей о выбросах. Рассмотрев определение и проблему выбросов, возможные источники и примеры, нам остается лишь вооружить читателя некоторыми рекомендациями при работе с данными, которые выделяются из общей совокупности значений. В этой статье мы разработаем план действий, которым, смею надеяться, будут пользоваться не только участники тренингов шести сигм, но и многие посетители сайта. Обратите внимание: настоящая публикация в своей основе лишь резюмирует изложенную ранее информацию, помогая исследователю прийти к выводу, однако не может быть использована как самостоятельная. Поэтому редакция сайта настоятельно рекомендует начать изучение этой статьи, предварительно ознакомившись с публикациями, ссылки на которые приведены выше.

Следует также отметить, что проблема выбросов была рассмотрена в контексте задач, которые выполняют участники тренинга шести сигм для зеленых поясов. Информация, изложенная в этой и предыдущих публикациях, относится исключительно к работе с данными на этапе измерений цикла DMAIC. Таким образом, мы затронули возможные варианты работы с выбросами в ходе сбора и первичного анализа наблюдений и не затронули идентификацию и статистические критерии оценки выбросов, используемые в регрессионном анализе.

Итак, резюмируя изложенную ранее информацию, можно составить первоочередный план действий по работе с выбросами:

  1. обнаружить возможные выбросы;
  2. идентифицировать выбросы и значения, которые принадлежат популяции – не выбросы;
  3. определить причины появления выбросов;

выполнив который можно принимать решение относительно последующих действий.

Обнаружение возможных выбросов осуществляется визуально, с помощью различных графиков. В статье Выбросы. Часть 1: кто это такие и почему они опасны? были рассмотрены некоторые примеры, способные помочь в определении выбросов. На стадии Measure тренинга зеленых поясов в первую очередь используется диаграмма временного ряда (Time Series Plot) и Run Chart. В отличие от гистограмм, ящичных и точечных диаграмм, эти графики не выделяют наблюдения, которые могут являться выбросами. С другой стороны, глядя на поведение процесса во времени, можно определить тренды и сезонные составляющие. С большой долей вероятности эти участки могут послужить источниками выбросов. Другими словами, вместо направленного поиска необычно низких или высоких значений, ищем случаи необычного поведения процесса. Следовательно, анализируем возможные участки появления выбросов.

Следует также вспомнить, что гистограммы и точечные диаграммы подвержены влиянию ширины интервала (bining), которая в некоторых условиях приводит к ошибочной идентификации выбросов или, наоборот, – к их скрытию.

Следующий шаг – расчет описательных статистик, который проводится с помощью функции Graphical Summary (Stat > Basic Statistics > Graphical Summary) в пакете Minitab. Эта функция позволяет рассчитать описательные статистики и одновременно представить их в виде графического отчета:

На этом этапе работы выбросы можно не только визуально идентифицировать, но и оценить их влияние на основные статистические показатели.

В случае наблюдения расчетных показателей, таких как стоимость или % брака, продуктивность, выход годных или уровень отказов, нет необходимости использовать все описательные статистики – достаточно знать среднее арифметическое или медиану, как ключевой показатель текущего состояния процесса. Кроме того, не столь важно согласие распределения переменной с нормальным законом, так как последующая оценка способности процесса будет проведена с помощью эмпирических формул расчета DPU, DPO, DPMO, DPPM и σ-уровня, а не индексов способности.

    Никто же не станет ожидать, что распределение выхода годных изделий будет подчиняться нормальному закону. Во-первых, показатель выхода годных изделий редко держится на стабильном уровне – скорее планомерно растет или падает под влиянием определенных факторов. Во-вторых, этот показатель ограничен естественными пределами – не может быть менее 0 и более 100% выхода годных изделий. В третьих, и это наиболее важный пункт, нет смысла оценивать выход с помощью индексов способности. Показатель выхода сам по себе является характеристикой способности процесса производить качественные изделия. Индексы способности, рассчитанные для выхода годных изделий – это абсурд.

Таким образом, для показателей, которые не измеряются непосредственно, но являются расчетной характеристикой процесса, наличие выбросов не критично и может не влиять на полученный результат. Следовательно, последующий анализ может проходить параллельно с поиском причин выбросов. С другой стороны, необычно высокий уровень брака и низкий уровень выхода, связанный, к примеру, с запуском новой технологии или продуктовой линейки может искусственно ухудшать актуальное состояние процесса. Такие наблюдения следует исключить перед проведением последующего анализа.

Во всех остальных случаях обнаружение выбросов служит стоп-сигналом для исследователя: последующий анализ не проводится до того момента, пока причина возникновения выбросов не будет установлена. Исключение могут составлять опечатки или ошибки ввода, допущенные оператором, которые можно либо восстановить, либо исключить без потери информации, или присутствие незначительного количества выбросов, наличие или исключение которых никоим образом не отразится на расчетных статистиках. В последнем случае, однако, рекомендуется взять повторную выборку, так как наличие небольшого числа неподтвержденных выбросов может означать, что размер выборки не достаточен для того, чтобы представлять свойства всей популяции значений.

В одном из проектов зеленых поясов мы столкнулись с довольно интересным случаем: обнаруженных выбросов было так много, что они могли представлять отдельную популяцию значений. Причина столь необычного поведения процесса в том, что отслеживаемая характеристика заметно менялась в случае возникновения брака. Исключать такие выбросы было бы ошибочно – тем самым способность процесса была бы искусственно завышена. Однако последующая оценка индексов способности процесса привела к ряду уроков, которыми стоит поделиться:

  1. Во-первых, исключать выбросы в рассматриваемом случае нет смысла – они представляют поведение процесса. Следовательно, если оценивать процесс “как есть”, а не “как может быть”, то эти наблюдения нам понадобятся.
  2. Данные, среди которых содержится достаточно большое количество выбросов, невозможно оценить с помощью статистических методов, применимых для распределений, согласных с нормальным. Наличие выбросов искажает распределение переменной.
  3. Существует ряд статистик, таких как медиана, которые можно считать робастными (устойчивыми) к наличию выбросов. Тем не менее, в каждом индивидуальном случае следует выбирать статистику, которая лучше описывает поведение процесса. Например, среднее арифметическое под влиянием выбросов может сильно искажать представление о поведении процесса, в то время как медиана отразит тенденцию точнее. С другой стороны, если стоит задача выразить статистически такие расчетные показатели как брак или выход, то использование медианы даст обратный эффект:
  4. Данные, среди которых содержатся выбросы, иногда удается трансформировать (привести закон распределения к нормальному). Пример успешной трансформации вы можете посмотреть в проекте выше.
  5. Если не удается применить трансформацию, то можно рассчитать показатели способности эмпирически. Применение непараметрических методов оценки способности также возможно, однако эмпирический расчет вполне удовлетворяет условиям задачи. Пример можно найти в другом проекте.

Как вы могли заметить из приведенных примеров, определение причин появления выбросов зачастую приводит исследователя к принятию определенного решения. Таким образом, 4й пункт алгоритма работы с выбросами (после того, как найдена причина появления необычно высокого или низкого значения среди наблюдений) меняется в зависимости от этой причины:

  1. собрать больше наблюдений или провести повторный отбор проб;
  2. исключить выбросы, которые не представляют популяцию наблюдений и не несут информацию о процессе (причина должна быть точно подтверждена);
  3. принять выбросы во внимание и проводить последующий анализ с их учетом.
17.09.2012 / 6605 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb