Выбросы. Часть 3: иллюстрации и примеры

В публикациях Выбросы. Часть 1: кто это такие и почему они опасны? и Выбросы. Часть 2: как возникают выбросы? приведено определение выбросов, некоторые особенности их влияния на статистические показатели и результаты анализа, а также наиболее вероятные причины их появления. В этой статье будут рассмотрены некоторые примеры, с которыми может столкнуться исследователь на этапе Measure.

Начнем с примера, который был приведен в статье Выбросы. Часть 2: как возникают выбросы? С помощью статистического пакета Minitab было сгенерировано 7 наборов наблюдений, которые подчиняются нормальному закону распределения и обладают одинаковыми свойствами (среднее арифметическое, стандартное отклонение и количество наблюдений):

Полученные данные затем были представлены с помощью ящичной диаграммы:

Как видите, в двух из семи случаев, в выборке наблюдаются выбросы. Обратите внимание: выбросы находятся в пределах 3х стандартных отклонений, которые были заданы для генерации числовых рядов, от установленного среднего арифметического. Не смотря на то, что в каждом ряду не менее 50 наблюдений, в двух случаях выборка оказалась недостаточной для представления популяции наблюдений – одно из значений популяции оказалось выбросом для выборки.

Следующий пример иллюстрирует ошибку ручного ввода данных:

Мода обеих выборок равна 76. Следовательно, число 76 встречается чаще всего среди результатов наблюдений. Величина значения выброса составляет 67. Механическая ошибка ввода данных привела к появлению необычно низкого значения среди наблюдений. Если сохраняются записи и/или копии результатов наблюдений, то диагностировать такую ошибку очень просто – достаточно свериться с протоколом наблюдений. Если свериться не с чем, то достоверно определить такой выброс, как ошибку ввода данных, крайне сложно.

Вместе с непреднамеренным искажением данных иногда можно столкнуться с искусственным завышением или занижением результатов. В таком случае может наблюдаться обратная картина:

Иногда можно определить саботаж, сверив данные с параллельной системой регистрации наблюдений или проведя анализ по смежным показателям. Например, такой показатель как брак, который во многих организациях влияет на премию, может быть часто занижен самими сотрудниками. В то же время, проведя сравнение с расходом сырья и количеством проданных товаров можно подтвердить или опровергнуть корректность собранных данных.

В проекте одного из зеленых поясов, мы столкнулись с еще одним интересным явлением. Ввиду того, что значение наблюдаемой характеристики бракованного изделия значительно отличается от характеристики качественного, бракованные образцы формируют новую популяцию наблюдений:

Вполне вероятно, что некоторые наблюдения, которые не идентифицированы на диаграмме как выбросы, могут принадлежать популяции бракованных изделий. Даже если такие изделия признаны годными, вероятно наличие латентного повреждения/дефекта или скорого отказа.

Еще один довольно тривиальный случай изображен на следующей диаграмме:

Чтобы понять причину трех выбросов, расположенных под “хвостом”, достаточно построить диаграмму временного ряда:

Обратите внимание на поведение процесса вокруг участков, на которых обнаружены выбросы. Совершенно очевидно, что на этих участках зафиксировано влияние специального фактора, который приводит к заметному увеличению разброса значений. Специальным фактором, который приводит к “скачкам” значений, может выступать подстройка параметров оборудования (вспомните пример с температурой двигателя и открытием капота), влияние микроклимата вблизи дверей, окон или вытяжных отверстий и т.д.

12.09.2012 / 2623 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb