30.08.2017 | Добавил: dmagic | Просмотров: 310
Отсекаем выбросы

Если вы хоть краем уха слышали о статистике, то, вероятно, слышали и о выбросах. Любой выброс – это результат измерения, выделяющийся из общей выборки. Однако не любой результат измерений, выделяющийся из общей выборки, есть выброс.

Давайте рассмотрим пример на точечной диаграмме: являются ли два наблюдения слева выбросами?

Для ответа на этот вопрос, применим следующий алгоритм действий:

  1. Рассчитаем Q1 (25-й процентиль).
  2. Рассчитаем Q3 (75-й процентиль).
  3. Рассчитаем межквартильный интервал: IQR = Q3 – Q1.
  4. Определим выбросы как:
    • все значения, которые находятся ниже, чем Q1 – 1,5*IQR и,
    • все значения, которые находятся выше, чем Q3 + 1,5*IQR.

Давайте попробуем вместе. Вот данные, которые были использованы при подготовке данной публикации:

23,29424,12323,24818,03726,958
21,87323,32622,76727,29225,138
21,86224,64322,79223,58926,079
23,21825,70425,04626,70729,969
19,22424,08121,80223,80131,154
23,44325,64121,02621,69428,855
30,40025,21323,17129,56121,653
26,33725,23327,59221,92123,627
23,87123,67723,23918,86031,162
23,36128,79225,19731,12022,504
19,54623,27125,66027,10128,295
26,90322,61626,10626,29117,234
28,45428,63923,12425,41526,160
23,80721,58223,25327,72928,137
24,63923,40323,77623,65723,717
27,20021,29824,84726,18826,244
23,28625,41727,86927,63426,595
24,89726,57123,12126,07521,572
20,91222,73129,67526,25324,720
19,40523,20424,90921,56222,427

В первую очередь, вам потребуется перегруппировать их в один столбик для работы в Minitab. Затем в меню Stat выберите Basic Statistics > Display Descriptive Statistics. Подробный видеоурок по расчету описательных статистик поможет вам справиться с этой задачей.

Q1, Q3 и IQR выделены выше. Все значения, которые находятся ниже, чем 23,122 – 1,5*3,390 = 18,037, и все значения, которые находятся выше, чем 26,512 + 1,5*3,390 = 31,597, являются выбросами.

Если вы обратите внимание на описательные статистики выше, то заметите, что максимальное значение (Maximum) в выборке составляет 31,162, что ниже рассчитанной границы. Таким образом, “сверху” выбросов нет. Минимальное значение (Minimum) в выборке составляет 17, 234. Это значение находится ниже рассчитанной границы и может считаться выбросом. Второе значение снизу – 18,037 – находится на “границе”, следовательно, не является выбросом.

Можно ли автоматизировать эту работу?

Разумеется, все эти манипуляции можно оставить. Используя ящичную диаграмму и условное форматирование в программе Minitab, вы можете оставить рутинную идентификацию выбросов, целиком сфокусировавшись на анализе и выводах.

Вы также можете “отсечь” все выбросы, если решите, что они не представляют интереса для последующего анализа. Для этого:

  1. Кликните правой кнопкой мыши по столбцу с данными.
  2. Выберите опцию Subset Worksheet, а затем Exclude Rows with Formatted Cells (не забудьте использовать условное форматирование для идентификации выбросов перед этим).
  3. Появившийся лист (Worksheet 2) содержит всего 99 наблюдений – выбросы исключены автоматически.

Надеюсь, эта заметка повысит эффективность вашего анализа.

Лин6Сигм / 30.08.2017 | Просмотров: 310 | Добавил: dmagic | Всего комментариев: 0 / Теги: выбросы, Minitab, статистика
Всего комментариев: 0
Имя *:
Email *:
Код *:
SixSigmaOnline.ru © 2009-2017            Хостинг от uWeb