07.05.2018 | Добавил: dmagic | Просмотров: 239
Разбираем гипотезу о выбросах

Существует несколько способов оценить наличие выбросов в выборке. Самый простой – построить гистограмму и оценить визуально. Да, это просто и быстро, но ваш вывод будет на уровне догадки. Вы также можете построить ящичную диаграмму – на ней выбросы отражаются звездочками. Можно вооружиться калькулятором и применить алгоритм, описанный в заметке Отсекаем выбросы. К вашим услугам также условное форматирование

Как видите, все эти инструменты уже описаны на нашем сайте. Но есть еще один, о котором вы пока можете не догадываться. Итак, запускаем Minitab и…

  1. В меню Stat перейдите на Basic Statistics.
  2. Выберите опцию Outlier Test.
  3. a02055

  4. В появившемся окне задайте одну или несколько колонок с переменными.
  5. a02056

  6. Нажмите Ok.

В данной заметке использован набор данных, который доступен всем пользователям программы Minitab. Как их найти, читайте в заметке До какой степени визуализировать данные?

Интерпретируем результаты

По умолчанию вы получите следующие результаты:

1. Таблица Method в окне Session.

a02057

В этой таблице содержится подсказка как интерпретировать результаты. Нулевая гипотеза (Null hypothesis) гласит: все наблюдения исходят из одной популяции, которая к тому же подчиняется нормальному закону распределения. Альтернативная гипотеза (Alternative hypothesis): минимальное или максимальное значение является выбросом. Уровень значимости (Significance level): 0,05. О чем это говорит, читайте в глоссарии α-риск.

2. Таблица Grubbs’ Test в окне Session.

Даже несмотря на то, что информация в этой таблице более важна, чем в предыдущей, рассматривать мы ее не будем, так как те же результаты продублированы на графике.

3. График выбросов (Outlier Plot).

a02058

График выбросов, по сути, является графиком индивидуальных значений (Individual Value Plot). Единственное отличие: в случае, если программа определит выброс, он превратится из синей точки в красный квадрат:

a02059

В правой части диаграммы находится таблица, которая показывает нам:

  • Минимальное значение – 11,00.
  • Максимальное значение – 500,00.
  • Коэффициент G – количество стандартных отклонений, на которое удалено максимальное или минимальное наблюдение в выборке от среднего арифметического значения.
    • В данном примере одно из них (то, которое дальше) удалено от среднего арифметического на 2,51 стандартных отклонений. Как вы понимаете, в этом нет ничего необычного.
  • Вероятность (P) появления наблюдения на таком расстоянии от среднего арифметического.
    • В данном случае вероятность высока – намного выше установленного по умолчания уровня значимости (0,05), а значит, мы не можем отклонить нулевую гипотезу о том, что все наблюдения из одной популяции.

Настройки теста и опции

Чтобы окончательно разобраться с этим инструментом, вернемся к диалоговому окну и посмотрим, что еще предлагает нам программа. Нажав кнопку Options, вы можете:

  • Выбрать, какой метод тестирования гипотез применить.
    • В большинстве случаев вам не потребуется менять значение по умолчанию. Однако если вы имеете дело с несколькими выбросами в выборке, то они могут влиять на величины статистик (среднего арифметического и стандартного отклонения), а следовательно “маскировать” друг друга. В таком случае вам может потребоваться использовать один из методов Dixon-а.
    • Мой вам совет: если вы видите более чем один выброс, то это может и не выброс, а значения из другой популяции, которая так или иначе находится в выходах вашего процесса. Гораздо разумнее разобраться в причинах наличия двух популяций, нежели гонятся за тестированием гипотез.
  • Изменить уровень значимости.
    • За редким исключением значение по умолчанию – 0,05 – является наиболее часто использованной величиной.
  • Изменить альтернативную гипотезу.
    • По умолчанию установлена двухсторонняя гипотеза: является ли минимальное или максимальное значение выбросом?
    • Однако вы можете выбрать одну из двух односторонних гипотез: “Является ли максимальное значение выбросом?” или “Является ли минимальное значение выбросом?”.

a02060

Нажав кнопку Graphs, вы можете отключить построение графика:

a02061

Если честно, то ума не приложу, зачем могла понадобиться эта опция? Ведь с графиком всегда веселее )))

Нажав кнопку Results, вы можете отключить вывод всего полезного:

  • описания метода, которым проводился тест;
  • результатов теста в окне Session;
  • визуального обозначения выброса на графике.

a02062

Осталась кнопка Storage:

a02063

Установив флажок напротив Outlier indicator variables (идентифицировать выброс в таблице), вы получите следующий результат в окне Session:

a02064

Теперь мы знаем, что выброс находится в строке 13 и его значение составляет -150.

Вот такой вот материал о выбросах. Если было НЕ интересно, дайте знать отсутствием комментариев ниже, и я буду знать, что о выбросах больше не нужно писать.

Лин6Сигм / 07.05.2018 | Просмотров: 239 | Добавил: dmagic | Всего комментариев: 0 / Теги: Outlier Plot, статистический анализ данных, выбросы, Minitab, графический анализ
ПОХОЖИЕ МАТЕРИАЛЫ


  Добавить комментарий
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb