Выбросы. Часть 1: кто это такие и почему они опасны?

В рамках проектной деятельности, которую осуществляют участники тренинга шести сигм для зеленых поясов, часто приходится сталкиваться с нетривиальными задачами, решение которых не столь очевидно, а порой требует творческого подхода. Одной из таких задач является работа с выбросами перед расчетом описательных статистик и способности процесса на этапе измерений (Measure). В этой и ряде последующих публикаций попробуем разобраться в том, что такое выбросы и почему так важно знать о них, как они возникают и что с ними делать?

Итак, что же такое выбросы?

Выброс – это результат измерения, выделяющийся из общей выборки. Иными словами, выбросы – это необычно низкие или высокие значения наблюдаемой величины, причем настолько, что это заметно невооруженным глазом: в ходе графического анализа наблюдений вы можете заметить значения, которое не принадлежит популяции наблюдений. Определить выбросы можно с помощью: гистограмм [1], точечных [2] и ящичных [3] диаграмм, диаграмм индивидуальных значений [4], рассеяния [5] и даже диаграмм временных рядов [6]:


красные точки, звездочки и столбцы на диаграммах соответствуют выбросам

В теории статистического анализа нет однозначного критерия идентификации выбросов, и это – первая причина, по которой выбросы представляют опасность для неопытного исследователя.

Из определения следует, что все необычно низкие или высокие значения наблюдаемой величины могут быть выбросами. Как же определить, какое значение переменной является необычно высоким или низким. Один из самых простых способов: использовать диапазон трех стандартных отклонений вокруг среднего значения. Вероятность выхода величины за пределы ±3σ составляет 0,0027, а значит, с большой долей вероятности, значение, которое выходит за пределы ±3σ не принадлежит к популяции.

С другой стороны, можно привести ряд доводов против этого утверждения. Например, оно теряет смысл, если функция распределения отличается от нормальной или размер выборки слишком мал, чтобы представить генеральную совокупность значений. Кроме того, с вероятностью 0,0027 наблюдение все же может выйти за пределы диапазона трех стандартных отклонений.

Вторая опасность, которую представляют выбросы – искажение статистик или результатов статистических расчетов. Такие показатели как среднее арифметическое (Mean), стандартное отклонение (StDev), асимметрия (Skewness), эксцесс (Kurtosis), а также критерий согласия с нормальным законом весьма подвержены влиянию выбросов. В отличие от среднего арифметического, медиана менее подвержена влиянию выбросов. На следующем рисунке медиана и среднее арифметическое до и после исключения выброса обозначены зеленой и красной стрелками соответственно:

Еще один классический пример – квартет Энскомба (Anscomb):

X1 Y1   X2 Y2   X3 Y3   X4 Y4
108,04109,14107,4686,58
86,9588,1486,7785,76
137,58138,741312,7487,71
98,8198,7797,1188,84
118,33119,26117,8188,47
149,96148,1148,8487,04
67,2466,1366,0885,25
44,2643,145,391912,5
1210,84129,13128,1585,56
74,8277,2676,4287,91
55,6854,7455,7386,89

Квартет Энскомба – это четыре набора числовых данных, которые используют как свидетельство важности визуальной оценки наблюдений в корреляционном и регрессионном анализе:

Не смотря на различия взаимосвязи переменных X и Y, во всех четырех случаях статистические показатели, как и уравнение линейной регрессии, одинаковы:

Характеристика

Значение

Среднее значение переменной X 9.0
Дисперсия переменной X 10
Среднее значение переменной Y 7,5
Дисперсия переменной Y 3,75
Коэффициент корреляции Пирсона 0,816
Уравнение линейной регрессии Y=3+0.5X

Обратите внимание на третий и четвертый наборы данных. Выброс в третьем примере искажает уравнение зависимости, а в четвертом – заставляет принять решение о наличии корреляции, в то время как ее на самом деле нет.

И, наконец, третья опасность, которую таят выбросы – это легкость их неверного истолкования, что, в свою очередь, приведет к неверному направлению последующего анализа. Наличие выбросов может означать ошибку ввода данных, недостаточную величину выборки или присутствие специальной причины отклонения – действие конкретного фактора или причины. Диагностируя выбросы, легко допустить ошибку, исключив нужные для анализа данные или наоборот – рассчитав показатели процесса, используя неверные результаты наблюдений.

Таким образом, существует, по меньшей мере, 3 причины, почему выбросы данных следует исследовать. Невнимательное отношение к выбросам наблюдений ставит под угрозу выводы о наблюдении процесса и ставит под угрозу результаты последующего анализа. Следовательно, обнаружив необычно низкие или высокие значения наблюдаемой величины, исследователь обязан найти причину их появления, прежде чем делать выводы о наблюдаемой переменной или приступать к последующему анализу данных. Наиболее вероятные причины появления выбросов будут рассмотрены в следующей статье.

27.08.2012 / 11235 / Загрузок: 24 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb