Определяем закон распределения “на глаз”

Принято считать, что если на процесс не действуют специальные факторы, то наблюдаемая величина будет подчиняться нормальному закону распределения. Другими словами, гистограмма, построенная из результатов наблюдений, будет напоминать "перевернутый колокол”. Это утверждение считается фундаментальным и на его основе построено большинство вычислений в статистике. Популярным примером, доказывающим подчинение большинства переменных нормальному закону распределения, является гистограмма роста:

 

Фотография студентов, выстроенных "живой гистограммой”, красноречиво свидетельствует о подчинении распределения роста людей нормальному закону. Вопреки этому утверждению, следует отметить, что не все переменные подчиняются нормальному закону распределения. Причиной тому может служить специальный фактор либо физические ограничения процесса. Так или иначе, от того, какому закону распределения подчиняется наблюдаемая величина, зависит тактика последующего анализа. Поэтому определение формы или закона распределения переменной можно считать первым шагом статистической обработки данных.

Последнюю задачу можно значительно упростить, принимая во внимание, что в большинстве случаев исследователя интересует насколько точно распределение можно аппроксимировать нормальным.

Как же определить, подчиняется ли распределение переменой нормальному закону?

Существует немало способов подтвердить или опровергнуть нормальность распределения переменной, но, ни один из них не способен заменить графического анализа распределения. Наиболее простой и действенный способ – построение гистограммы.

В качестве примера наблюдений используем набор из 100 значений со средним 50 и стандартным отклонением 3, сгенерированных программой Minitab 16. Рабочий файл, содержащий набор значений и результаты анализа, прикреплен к статье и доступен для всех зарегистрированных пользователей.

Для того, чтобы построить гистограмму выберите Graph => Histogram… В появившемся окне выберите Simple:

 

Укажите столбец C1 в поле Graph variables и нажмите OK:

 

Полученная диаграмма свидетельствует о том, что распределение переменной приближается к нормальному:

 

Кроме гистограммы, существует еще несколько способов графического анализа закона распределения переменных. В качестве примера рассмотрим вероятностный график – Probability Plot. С помощью вероятностного графика можно оценить, насколько распределение наблюдаемой величины подчиняется тому или иному закону распределения, используя критерий Андерсона-Дарлинга.

Выберите Graph => Probability Plot… В появившемся окне укажите Simple и нажмите OK:

 

Укажите столбец C1 в поле Graph variables:

 

По умолчанию проводится тест на согласие распределения переменной с нормальным законом. При выборе опции Distribution…появится окно выбора закона распределения с которым будет сравниваться распределение наблюдаемой величины.

 

Судя по тому, что все наблюдения находятся в пределах контрольных лимитов и значение вероятности (P-Value) близится к единице, можно заключить, что распределение наблюдаемой переменной подчиняется закону нормального распределения. Критерий AD, отражающий отклонение наблюдений от аппроксимированной линии, составляет всего 0,227, что тоже свидетельствует о приближении закона распределения к нормальному.

Можно воспользоваться функцией Normality test, являющейся более мощной опцией вероятностного графика. Перейдите Stat => Basic Statistics => Normality Test… Укажите столбец C1 в ячейке Variable и нажмите OK:

 

Обратите внимание на возможность выбора из нескольких методов проверки нормальности распределения: Андерсона-Дарлинга, Раена-Джойнера, Колмогорова-Смирнова.

Полученный результат можно оценить как графически, так и с помощью выведенных рядом с диаграммой коэффициентов.

 

Чем больше результатов наблюдений лежит на прямой, тем ближе распределение переменной к нормальному. Чем выше значение P-Value, тем с большей вероятностью можно утверждать, что распределение подчиняется нормальному закону.

Оценить распределение переменной можно также с помощью ящичной диаграммы:

 

Симметричность хвостов и "половин ящика” свидетельствуют в пользу нормального распределения величины. Значительная разница в длине хвостов, слишком длинные или слишком короткие хвосты, а также размещение медианы ближе к одной из "стенок ящика” напротив, свидетельствуют о том, что распределение переменной отлично от нормального.

Построению, а также использованию и анализу ящичных диаграмм посвящено несколько статей, опубликованных на нашем сайте: Представление данных с помощью ящичных диаграмм. Часть 1, Часть 2, Часть 3, а также заметка в блоге – О создании ящиков с усами.

В качестве еще одного примера анализа распределения с помощью диаграммы может служить точечная диаграмма. Перейдите Graph => Dotplot… В появившемся окне укажите Simple и нажмите OK:

 

Укажите столбец C1 в поле Graph variables:

 

Полученная диаграмма будет напоминать некоторым образом гистограмму, построенную в начале статьи:

 

Построение точечной диаграммы (условно) можно считать сходным построению гистограммы, за тем лишь исключением, что результаты наблюдений нанесены в виде точек, а не столбцов.

Точечная диаграмма редко применяется для анализа закона распределения переменных, хотя и способна отразить ту же информацию, что и гистограмма. Тем не менее, точечную диаграмму применяют, чтобы оценить, насколько корректно результаты наблюдений могут предоставить информацию о генеральной совокупности значений, а соответственно, и о функции распределения.

Выводы:

Хотя графический анализ и не предоставляет количественных результатов, его применение обусловлено визуальной оценкой закона распределения переменной. Качественная оценка функции распределения позволяет избежать ряда ошибок, от которых не застрахован даже опытный исследователь при анализе распределения с помощью количественных показателей. Следовательно, выполнение графического анализа распределения наблюдаемых значений всегда предшествует проверке гипотезы о законе распределения.

21.10.2010 / 9928 / Загрузок: 57 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2017            Хостинг от uWeb