Проверка гипотез о нормальности распределения. Часть 1

Большинство методов статистического анализа справедливы только для наблюдений, функция распределения которых подчиняется нормальному закону. Именно поэтому определение закона распределения наблюдаемой величины является необходимым атрибутом любого статистического анализа.

Большинству классических методов статистического анализа можно найти аналог, применимый и в тех случаях, когда закон распределения переменной отличается от нормального – так называемые непараметрические тесты. Тем не менее, в своем большинстве непараметрические тесты менее точны, чувствительны и уступают в надежности. Очевидно, что если предпочтительным является такой случай, который позволит использовать параметрический метод расчета, то и задачу можно упростить, сформулировав её не как определение функции распределения, а как проверка согласия с нормальным законом распределения.

Как и любой статистический анализ данных, проверку согласия распределения величины с нормальным законом рекомендуется проводить в два этапа: 1) графический анализ, 2) проверка гипотезы о нормальности распределения. С некоторыми способами графической оценки распределения читатель может ознакомиться из публикации Определяем закон распределения “на глаз”. В настоящей публикации внимание будет уделено лишь второй части анализа – проверке гипотезы о согласии распределения переменной с нормальным законом.

В качестве исходных результатов наблюдений сгенерируем два набора по 100 значений:

  • со средним арифметическим – 100 и стандартным отклонением 5, распределённых согласно нормальному закону
  • с минимальным значением 85 и максимальным – 115, распределенных согласно непрерывной равномерной функции

Исходные данные и результаты анализа Вы сможете найти в прикрепленном к статье файле, доступном для всех зарегистрированных пользователей.

Ниже представлены гистограммы для сгенерированных рядов данных:

Чтобы провести проверку согласия с нормальным законом распределения в программе Minitab, выберите Stat =>BasicStatistics =>NormalityTest. В появившемся окне укажите колонку значений в ячейке Variable:

В поле Tests for Normality следует выбрать один из критериев согласия (по умолчаниюиспользуется критерий Андерсона-Дарлинга, как один из наиболее мощных). Выполнив указанные действия, Вы настроите программу на тест гипотезы: генеральная совокупность подчиняется нормальному закону. Альтернативная гипотеза в настоящем тесте будет звучать так: генеральная совокупность не подчиняется нормальному закону.

Ниже представлены результаты тестов гипотезы о согласии сгенерированных ранее наборов значений с нормальным законом распределения:

Исходя из значения вероятности (P-Value), для первого набора данных мы не можем отклонить нулевую гипотезу (p>0,05), в то время как для второго – вероятность достаточно мала для принятия альтернативной гипотезы. Значение критерия AD (Anderson-Darling) много ниже в первом случае, что свидетельствует о лучшей аппроксимации первого набора наблюдений кривой нормального закона распределения.

Ниже представленны результаты анализа, с помощью различных критериев согласия:

Обратите внимание на отличие вероятности (p) согласия функции распределения с нормальным законом при использовании различных критериев. Однако, даже несмотря на различные результаты, выделить наилучший или универсальный критерий не представляется возможным.

Некоторые другие тесты гипотез о согласии функции распределения с нормальным законом, а также особенности интерпретации результатов мы рассмотрим в следующей публикации.

31.10.2011 / 6432 / Загрузок: 53 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb