Непараметрические критерии в тестах гипотез

Считается, что при достаточно большом количестве наблюдений распределение переменной будет стремиться к нормальному (гауссовому). Это утверждение имеет как ряд подтверждающих доводов, наиболее весомым из которых является центральная предельная теорема (Central Limit Theorem), так и ряд опровержений – например, процессы, ограниченные естественными пределами.

Большинство статистических методов, на которые опирается методология шести сигм, основаны именно на предположении о гауссовом распределении переменных. Зачастую, столкнувшись с выборкой наблюдений, закон распределения которой отличается от нормального, практик шести сигм посоветует вам вначале выяснить причины такого поведения процесса и лишь затем приступить к последующему анализу.

На первый взгляд может показаться, что анализ причин отклонения распределения наблюдений от нормального закона уводит в сторону фокус лидера проекта – черного или зеленого пояса. Однако это далеко не так и даже наоборот – выяснив причины и устранив их, можно в значительной степени приблизиться к цели проекта. Выражаясь языком шести сигм – повысить сигма-уровень процесса.

Вышесказанное совершенно не означает, что все проекты шести сигм применяют исключительно методы вычисления, основанные на предположении о нормальном распределении. Применение непараметрических методов анализа также довольно часто встречается в проектах шести сигм, и яркий пример тому – непараметрические тесты гипотез.

В каких же случаях следует отдавать предпочтение непараметрическим тестам?

  • Во-первых, когда закон распределения переменной отличается от нормального. Это, пожалуй, самый весомый аргумент в пользу непараметрических тестов. Тем не менее, еще раз обращаю внимание читателя на то, что отличие распределения от нормального может быть вызвано разными причинами, в том числе неправильным сбором результатов или непригодной системой измерений. Использование непараметрических тестов в таких случаях действительно неоправданно, поскольку полученный результат не приблизит вас к цели проекта, в то время как изучение особой причины отклонения распределения переменной от нормального закона может дать много ответов.
  • Во-вторых, когда размер выборки столь мал, что невозможно достоверно определить закон распределения. В таком случае применение тестов, “не зависимых от распределения”, может стать хорошим решением проблемы. С другой стороны, если достоверно известно, что распределение переменной подчиняется нормальному закону, лучше применять параметрические тесты.
  • В-третьих, непараметрические тесты дают возможность оперировать атрибутивными данными, из-за чего довольно широко распространены в таких областях научной деятельности, как психология.
  • В-четвертых, когда результат невозможно измерить (или точно определить). Многие исследования в медицине, к примеру, оперируют неизмеримыми понятиями – поведенческими характеристиками или состоянием организма (болевые ощущения есть, но измерить их не представляется возможным). Ввиду отсутствия измеримых показателей, можно подтвердить гипотезу о том, что А, больше чем B, хотя и не известно, на сколько больше.

Из недостатков следует выделить два наиболее важных: непараметрические тесты менее мощны и менее универсальны. Причина заключается в том, что параметрические тесты опираются на больший диапазон известных значений; один из них - распределение переменной.

Рассмотрим несколько примеров использования непараметрических тестов. Создадим два набора по 10 значений, подчиняющихся нормальному закону распределения. Ввиду ограниченного количества наблюдений, результаты теста Андерсона-Дарлинга могут значительно отличаться (в том числе, тестовая статистика может свидетельствовать в пользу альтернативной гипотезы – распределение наблюдений не подчиняется нормальному закону распределения):

Прибегнув к помощи Minitab Assistant для выбора теста гипотезы о равенстве средних арифметических значений, мы получим следующий результат в окне “Summary Report” (по умолчанию был использован 2-Sample t тест):

Вывод: недостаточно данных, свидетельствующих об отличии средних арифметических значений двух числовых рядов. В то же время, сообщение в окне “Report Card” предупреждает о том, что размер выборки слишком мал и полученный результат может не отражать действительности:

В таком случае, имеет смысл прибегнуть к помощи непараметрических методов. Следуя блок-схеме выбора теста гипотез, исследователь сможет найти альтернативную методику анализа, прибегнув к одной из нижеперечисленных команд:

  • Stat > Nonparametric > Mann-Whitney
  • Stat > Nonparametric > Kruskal-Wallis
  • Stat > Nonparametric > Mood’s Median
  • Stat > Nonparametric > Friedman

Результаты теста гипотезы об отличии средних (медиан, в данном случае), с помощью критерия Манна-Уитни:

    Mann-Whitney Test and CI: C1, C2

         N  Median
    C1  10  -0.003
    C2  10   0.016


    Point estimate for ETA1-ETA2 is -0.335
    95.5 Percent CI for ETA1-ETA2 is (-1.095,0.414)
    W = 94.0
    Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.4274

Вывод подтверждается: нулевая гипотеза о равенстве средних не может бать отвергнута. Вероятность (p-value) составляет 0,427, что много больше α-уровня (0,05) и результата, полученного с помощью 2-Sample t теста.

Для иллюстрации второго примера были взяты данные о среднесуточной посещаемости сайта SixSigmaOnline.ru за 18 недель. Резкое падение посещаемости на диаграмме соответствует периоду новогодних праздников.

Если визуально оценивать диаграмму временного ряда, то создается впечатление незначительного роста посещаемости вначале 2012 по сравнению с 2011 годом. Проверим гипотезу, чтобы подтвердить предположение статистически.

Учитывая наличие специального фактора, вызвавшего падение показателя среднесуточной посещаемости, и непрерывный рост аудитории сайта, можно предположить, что распределение наблюдений не будет подчиняться нормальному закону, что и подтверждает вероятностный график. Таким образом, предстоит выбрать один из непараметрических критериев для теста гипотезы.

Используем Mood’s Median и Kruskal-Wallis для проверки гипотезы о равенстве средних (результаты на диаграмме выше). Как следует из результатов анализа: несмотря на визуально прослеживаемый тренд, разница между среднесуточной посещаемостью сайта статистически незначима. С вероятностью 0,637 (Mood’s Median) и 0,627 (Kruskal-Wallis) среднесуточная посещаемость за 9 недель до и после Нового Года равна.

В качестве третьего примера рассмотрим сравнительные результаты исследований препаратов А и B на человеческий организм:

Препарат А  

  Препарат B

1

1

1

1

1

0

1

0

1

0

0

0

1

0

1

1

1

0

1

1

0

0

0

1

1

1

1

0

Результаты исследований – атрибутивные данные, где 1 – препарат помог, 0 – препарат не оказал нужного влияния. Ввиду того, что наблюдения невозможно оценить количественно, большинство параметрических и непараметрических тестов гипотез просто неприменимы. Однако, пользуясь блок-схемой исследователь сможет прибегнуть к 2-Proportion-тесту (Stat->Basic Statistics->2 Proportion), чтобы проанализировать полученные данные:

По умолчанию выполняется следующая проверка гипотез:

    H0: P1 = P2
    Ha: P1 ≠ P2

где P – вероятность возникновения события в выборке (пропорциональное предпочтение того или иного препарата организмом).

Результат в окне Session:

    Test and CI for Two Proportions: Препарат А; Препарат B

    Event = 1


    Variable     X   N  Sample p
    Препарат А  11  14  0,785714
    Препарат B   6  14  0,428571


    Difference = p (Препарат А) - p (Препарат B)
    Estimate for difference: 0,357143
    95% CI for difference: (0,0203999; 0,693886)
    Test for difference = 0 (vs not = 0): Z = 2,08 P-Value = 0,038


    * NOTE * The normal approximation may be inaccurate for small samples.

    Fisher's exact test: P-Value = 0,120

Согласно первому результату (p-value = 0.038), следует отклонить нулевую гипотезу, т.е. между двумя препаратами наблюдается статистически значимое различие. Однако тест Фишера показывает несколько больший уровень p-value, что свидетельствует в пользу обратной гипотезы, следовательно, мы не можем отклонить нулевую гипотезу. В таком случае, лучше сделать вывод о недостаточном размере выборки.

Для оценки качества услуг многие банки, рестораны и кафе устанавливают терминалы или пульты, с помощью которых клиент может быстро оставить отзыв о полученном сервисе. Предположим, что сеть банков, обладающая похожей системой, запускает два новых продукта или услугу и отслеживает отзывы клиентов по всем отделениям сразу. Как определить, какая из новинок пришлась по вкусу клиентам?

Полученные отзывы в пользу того или иного продукта представляют атрибутивные данные. Тем не менее, мы можем оценить количество предпочтений каждого продукта и на основе разницы заключить о том, пользуется ли какой-либо из них большей популярностью.

Отделение  

Продукт А  

Продукт B  

Разница  

1

40

20

20

2

25

18

7

3

38

24

14

4

27

14

13

5

31

5

26

6

21

26

-5

7

32

15

17

8

38

29

9

9

25

15

10

10

18

9

9

11

32

25

7

12

28

31

-3

13

33

35

-2

14

29

12

17

Полученный таким образом числовой ряд (столбец “Разница”) будет состоять из положительных и отрицательных величин. Используем 1-Sample Sign тест (Stat > Nonparametrics > 1-Sample Sign), чтобы проанализировать результаты оценки клиентов сети. Выберем тест медиан и установим альтернативную гипотезу “greater then”:

Нулевая гипотеза – H0: M = μ; альтернативная – Ha: M > μ.

    Sign Test for Median: Разница

    Sign test of median = 0.00000 versus > 0.00000

              N  Below  Equal  Above       P  Median
    Разница  14      3      0     11  0.0287   9.500

Результат: исходя из значения p-value (0.0287 < 0.05) нулевую гипотезу следует отвергнуть и принять альтернативную – продукт А положительно воспринят большим числом посетителей.

Примечание: кроме 1-Sample Sign теста, в последнем примере можно было прибегнуть непосредственно к сравнению самих выборок, используя один из следующих тестов гипотез: Mann-Whitney, Kruskal-Wallis, Mood’s Median, Friedman.

07.05.2012 / 3457 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb