Тесты гипотез, гуси, свиньи, хрен и редька

Говорят “гусь свинье не товарищ”. А еще говорят, что “хрен не слаще редьки”. Нам предстоит проверить эти гипотезы непосредственно в этой публикации. Не смотря на шутливое название статьи, мы рассмотрим тесты гипотез, а также понятия вероятности (p-value) и риска (α-уровня) в тестах гипотез.

Давайте представим, что у нас есть прибор для измерения сладости вкуса и две выборки по 100 корнеплодов редьки и хрена. Допустим, мы измеряли их сладость и получили вот такие результаты:

Если бы мы смогли измерять сладость всех существующих на Земле корнеплодов (всей популяции), то могли бы сравнить полученные результаты и дать однозначный ответ, который из них слаще. Мы же располагаем исключительно выборочными данными. Мы все равно можем их сравнить и сделать на основе этого вывод, но существует риск, что результаты сравнения выборочных данных могут не соответствовать действительности.

Чтобы я не писал ниже по тексту “риск того, что результаты сравнения выборочных данных не соответствуют действительности”, заменим это длинное словосочетание условным обозначением – α-риском. Если вы уже знакомы с терминологией тестирования гипотез, то, вероятно, скажете, что это неточное определение α-риска. Но для настоящей публикации нам этого вполне достаточно.

Итак, даже если по шкале сладости выглядит, что средней показатель у хрена выше, мы не можем быть уверены на все 100. Существует же вероятность того, что нам попалась самая горькая редька? А раз так, то следует договориться, какой риск мы готовы принять? Какую погрешность мы допускаем? 5-10%? Больше или меньше?

Чаще всего принимают α-риск не более 5% или 0,05 в долях единицы. Иными словами, мы скажем, что хрен слаще редьки только в том случае, если будем уверены в суждении более, чем на 95%.

Давайте сравним средние значения двух выборок и посмотрим, что все эти проценты означают графически:

Среднее значение у редьки действительно ниже, но доверительные интервалы перекрываются.

Из достоверного источника известно, что хрен не слаще редьки. Источнику мы верим, однако результаты исследования 100 корнеплодов показывают обратное. Наша задача в том, чтобы понять, действительно ли полученные результаты свидетельствуют, что хрен слаще редьки. Или, выражаясь привычным для специалистов шести сигм языком:

    H0: сладость хрена ≤ сладость редьки
    Hα: сладость хрена > сладость редьки

Используем меню Assistant программы Minitab:

Мы сравниваем 2 выборки - значит, нас интересует средний столбец. Нажимаем на заглавие “Compare two samples with each other”:

У нас непрерывные значения - значит, на первой развилке сворачиваем влево. Что выбрать затем? Если бы мы задались целью оценить, у какого из корнеплодов больше варьирует сладость, то свернули бы снова влево. Нас же интересует, слаще ли хрен чем редька. Т.е. является ли средний показатель сладости у корнеплодов хрена выше, чем у корнеплодов редьки – сворачиваем вправо.

Вряд ли сладость одного из корнеплодов зависит от сладости другого, поэтому выбираем 2-Sample t:

Просим программу проверить, действительно ли хрен слаще редьки – таким образом, в этом диалоговом окне задается альтернативная гипотеза – и нажимаем OK.

Нам не удалось отвергнуть нулевую гипотезу. Народная мудрость говорит правду: хрен и вправду не слаще редьки.

Теперь давайте опросим 100 гусей и 100 свиней на предмет дружеского отношения друг к другу. Народная мудрость говорит, что гусь свинье не товарищ. Вероятно, парнокопытные меньше обращают внимания на среду обитания, чем их пернатые сородичи. С помощью нашего чудо-прибора удалось зафиксировать диапазон допустимых условий обитания. Вот что получилось:

Может ли гусь быть товарищем свинье в определенных условиях обитания?

    H0: диапазон приемлемого обитания гуся = диапазон приемлемого обитания свиньи
    Hα: диапазон приемлемого обитания гуся ≠ диапазон приемлемого обитания свиньи

Как видите, формулировка несколько отличается от предыдущей: в вопросе сладости хрена и редьки нас интересовало, слаще ли хрен – выше ли его сладость. Такие гипотезы называют односторонними. В вопросе с пернатыми и парнокопытными нас не интересует, может ли гусь быть лучшим или худшим товарищем свинье. Такие гипотезы называют двухсторонними. Кроме того, если в вопросе с корнеплодами перед нами стояла задача сравнить средние показатели, то в задаче с животными нам необходимо понять, совпадает ли диапазон допустимых условий обитания. Иными словами, нам предстоит сравнить дисперсии значений.

В этот раз я также использую 2 Variance тест, но не стану прибегать к помощи ассистента: Stat > Basic Statistics > 2 Variances:

Результаты в окне Sessions:

    Test and CI for Two Variances: Гуси; Свиньи

    Method
    Null hypothesis         Sigma(Гуси) / Sigma(Свиньи) = 1
    Alternative hypothesis  Sigma(Гуси) / Sigma(Свиньи) not = 1
    Significance level      Alpha = 0,05

    Statistics
    Variable    N  StDev   Variance
    Гуси      100  1,005      1,010
    Свиньи    100  4,496     20,213

    Ratio of standard deviations = 0,224
    Ratio of variances = 0,050

    95% Confidence Intervals
                                      CI for
    Distribution   CI for StDev      Variance
    of Data            Ratio           Ratio
    Normal        (0,183; 0,273)  (0,034; 0,074)
    Continuous    (0,173; 0,267)  (0,030; 0,071)

    Tests
                                             Test
    Method                          DF1  DF2   Statistic  P-Value
    F Test (normal)                  99   99        0,05    0,000
    Levene's Test (any continuous)    1   198     109,48    0,000

Среди полученных результатов (верю, часть из них может показаться китайской грамотой) присутствует P-Value – вероятность того, что гусь и свинья товарищи. Полученное значение (0,000) ниже α-уровня (0,05 или 5%). Таким образом, нулевая гипотеза отклонена, а народная мудрость, как всегда, оказалась истиной.

Кроме того, что мы убедились в правдивости поговорок, мы рассмотрели односторонние и двухсторонние гипотезы, тесты гипотез о равенстве средних и дисперсий, а также попытались представить столь сложные понятия, как вероятность (p-value) и α-риск (α-уровень) на простом примере. Надеюсь, что даже в отсутствие точных определений читателю стал ясен смысл этих понятий. Если нет, то укажите народную пословицу или поговорку, которую хотели бы протестировать, в комментариях ниже.

10.02.2014 / 2157 / Загрузок: 0 / DMAgIC / Комментарии: 3
Всего комментариев: 3
avatar
0
1
Отличный материал, спасибо большое) А вот если получится такие пословицы протестировать: в гостях хорошо, а дома - лучше; баба с возу - кобыле легче.
Ответ: Легко!

То ли дело зарплату выбрать: http://sixsigmaonline.ru/forum/2-66-2529-16-1402057309

Вы к какому варианту склоняетесь? Почему?
avatar
0
2
Видимо, нужно склоняться ко второму. У первого процесса вариабельность больше) Хотя, если я хочу в один из месяцев получить 31 т.р., то в первом случае вероятность этого выше))
Ответ: Вот когда дело доходит до зарплаты, то сразу становиться понятно, чем пагубна вариабельность wink

Вот тесты предложенных вами пословиц: http://sixsigmaonline.ru/load/22-1-0-472 Получилось? Судите сами cool
avatar
0
3
Да, получилось - картина проясняется) Кстати,на мой взгляд, если выбирать "что" мерить, то первые предложенные варианты прозрачнее отражают суть вопроса нежели вторые (которые с каллориями и диапазоном доступных "удобств")
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb