Центральная предельная теорема и трансформация данных

Есть целый класс теорем в теории вероятностей, которые объединяют под общим названием “центральной предельной теоремы” (Centarl Limit Theorem). Все эти теоремы гласят, что сумма большого количества независимых случайных величин имеет распределение, близкое к нормальному. И благодаря всем этим теоремам, практики шести сигм имеют возможность трансформировать любое распределение в нормальное.

Хотите это проверить? Тогда следуйте пошаговому алгоритму ниже:

  1. Запустите Minitab.
  2. Выберите Random Data в меню Calc.
  3. Выберите любое распределение из списка (кроме нормального, разумеется)
    • В этом примере я буду использовать равномерное – Uniform;
  4. Сгенерируйте 1000 значений с параметрами по умолчанию:

  1. Выберите Stat > Basic Statistics > Graphical Summary и задайте столбец C1 в поле Variables.
  2. Нажмите OK:

Обратите внимание:

  • Гистограмма совершенно не соответствует наложенной кривой нормального распределения.
  • Тест Андерсона-Дарлинга свидетельствует об отличии закона распределения от нормального (P-Value < 0.005).

Если верить центральной предельной теореме, то распределение средних значений подгрупп, в отличие от распределения индивидуальных значений, будет подчиняться нормальному закону распределения. Давайте проверим это.

Нам потребуется сгруппировать данные. Для этого:

  1. В меню Calc > Make Patterned Data выберите Simple Set of Numbers;
  2. Чтобы сгруппировать все значения по 10, внесите в диалоговое окно следующие настройки и нажмите OK:

Теперь в колонке C2 проставлены атрибуты – номера подгрупп. Далее нам предстоит рассчитать для каждой подгруппы среднее арифметическое значение. Для этого:

  1. В меню Stat > Basic Statistics выберите Store Descriptive Statistics;
  2. В диалоговое окно внесите следующую информацию и нажмите OK:

После проделанных манипуляций на листе должны появиться новые колонки:

В колонке Mean1 находятся средние арифметические значения каждой подгруппы. Попробуем построить графическую сводку для этой колонки:

  1. Выберите Stat > Basic Statistics > Graphical Summary и задайте столбец C4 в поле Variables.
  2. Нажмите OK:

Обратите внимание:

  • Форма гистограммы напоминает перевернутый колокол.
  • Тест Андерсона-Дарлинга свидетельствует о согласии закона распределения с нормальным (P-Value = 0.230).

Попробуйте провести эксперимент, сгруппировав другое количество наблюдений, или используйте онлайн симулятор, чтобы проверить, действует ли центральная предельная теорема на другие виды распределений.

20.04.2015 / 1191 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb