Как получить бимодальное распределение? Часть 2

Результаты моделирования бимодальных распределений, рассмотренные в предыдущей статье, показали, что при статистической обработке данных исследователь может быть введен в заблуждение внешним видом кривой смесевого распределения. В результате смесевое распределение может быть ошибочно принято за унимодальное (нормальное, логнормальное и т.п.). Особую опасность представляет диапазон соотношений параметров исходных распределений, при которых еще сохраняется унимодальность составного распределения.

Можно ли избежать ошибок при определении двумодальности распределения и как это сделать?

Цель: оценить возможности Minitab для выявления двух мод в экспериментальной выборке и расслоения (стратификации) смесевого распределения на унимодальные составляющие компоненты.

Объекты исследования

В Minitab выполнена генерация выборок нормальных распределений (приложение 1) с заданными параметрами (μ и σ). Статистики сгенерированных выборок (Mean и StDev) проверены с помощью команды Stat > Basic Statistics > Graphical Summary и представлены в таблице 1.

Таблица 1 – Нормальные выборки, сгенерированные в Minitab

СтолбецЗаданные параметры при генерацииПараметры сгенерированных выборок
MeanStandard deviationNumber of rowsMeanStDevP-Value*
С1-111000-1.05461.00040.186
С20.5110000.492770.99570.860
С41110001.02590.99360.650
С61.5110001.52250.98470.037
С84110003.99250.98120.312
* Confidence level = 95.0

Выборки бимодальных распределений получены путем объединения двух столбцов в меню Data > Stack > Stack Columns (приложение 2). Статистики смешанных (из 2-х нормальных выборок) выборок приведены в таблице 2.

Таблица 2 – Бимодальные выборки, полученные в Minitab

СтолбецМетод полученияПараметры выборки
NMeanStDevP-Value*
С3С1+С22000-0.280901.26274<0.005
С5С1+С42000-0.014351.44087<0.005
С7С1+С620000.233951.62662<0.005
С9С1+С820001.46902.7116<0.005
С11С1+С12000-1.05461.00020.009
C22С2+С220000.492770.995450.320
* Confidence level = 95.0

Обсуждение результатов

  1. Визуального анализа графической информации не всегда достаточно для того, чтобы определить отклонения от нормальности. Особую сложность представляют бимодальные распределения, полученные смешением двух нормальных распределений с близкими значениями средних и стандартных отклонений. Речь идет о диапазоне изменения параметров, в котором кривые плотности смесевых распределений имеют форму колокола. Внешний вид гистограмм таких распределений (приложение 2, C(11) и C(22)) совпадает c исходными (приложение 1, С1 и С2). Более того, возможны случаи, когда и обычная проверка на нормальность в Minitab для смешанных распределений этого типа дает положительный результат. Например, имеющиеся данные не позволяют отклонить предположение о нормальности выборки C(22), полученной смешением выборок С1+С1, поскольку значение P-Value=0,32 (табл. 2). Соответственно, и при дальнейшей статистической обработке такого класса смешанных распределений не встает вопрос об их стратификации (расслоении) на исходные компоненты. Тем более, что средствами Minitab это сделать очень сложно.
  2. При наличии теоретических предпосылок для двумодальности распределений в таких случаях можно воспользоваться либо специальными математическими методами и соответствующими программами стратификации данных (разделения пиков), либо изменить условия получения данных (например, изменить скорость нагрева или навеску образца при проведении термогравиметрического анализа).

  3. В условиях, когда разница между средними становится больше стандартного отклонения (на кривых плотности смесевого распределения верхний пик превращается в пологую крышу), средства Minitab достаточно уверенно: а) идентифицируют отклонения от нормальности; б) позволяют осуществить стратификацию смесевой выборки.
  4. Идентификацию и стратификацию бимодальных распределений можно осуществить, опираясь на графики временных рядов  (Times Series Plot). С увеличением различия в средних смесевых компонент эта процедура упрощается и при D>s бимодальность может быть выявлена «на глаз» при анализе соответствующих графиков (приложение 2, графики С3, С5, С7 и С9).

Наблюдение: полученные данные свидетельствуют о том, что Minitab не всегда добротно генерирует нормальные распределения. Например, из приложения 2 видно, что гистограмма выборки С6 с параметрами (Mean=1.5; Standard deviation=1; N=1000) в какой-то мере напоминает бимодальное распределение. В нормальности сгенерированного распределения позволяет усомниться и значение P-Value=0,037 (табл. 1).

Заключение

  1. Смесь двух нормальных распределений не всегда имеет два ярко выраженных горба. Смесевое распределение может быть и унимодальным и при определенных обстоятельствах даже сохранять признаки нормальности.
  2. В практической деятельности не стоит ограничиваться определением двумодальности распределения только «на глаз». При наличии теоретических и практических предпосылок двумодальности следует подойти к анализу имеющейся выборки с разных сторон. «Звоночком» могут служить отрицательные результаты теста куполообразного распределения на нормальность.
  3. При стратификации (разделении) бимодального распределения с ярко выраженными модами можно использовать графики временных рядов.

Приложения


<<< Как получить бимодальное распределение? Часть 1

Как получить бимодальное распределение? Часть 3 >>>

02.06.2015 / 1643 / Загрузок: 0 / Суворов Константин Александрович /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb