Как получить бимодальное распределение?

Настоящая статья является продолжением материала глоссария Бимодальное распределение и публикации О бимодальном распределении и полиэтилене низкого давления.

Цель: определить, какие виды распределений ƒ могут получаться при смешивании двух нормальных распределений:

ƒ = aƒ(µ1, σ1) + (1-a)ƒ(µ2, σ2)

в зависимости от различий в значениях средних (µ1, µ2).

В этой статье будет проведен визуальный анализ влияния разницы средних (µ1, µ2).

Для визуального анализа графического вида бимодальных распределений использовались средства демонстрационного графического калькулятора, позволяющего моделировать смеси нормальных распределений, варьируя средние значения (µ1, µ2), стандартные отклонения(σ1, σ2) и фракционный коэффициент (а).

аб

Рисунок 1: графики бимодальных распределений, полученные смешением в равной пропорции (параметр а=0,5) двух нормальных распределений с одинаковыми стандартными отклонениями (σ12=1) при совпадающих (а) и различных средних значениях (б): а – µ12=0; б – µ1=-2; µ2=2


Полученные результаты

аг
бд
ве

Рисунок 2: графики бимодальных распределений, полученные смешением в равной пропорции (параметр а=0,5) двух нормальных распределений с одинаковыми стандартными отклонениями (σ12=1) при значениях средних: а – µ12=0; б – µ1=-1; µ2=0,5; в – µ1=-1; µ2=1; г – µ1=-2; µ2=2; д – µ1=-2; µ2=2; е – µ1=-3; µ2=3


Рисунок 3: семейство бимодальных распределений, полученное смешением двух нормальных распределений (1) в равных соотношениях путем увеличения расстояния между их средними значениями Δ (Δ=µ12): 2а – 0σ; 2б – 1,5σ; 2в –2σ; 2г – 3σ; 2д – 4σ; 2е – 6σ


Выводы:
При смешении в равных соотношениях двух нормальных распределений, отличающихся значениями средних Δ=|µ12|, получается:

  1. Унимодальное распределение в диапазоне 0<Δ<2σ, плотность вероятности которого внешне напоминает кривую нормального распределения (рис. 3, кривые 2а, 2б).
  2. При значениях 1,5σ<Δ<2σ унимодальность сохраняется, но пик сглаживается и превращается в плоскую крышу (рис. 3, кривая 2в).
  3. При значениях Δ>2σ на кривой явно проявляются 2 пика (рис. 3, кривые 2г, 2д).
  4. В диапазоне Δ>6σ пики разделяются (рис. 3, кривая 2е).

UPD 02.06.2015: Часть 2

Результаты моделирования бимодальных распределений, рассмотренные выше, показали, что при статистической обработке данных исследователь может быть введен в заблуждение внешним видом кривой смесевого распределения. В результате смесевое распределение может быть ошибочно принято за унимодальное (нормальное, логнормальное и т.п.). Особую опасность представляет диапазон соотношений параметров исходных распределений, при которых еще сохраняется унимодальность составного распределения.

Можно ли избежать ошибок при определении двумодальности распределения и как это сделать?

Цель: оценить возможности Minitab для выявления двух мод в экспериментальной выборке и расслоения (стратификации) смесевого распределения на унимодальные составляющие компоненты.

Объекты исследования

В Minitab выполнена генерация выборок нормальных распределений (приложение 1) с заданными параметрами (μ и σ). Статистики сгенерированных выборок (Mean и StDev) проверены с помощью команды Stat > Basic Statistics > Graphical Summary и представлены в таблице 1.

Таблица 1 – Нормальные выборки, сгенерированные в Minitab

СтолбецЗаданные параметры при генерацииПараметры сгенерированных выборок
MeanStandard deviationNumber of rowsMeanStDevP-Value*
С1-111000-1.05461.00040.186
С20.5110000.492770.99570.860
С41110001.02590.99360.650
С61.5110001.52250.98470.037
С84110003.99250.98120.312
* Confidence level = 95.0

Выборки бимодальных распределений получены путем объединения двух столбцов в меню Data > Stack > Stack Columns (приложение 2). Статистики смешанных (из 2-х нормальных выборок) выборок приведены в таблице 2.

Таблица 2 – Бимодальные выборки, полученные в Minitab

СтолбецМетод полученияПараметры выборки
NMeanStDevP-Value*
С3С1+С22000-0.280901.26274<0.005
С5С1+С42000-0.014351.44087<0.005
С7С1+С620000.233951.62662<0.005
С9С1+С820001.46902.7116<0.005
С11С1+С12000-1.05461.00020.009
C22С2+С220000.492770.995450.320
* Confidence level = 95.0

Обсуждение результатов

  1. Визуального анализа графической информации не всегда достаточно для того, чтобы определить отклонения от нормальности. Особую сложность представляют бимодальные распределения, полученные смешением двух нормальных распределений с близкими значениями средних и стандартных отклонений. Речь идет о диапазоне изменения параметров, в котором кривые плотности смесевых распределений имеют форму колокола. Внешний вид гистограмм таких распределений (приложение 2, C(11) и C(22)) совпадает c исходными (приложение 1, С1 и С2). Более того, возможны случаи, когда и обычная проверка на нормальность в Minitab для смешанных распределений этого типа дает положительный результат. Например, имеющиеся данные не позволяют отклонить предположение о нормальности выборки C(22), полученной смешением выборок С1+С1, поскольку значение P-Value=0,32 (табл. 2). Соответственно, и при дальнейшей статистической обработке такого класса смешанных распределений не встает вопрос об их стратификации (расслоении) на исходные компоненты. Тем более, что средствами Minitab это сделать очень сложно.
  2. При наличии теоретических предпосылок для двумодальности распределений в таких случаях можно воспользоваться либо специальными математическими методами и соответствующими программами стратификации данных (разделения пиков), либо изменить условия получения данных (например, изменить скорость нагрева или навеску образца при проведении термогравиметрического анализа).

  3. В условиях, когда разница между средними становится больше стандартного отклонения (на кривых плотности смесевого распределения верхний пик превращается в пологую крышу), средства Minitab достаточно уверенно: а) идентифицируют отклонения от нормальности; б) позволяют осуществить стратификацию смесевой выборки.
  4. Идентификацию и стратификацию бимодальных распределений можно осуществить, опираясь на графики временных рядов  (Times Series Plot). С увеличением различия в средних смесевых компонент эта процедура упрощается и при D>s бимодальность может быть выявлена «на глаз» при анализе соответствующих графиков (приложение 2, графики С3, С5, С7 и С9).

Наблюдение: полученные данные свидетельствуют о том, что Minitab не всегда добротно генерирует нормальные распределения. Например, из приложения 2 видно, что гистограмма выборки С6 с параметрами (Mean=1.5; Standard deviation=1; N=1000) в какой-то мере напоминает бимодальное распределение. В нормальности сгенерированного распределения позволяет усомниться и значение P-Value=0,037 (табл. 1).

Заключение

  1. Смесь двух нормальных распределений не всегда имеет два ярко выраженных горба. Смесевое распределение может быть и унимодальным и при определенных обстоятельствах даже сохранять признаки нормальности.
  2. В практической деятельности не стоит ограничиваться определением двумодальности распределения только «на глаз». При наличии теоретических и практических предпосылок двумодальности следует подойти к анализу имеющейся выборки с разных сторон. «Звоночком» могут служить отрицательные результаты теста куполообразного распределения на нормальность.
  3. При стратификации (разделении) бимодального распределения с ярко выраженными модами можно использовать графики временных рядов.

Приложения


UPD 15.06.2015: Часть 3

Настоящая статья продолжает цикл публикаций о бимодальном распределении. Цель: определить, как фракционный коэффициент (а) влияет на вид кривых ƒ, которые получаются при смешивании двух нормальных распределений:

ƒ = aƒ(µ1, σ1) + (1-a)ƒ(µ2, σ2)

Для визуального анализа графического вида бимодальных распределений использовались средства демонстрационного графического калькулятора. Варьированию подвергались: значения фракционного коэффициента (а) от 0,5 до 0,9 и расстояния между модами исходных нормальных распределений (Δ = |µ12| ) от 1σ до 3σ.

Полученные результаты

Рисунок 1 – Графики распределений (красный цвет), полученные смешением двух нормальных распределений (бирюзовый цвет) с одинаковыми стандартными отклонениями (σ12=1) в различных соотношениях (а) и Δ (Δ1 = 1σ; Δ2 = 2σ; Δ3 = 3σ)


Рисунок 2 – Семейства бимодальных распределений (Δ = |µ12| = 2σ), полученные смешением двух нормальных распределений (6: µ1=-1; µ2=1; σ12=1) при значениях фракционного коэффициента (a): 1 – 0,5; 2 – 0.6; 3 – 0,7; 4 – 0,8; 5 – 0,9


Рисунок 3 – Семейства бимодальных распределений (Δ = |µ12| = 3σ), полученные смешением двух нормальных распределений (6: µ1=-1,5; µ2=1,5; σ12=1) при значениях фракционного коэффициента (a): 1 – 0,5; 2 – 0.6; 3 – 0,7; 4 – 0,8; 5 – 0,9


Выводы:

  1. При смешении двух нормальных распределений в различных соотношениях (варьируя фракционным коэффициентом (а)) получаем:
    • унимодальное распределение в диапазоне 0<Δ<2σ, плотность вероятности которого внешне напоминает кривую нормального распределения (рис. 1, серия кривых с µ1=-0.5, µ2=0.5);
    • при значениях Δ, близких к 2σ, плоская крыша (риc. 2, кривая 1) с ростом отклонения от а=0.5 превращается в ярко выраженный унимодальный пик (рис. 1, серия кривых с µ1=-1, µ2=1; рис. 2, кривые 2-5);
    • при значениях 2σ<Δ<3σ с увеличением коэффициента  (а) второй пик сглаживается  и при значениях а>0,8 пропадает.
  2. Полученные результаты могут быть полезны при установлении вида кривой распределения и дальнейшей оценке параметров распределения частиц по размерам в процессах измельчения, кристаллизации,  полимерного синтеза и т.п.
27.05.2015 / 3125 / Загрузок: 0 / Суворов Константин Александрович / | Теги: Minitab, статистика, Бимодальное распределение, шесть сигм
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2020            Хостинг от uWeb