Базовые операции в R. Часть 4

Одной из важнейших задач первичного анализа данных является изучение закона распределения наблюдаемой величины. В зависимости от поставленных задач, исследователь может прибегнуть к визуальной оценке распределения, изучению выбросов, хвостов или аномалий, проверке согласия распределения с определенным законом (например, нормальным) и т.д.

Для визуальной оценки распределения чаще всего используют гистограммы. Создадим набор значений, подчиняющихся нормальному закону распределения, и построим простейшую гистограмму:

> x<-rnorm(100, 0, 1)
> hist(x)

Реже используют ящичные диаграммы:

> boxplot(x)

Альтернативный способ визуализации распределения величины – график плотности вероятности:

> plot(density(x))

С помощью следующей команды на гистограмму можно нанести кривую нормального распределения:

> hist(x)
> xfit<-seq(min(x),max(x),length=100)
> yfit<-(dnorm(xfit,mean=mean(x),sd=sd(x)))*diff(hist(x)$mids[1:2])*length(x)
> lines(xfit, yfit)

Унимодальные распределения, неподверженные асимметрии (в том числе и нормальное), обладают той особенностью, что среднее арифметическое, медиана и мода близки (идеальный вариант – все значения равны между собой). Рассчитав указанные статистики:

> mean(x)
[1] -0.0214007
> median(x)
[1] 0.09739521
> density(x)$x[which.max(density(x)$y)]
[1] 0.2171224,-

можно нанести их на график плотности вероятности или гистограмму. Например:

>hist(x)
>abline(v=mean(x), col="red")
>abline(v=median(x), col="yellow")
>abline(v= density(x)$x[which.max(density(x)$y)], col="green")

Наличие асимметрии можно диагностировать по порядку расположения выбранных статистик:

  • при левосторонней асимметрии – среднее арифметическое – медиана – мода;
  • при правосторонней асимметрии – мода – медиана – среднее арифметическое.

Если значения выстраиваются в какой-либо другой последовательности, возможно, распределение переменной би- или полимодальное.

Для анализа асимметрии по величине скоса (Skewness) необходимо предварительно установить пакет “moments”. С помощью этого пакета мы также сможем проверить эксцесс (Kurtosis) – “остроту пика” распределения. Алгоритм анализа выглядит следующим образом:

> install.packages("moments")
> library("moments")
> skewness(x)
[1] -0.3032459
> kurtosis(x)
[1] 3.188327

Отрицательный показатель скоса (Skewness) свидетельствует о незначительной левосторонней асимметрии, а положительный эксцесс (Kurtosis) – о более островершинной форме кривой функции вероятности распределения. Следует учесть, что равенство средних значений (среднего арифметического, медианы и моды) и отсутствие асимметрии еще не доказывают подчинение распределения величины нормальному закону. Логистическое распределение и распределение Лапласа также удовлетворяют этим условиям. Однако показатель эксцесса для этих распределений будет выше 0 – значения эксцесса нормального распределения.

Если в целях последующего исследования достаточно проверить, с какой вероятностью распределение наблюдаемой величины можно описать нормальным законом, то после визуальной оценки гистограммы следует провести тест гипотезы. С механизмом проверки согласия закона распределения с нормальным читатель может ознакомиться в статье Проверка гипотез о нормальности распределения.

09.04.2012 / 2558 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2020            Хостинг от uWeb