Базовые операции в R. Часть 4

Одной из важнейших задач первичного анализа данных является изучение закона распределения наблюдаемой величины. В зависимости от поставленных задач, исследователь может прибегнуть к визуальной оценке распределения, изучению выбросов, хвостов или аномалий, проверке согласия распределения с определенным законом (например, нормальным) и т.д.

Для визуальной оценки распределения чаще всего используют гистограммы. Создадим набор значений, подчиняющихся нормальному закону распределения, и построим простейшую гистограмму:

    > x<-rnorm(100, 0, 1)
    > hist(x)

Реже используют ящичные диаграммы:

    > boxplot(x)

Альтернативный способ визуализации распределения величины – график плотности вероятности:

    > plot(density(x))

С помощью следующей команды на гистограмму можно нанести кривую нормального распределения:

    > hist(x)
    > xfit<-seq(min(x),max(x),length=100)
    > yfit<-(dnorm(xfit,mean=mean(x),sd=sd(x)))*diff(hist(x)$mids[1:2])*length(x)
    > lines(xfit, yfit)

Унимодальные распределения, неподверженные асимметрии (в том числе и нормальное), обладают той особенностью, что среднее арифметическое, медиана и мода близки (идеальный вариант – все значения равны между собой). Рассчитав указанные статистики:

    > mean(x)
    [1] -0.0214007
    > median(x)
    [1] 0.09739521
    > density(x)$x[which.max(density(x)$y)]
    [1] 0.2171224,-

можно нанести их на график плотности вероятности или гистограмму. Например:

    >hist(x)
    >abline(v=mean(x), col="red")
    >abline(v=median(x), col="yellow")
    >abline(v= density(x)$x[which.max(density(x)$y)], col="green")

Наличие асимметрии можно диагностировать по порядку расположения выбранных статистик:

  • при левосторонней асимметрии – среднее арифметическое – медиана – мода;
  • при правосторонней асимметрии – мода – медиана – среднее арифметическое.

Если значения выстраиваются в какой-либо другой последовательности, возможно, распределение переменной би- или полимодальное.

Для анализа асимметрии по величине скоса (Skewness) необходимо предварительно установить пакет “moments”. С помощью этого пакета мы также сможем проверить эксцесс (Kurtosis) – “остроту пика” распределения. Алгоритм анализа выглядит следующим образом:

    > install.packages("moments")
    > library("moments")
    > skewness(x)
    [1] -0.3032459
    > kurtosis(x)
    [1] 3.188327

Отрицательный показатель скоса (Skewness) свидетельствует о незначительной левосторонней асимметрии, а положительный эксцесс (Kurtosis) – о более островершинной форме кривой функции вероятности распределения. Следует учесть, что равенство средних значений (среднего арифметического, медианы и моды) и отсутствие асимметрии еще не доказывают подчинение распределения величины нормальному закону. Логистическое распределение и распределение Лапласа также удовлетворяют этим условиям. Однако показатель эксцесса для этих распределений будет выше 0 – значения эксцесса нормального распределения.

Если в целях последующего исследования достаточно проверить, с какой вероятностью распределение наблюдаемой величины можно описать нормальным законом, то после визуальной оценки гистограммы следует провести тест гипотезы. С механизмом проверки согласия закона распределения с нормальным читатель может ознакомиться в статье Проверка гипотез о нормальности распределения. Часть 2.

09.04.2012 / 2022 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb