Базовые операции в R. Часть 1

Серия материалов Базовые операции в R призвана для того, чтобы ближе познакомить читателя с программной средой R и закрыть белые пятна между статьями, вышедшими в свет ранее на нашем сайте. Мы также рекомендуем читателю ознакомиться с публикацией Статистика с большой буквы или R, чтобы узнать об истории развития этого языка и общих принципах работы с ним.

Работая с примерами этого цикла публикаций, Вы сможете самостоятельно, начиная с азов, освоить R и постепенно научиться выполнять вычисления простой и средней сложности. Кроме того, изучив все материалы этой серии, для Вас не составит труда применить и более сложные методики анализа, описанные на нашем сайте. Мы также рекомендуем настоящий цикл материалов как отправную точку для участников наших on-line курсов шести сигм, отдавшим предпочтение R в качестве среды анализа в своих проектах.

Итак, в первой статье мы познакомимся со способами расчета некоторых показателей, объединенных под общим понятием описательных или базовых статистик. Сюда принято относить среднее значение (среднее арифметическое, медиана, мода), минимальное и максимальное значения, разброс, вариацию и стандартное отклонение, квартили и процентили…

В качестве набора результатов наблюдений создадим ряд значений, подчиняющихся нормальному закону распределения, состоящий из 100 наблюдений со средним арифметическим 50 и стандартным отклонением 5. Рабочий файл прикреплен к статье и доступен всем зарегистрированным пользователям. Вы всегда можете сгенерировать подобные значения самостоятельно, применив команду:

> x<-rnorm(100, 50, 5)

Чтобы сохранить эти значения введите еще одну команду:

> write.csv(x, file="data.csv")

Теперь сгенерированный набор значений находится в папке Мои документы в файле data.csv. Его можно в любой момент вызвать, введя команду:

> read.csv(file="data.csv", header=TRUE, sep=",", dec=".")

или присвоить значения какой-либо переменной:

> x<-read.csv(file="data.csv", header=TRUE, sep=",", dec=".")

Теперь рассчитаем среднее арифметическое значение:

> mean(x)
[1] 50.33122

В R вы всегда можете задать алгоритм расчета, если не уверены или не знаете какой командой его осуществить. Так, к примеру, среднее арифметическое значение представляет собой сумму всех значений, разделенных на их количество. Таким образом, среднее арифметическое можно рассчитать с помощью команды:

> sum(x)/100
[1] 50.33122

Чтобы рассчитать медиану введите команду:

> median(x)
[1] 50.56743

А вот для моды стандартной команды в R не предусмотрено, поэтому используйте следующее выражение:

> density(x)$x[which.max(density(x)$y)]
[1] 50.8236

Минимальное и максимальное значения можно рассчитать, используя следующие команды, соответственно:

> min(x)
[1] 39.44106
> max(x)
[1] 65.11346

Стандартная команда range, отражает диапазон значений в формате “от-до” (от минимального значения до максимального):

> range(x)
[1] 39.44106 65.11346

Для того, чтобы действительно рассчитать разброс, необходимо ввести следующую команду:

> max(x)-min(x)
[1] 25.6724

С помощью следующего выражения можно рассчитать вариацию значений:

> var(x)
[1] 22.76251

Квадратный корень этого значения покажет стандартное (среднеквадратическое) отклонение:

> sqrt(var(x))
[1] 4.771007

Последний показатель можно также рассчитать с помощью специальной функции расчета стандартного отклонения:

> sd(x)
[1] 4.771007

Чтобы рассчитать квартили введите команду:

> quantile(x)
      0%      25%      50%      75%     100%
39.44106 47.04634 50.56743 52.57987 65.11346

Полученные результаты показывают минимальное значение, первый, второй, третий и четвертый квартили.

Чтобы рассчитать какой-либо процентиль (квантиль), воспользуйтесь командой:

> quantile(x, c())

В аргументе вектора “c” следует указать соответствующие доли от единицы. Например, чтобы рассчитать 30, 60 и 90% квантили введите команду:

> quantile(x, c(.30, .60, .90))
     30%      60%      90%
48.52572 51.30114 56.32634

Существую также команды для вызова стандартного набора описательных статистик. Например:

> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  39.44   47.05   50.57   50.33   52.58   65.11

или

> fivenum(x)
[1] 39.44106 47.02794 50.56743 52.61602 65.11346

С помощью последней команды получают минимальное значение, первый квартиль, медиану, третий квартиль и максимальное значение.

Все эти команды являются базовыми – встроенными в R. Кроме стандартных команд, существует немало различных пакетов, которые позволяют, как автоматизировать процесс расчёта, так и применить некоторые другие алгоритмы расчета статистических величин.

20.02.2012 / 8559 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb