Базовые операции в R. Часть 3

В настоящей публикации мы рассмотрим некоторые способы представления числовых рядов в виде простейших графиков, продолжим рассматривать способы настройки диаграмм в R, а также способы изучения взаимосвязи между двумя факторами – корреляцию. В качестве набора наблюдения я использую ряды данных, присвоенные переменным. Каждый ряд представляет координаты отдельных точек: координаты абсцисс присвоены переменной x, а ординат – y.

    > x<-c(3.9, 6.5, 3.7, 4.5, 5.0, 5.8, 3.3, 6.2, 3.6, 3.9, 5.1, 6.4, 4.2, 4.9, 6.0, 5.4, 4.4, 3.8, 6.7, 4.6, 4.3, 6.3, 5.2, 6.4, 6.2, 5.5, 2.7, 2.8, 5.4, 5.8, 6.6, 5.3, 4.2, 4.3, 4.0, 5.4)

    > y<-c(56, 55, 43, 55, 46, 54, 42, 63, 48, 45, 50, 58, 50, 54, 52, 50, 60, 53, 63, 51, 45, 60, 48, 61, 56, 46, 41, 43, 58, 60, 61, 55, 46, 53, 51, 56)

С помощью следующей команды мы представим результаты наблюдений в виде точек на плоскости декартовых координат:

    > plot(x, y)

Обратите внимание на положение переменных в аргументе функции – оно соответствует зависимой (y) и независимой (x) переменной. Если поменять их местами, то диаграмма примет несколько иной вид:

Попробуем видоизменить способ изображения наблюдений с помощью аргумента “type”. Значение аргумента может принимать одно из следующих значений:

  • "p" для точек (значение по умолчанию)
  • "l" для линий
  • "b" для точек и линий (раздельно)
  • "o" для точек и линий
  • "c" для пунктирных линий
  • "h" для вертикальных линий (разновидность гистограмм)

Используем соединительные линии:

    > plot(x, y, type="l")

Разумеется, в таком виде диаграмма становиться не только менее информативной, но и прячет всякую связь между переменными. Используем следующую команду, чтобы графически изобразить корреляционную зависимость между переменными:

    > abline(lm(y ~ x))

Функция abline() позволяет добавить на любой график прямую линию. В настоящем примере, мы записали в ее аргументе функцию lm(), указав, таким образом, что прямая линия должна отражать линейную зависимость переменных x и y.

Применив следующую команду, можно нанести линию, рассчитанную при помощи взвешенной локальной регрессии для каждого сглаживаемого значения данных – линию сглаживания:

    > lines(lowess(x, y))

Оба представленных метода помогают графически представить и оценить взаимосвязь между переменными, однако не дают возможности судить о силе этой взаимосвязи. Числовую оценку взаимосвязи – корреляцию, можно рассчитать с помощью функции:

    > cor(x,y)
    [1] 0.7432663

В аргументе команды следует указать метод расчета корреляции – method и способ выбора наблюдений – use:

    > cor(x, use="", method="")

Аргумент method, принимает одно из следующих значений: pearson, spearman или kendall, соответствующих расчету коэффициента корреляции Пирсона, Спирмена или Кендалля, а use – everything, all.obs, complete.obs, na.or.complete или pairwise.complete.obs, соответствующих различному подходу к анализу наблюдений и отсутствую отдельных значений числового ряда. Например:

    > cor(x,y, use="complete.obs", method="spearman")
    [1] 0.7316308

Таким образом, используя один из методов визуализации взаимосвязи между переменными и расчета корреляционной зависимости, результаты анализа можно представить одной иллюстрацией:

    > cor(x,y, method="pearson")
    [1] 0.7432663
    > plot(x, y, main="x-y correlation", sub="pearson correlation = 0.7432663")
    > abline(lm(y ~ x))

02.04.2012 / 1545 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb