Корреляционный и регрессионный анализ

Корреляционный анализ служит для определения взаимосвязи между двумя переменными. Корреляция – это мера зависимости одного показателя от другого. Следует уточнить, что речь идет о корреляции Пирсона и, соответственно, линейной зависимости. В случаях не линейной зависимости, корреляция будет сильно искажена, а коэффициент корреляции не будет отвечать действительности. То же самое относиться и к выбросам – корреляция сильно подвержена воздействию случайных значений.

Основной характеристикой корреляционной зависимости является коэффициент корреляции r. На основании его величины судят о наличии, силе и значимости корреляции. Практически, коэффициент r указывает на то, каким образом изменяется один параметр в зависимости от изменения другого:

  • если прирост одного параметра сопровождается приростом второго, то корреляция называется позитивной, а величина коэффициента r составляет положительное значение;
  • если прирост значений одного параметра сопровождается снижением значений второго, то корреляция называется негативной, а величина коэффициента r составляет отрицательное значение.

Для изучения корреляционной зависимости необходимо проанализировать последовательные значения двух наблюдаемых величин. Возьмем, к примеру, руководителя банка, сравнивающего показатели годового дохода клиентов и суммы их ипотечных кредитов. Цель, которую он преследует – определить зависимость размера ипотеки от годового дохода клиента. Итак, следует выяснить:

  • Есть ли какое-нибудь соотношение между годовым доходом и суммой ипотечного кредита?
  • Есть ли математическая формула, которая описывает это взаимоотношение?
  • Какая сумма ипотечного кредита может потребоваться клиенту с годовым доходом 20 000£?

Расчет корреляционной зависимости

Корреляционный анализ – это, прежде всего, графическая оценка зависимости наблюдаемых величин. Для графического анализа взаимосвязи между наблюдаемыми величинами, используют диаграммы рассеяния. Для построения диаграммы в пакете статистического анализа Minitab, выполните следующие действия:

  1. Выберите Graph > Scatterplot.
  2. Выберите Simple > OK.
  3. Введите зависимую переменную – y (в данном случае ипотечный кредит) и независимую переменную – x(в данном случае доход).
  4. Нажмите OK.

Как следует из диаграммы, существует видимое линейное взаимоотношение между годовым доходом и суммой ипотечного кредита. Проводя более глубокий анализ, можно рассчитать коэффициент корреляции, отображающий это взаимоотношение.

Существует три граничных значения коэффициента корреляции:

  • если r=1 – существует сильная позитивная корреляция;
  • если r<=-1 – существует сильная негативная корреляция;
  • если r=0 – корреляционная зависимость отсутствует.

Для расчета коэффициента корреляции выполните следующие действия:

  1. В меню Stat > Basic Statistics > Correlation.
  2. В диалоговом окне Variables укажите переменные, годовой доход и ипотечный кредит, в данном примере.
  3. Нажмите OK.

Результаты анализа появятся в окне Session:

Значение r составляет 0.949, что очень близко к 1, соответственно, можно заключить, что существует сильная корреляция между доходом и кредитом. Кроме того, значение P-Value равно 0, что свидетельствует о статистической значимости данной зависимости.

В данном случае, если значение вероятности (P-Value) ниже чем α (0,05) то нулевая гипотеза (H0) о том, что отсутствует взаимосвязь между переменными, может быть отклонена.

Расчет регрессионной модели

Установив наличие зависимости между переменными, можно рассчитать модель или уравнение этой зависимости – регрессию. С помощью данной модели можно будет предсказать величину одной переменной, используя величину второй и наоборот. Другими словами, руководитель банка сможет предсказать сумму требуемого ипотечного кредита, основываясь на данных о годовом доходе клиента.

Для расчета уравнения регрессии в пакете Minitab выполните следующие действия:

  1. В меню Stat > Regression > Regression выберите Fit Regression Model.
  2. Определите отклик в ячейке Response и независимые (может быть несколько) переменные в поле Predictors. В данном примере ипотечный кредит и годовой доход, соответственно.
  3. Нажмите OK.

Результаты анализа появятся в окне Session:

Полученное уравнение регрессии может быть использовано для определения суммы ипотеки, основываясь на годовом доходе клиента. К примеру, рассчитаем сумму ипотечного кредита, которая может потребоваться клиенту с годовым доходом 20 000£.

Уравнение регрессии:

    Mortgage = 1656 + 6,029 Income (Ипотечный кредит = 1 656 + 6,029 × Годовой доход)
    1 656 + 6,029 × 20 000 = 122 236

Таким образом, сумма ипотечного кредита составляет 122 236£ для клиента с годовым доходом 20 000£.

Полученное уравнение можно использовать и наоборот. Например, можно определить величину годового дохода клиента, основываясь на размере ипотечного кредита. Рассчитаем годовой доход клиента, взявшего 150 000£ ипотеки:

    150 000 = 1 656 + 6,029 × Годовой доход или (150 000 – 1 656) / 6,03 = Годовой доход

Итак, при сумме ипотечного кредита 150 000£, предполагаемый годовой доход должен составлять 24 600£.

Все описанные расчеты можно проводить в автоматическом режиме:

  1. В меню Stat > Regression > Regression выберите Predict...
  2. Внесите величину независимой переменной (в нашем примере – 20 000)
  3. Нажмите OK.

Результаты анализа появятся в окне Session:

Предполагаемая сумма ипотечного кредита находится в колонке Fit. Как видно, значение, рассчитанное вручную очень близко к полученному результату. Выполнив действия, описанные выше можно также рассчитать годовой доход клиента исходя из размера ипотечного кредита.

Выводы

Благодаря проведенному корреляционному анализу и расчету регрессии, руководитель банка получил ответы на свои вопросы:

  • Существует сильная положительная корреляция между годовым доходом клиента и суммой ипотечного кредита: чем выше доход клиента, тем большая ипотека ему требуется.
  • Рассчитана математическая модель зависимости, на основании которой можно предсказать требуемую сумму ипотеки основываясь на данных о доходе.
  • Клиенту, с годовым доходом в 20 000£, вероятнее всего потребуется ипотека в размере 122 236£ (рассчитано вручную) или 122 240£ (рассчитано с помощью Minitab).
19.08.2009 / 6944 / Загрузок: 62 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb