Общая линейная модель (General Linear Model)

Предположим, что один из известных винных клубов провел специальный вечер дегустации для своих членов. В течении мероприятия все присутствующие могли продегустировать три сорта испанских вин: Матадор, Конкистадор и Сета. Также присутствовали два известных винных критика, чтобы выразить свое мнение с помощью оценок. Менеджер местного винного магазина собрал их оценки и сейчас пробует определить, существуют ли значительные отличия в качестве и вкусовых характеристиках этих трех марок вина. Он хотел бы выбрать одно из вин, чтобы выставить в своем магазине в течение следующих нескольких недель.

Двое судей дегустировали вина в произвольном порядке и оценивали органолептические характеристики по 40 бальной шкале. Итак, получилась таблица со следующей информацией:

  • Марка вина (Matador, Conquistador и Saeta).
  • Судья (Antonio и Carmen).
  • Расположение виноградника, в котором был выращен виноград для производства вина.
  • Оценка судей.


Рисунок 1: Исходные данные

Используя эти данные, менеджер хотел бы узнать:

  • Зависит ли оценка от вида дегустируемого вина, происхождения винограда, или судьи, который дает оценку?
  • Какая марка вина имеет самую высокую оценку?
  • Комбинация каких факторов дает самую высокую оценку?

Что такое Общая Линейная Модель (GLM)?

Общая Линейная Модель – это, своего рода, дополнение к одностороннему (однофакторному) дисперсионному анализу (ANOVA). Она во многих ситуациях определяет дисперсионный анализ, включая сбалансированные и несбалансированные дизайны, ковариационный анализ (ANCOVA), и многое другое. GLM может использоваться при выполнении дисперсионного анализа, в случаях, когда серии результатов измерений отклика (зависимой переменной) соответствуют постоянные значения независимых переменных (предикторов). Например, при проведении деструктивных исследований, точных или случайных значениях факторов, смешанных моделей, сбалансированных или несбалансированных дизайнов, или длительных прогнозах.

Расчет общей линейной модели в Minitab

В описанном выше примере присутствуют три переменные: марка вина, судья и регион происхождения. Все переменные будут исследованы в ходе расчета общей линейной модели, но для начала рассчитаем основные описательные статистики:

  1. Выберите Stat > Tables > Descriptive Statistics.
  2. Определите переменные; в данном примере в ячейку For rows – марку вина, For columns – судей, For layers – происхождение:

  3. Рисунок 2: Окно конфигурации Table of Descriptive Statistics

  4. Кликните Categorical Variables и снимите все флажки:

  5. Рисунок 3: Окно конфигурации Categorical Variables

  6. Кликните Associated Variables.
  7. В открывшемся окне в поле Associated Variables укажитеScore.
  8. Убедитесь, что отмечена позиция Means.

  9. Рисунок 4: Окно конфигурации Associated Variables

  10. Нажмите OK.

Результаты исследования появятся в окне Session в виде таблицы, сравнивающей средние оценки по каждому показателю: марка, судья, происхождение:


Рисунок 5: Результаты анализа

Оценивая полученные результаты, можно смело утверждать, что оценки судей лишь незначительно разнятся при оценке одного сорта вина. Однако, наблюдается разница в средних оценках вин в зависимости от марки и места происхождения. Учитывая эту разницу, следует более детально изучить влияние комбинации факторов сорт-происхождение на органолептические показатели вина.

Попробуем воспользоваться графиками индивидуальных значений (Individual Value Plot):

  1. Выберите Graph > Individual Value Plot.
  2. В категории One Y выберите With Groups.
  3. Определите Graph Variables и Categorical Variables, в этом случае Score (оценка судей), Wine (сорт вина) и Location (регион происхождения), соответственно.

  4. Рисунок 6: Окно конфигурации Individual Value Plot

  5. В окне Data View установите флажок напротив Individual symbols, Mean symbol и Mean connect line.

  6. Рисунок 7: Окно конфигурации Data View

  7. В поле Categorical variables for attribute assignment укажите колонку с сортом вина (Wine) и нажмите OK.

Полученный график имеет следующий вид:


Рисунок 8: График индивидуальных значений (Individual Value Plot)

Линия соединяет средние значения каждой группы. Как показывает рисунок 7, вина, производимые из виноградников северных регионов, в среднем получили более высокие оценки, чем те, что на юге. Есть также очевидная разница между тремя марками вин: Saeta получило, в среднем, высшую отметку.

Итак, чтоб определить который из факторов значительно повлиял на оценку судей, менеджер магазина использует расчет общей линейной модели (General Linear Model):

  1. Выберите Stat > ANOVA > General Linear Model > Fit General Linear Model.
  2. В ячейке Responses укажите зависимую переменную, в данном случае – оценка.
  3. В поле Factors, задаем независимые переменные - Wine, Judge и Location.
  4. Нажмите OK.

Результаты появятся в окне Session:


Рисунок 9: Общая линейная модель

Так же, как и в однофакторном дисперсионном анализе (One Way ANOVA), основным показателем таблиц является значение P – вероятность. Используя правило 0.05, можно сделать заключение, что вид вина и расположение виноградника статистически значимы в определении общей оценки. То же заключение можно сделать, проанализировав диаграммы основных влияний (Main Effects Plot), так как среднее значение оценки изменяется в зависимости от марки вина и расположения виноградников.

  1. Выберите Stat > ANOVA > General Linear Model > Factorial Plots.
  2. В появившемся окне, в строке Response укажите колонку оценок (Score), а в поле Selected Values to Include in Plots – все независимые переменные (Wine, Judge и Location).

  3. Рисунок 10: Окно конфигурации Factorial Plots

  4. Нажмите OK.


Рисунок 11: Диаграмма основных влияний (Main Effects Plot)

Точки на диаграмме основных влияний соответствуют средним значениям оценок различных уровней каждого фактора. Линии, соединяющие средние значения уровней, подчеркивают изменение оценки в зависимости от уровня. Как следует из графика, средняя оценка изменяется в зависимости от марки вина и расположения виноградников. Другими словами, марка вина и расположение виноградника существенно определяют оценку.

Диаграмма дает наглядное представление о влиянии каждого фактора на органолептические показатели вина: к примеру, четко видно, что оценка лишь незначительно зависит от судьи по сравнению с другими факторами, что также объясняется высокими значениями p-value в таблице результатов дисперсионного анализа. Графики также однозначно указывают на наилучшую марку вина – Saeta, произведенную на севере Испании.

Выводы

Итак, менеджер получил ответы на свои первоначальные вопросы:

  • На оценку вина значительно влияют марка и расположение виноградников.
  • Вино Saeta заслужило самую высокую оценку судей: в среднем 28,48 с севера Испании и 24,48 с юга.
  • Saeta из северных регионов Испании получило, в среднем, самую высокую оценку.

Обладая этой информацией, менеджер может представить северо-испанское Saeta как особое вино в своем магазине.

21.08.2009 / 3859 / Загрузок: 20 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb