Сравнение двух массивов данных с помощью гистограмм

В предыдущей статье мы рассмотрели общие принципы построения гистограмм и некоторые тонкости представления данных с их помощью. В настоящей публикации мы обратим внимание на сравнение разных групп данных, используя гистограммы.

Все операции будут проведены с использованием программного обеспечения Minitab. Исходные данные и результаты анализа Вы сможете найти в прикрепленном файле, который доступен всем зарегистрированным пользователям.

Задать две и более группы данных, для построения гистограммы, позволяют опции “With Outline and Groups” и “With Fit and Groups” (две иконки, расположенные в нижнем ряду главного окна “Histograms”). В меню Graph выберите Histogram…, а затем With Outline and Groups:

В поле “Graph variables:” необходимо задать столбцы значений, которые мы хотим сравнить и отметить опцию “Graph variables form groups” флажком. В противном случае, гистограммы будут построены в двух разных окнах.

Если разные выборки находятся в одном столбце, то следует дополнительно указать программе атрибут для их различия (группирования) в поле “Categorical variables for grouping (0-3)”:

По умолчанию, построенная гистограмма будет состоять из обрамленных областей, цвет которых соответствует отдельному массиву данных. Тем не менее, вид гистограммы можно изменить, используя одну из четырех опций, рассмотренных ниже.

Для сравнения аппроксимированных распределений данных, используем опцию “With Fit and Groups”:

С помощью правого клика мыши непосредственно на самом графике можно открыть дополнительное меню настройки внешнего вида гистограммы. В появившемся списке выберите Add  Data Display и вместо Area, отметьте флажком Bars:

Таким образом, получаем довольно красочное сопоставление групп данных, являющееся, в принципе, сочетанием обоих вариантов, рассмотренных выше:

Рассматривать все возможности и тонкости настройки гистограмм в настоящей статье мы не будем, так как большинство из них являются общими для всех графиков, построенных в Minitab. Тем не менее, главным и специфическим опциям, предназначенным только для гистограмм, уделим отдельное внимание. Одной из таких опций является “Binning” – дискретизация. Она используется для настройки деления данных на интервалы и позволяет выбрать их количество, а также, тип разбиения.

Для того, чтобы войти в меню настройки дискретизации, необходимо кликнуть два раза левой клавишей мыши в поле данных гистограммы (непосредственно по прямоугольниках), и выбрать в появившемся окне закладку “Binning”:

Настройки по умолчанию: Interval Type – Midpoint (значения по оси X будут расположены в центре частотных ячеек); Interval Definition – Automatic (количество интервалов определяется программой). Выбирая Cutpoint в поле Interval Type, мы сдвигаем интервалы данных таким образом, что значения по оси X будут лежать в точках состыковки прямоугольников - интервалов данных, а установив флажок напротив Number of intervals в поле Interval Definition, можем задать необходимое количество интервалов для гистограммы.

Например, гистограммы группированных данных, рассмотренные выше, при некотором изменении настроек, можно представить следующим образом:

Разумеется, происхождение данных, что они обозначают и цели анализа программе неизвестны. Именно поэтому настройка и оформление гистограмм при правильном подходе значительно увеличивают их информативность. Множество дополнительных опций, в том числе изменение цветовых гамм, типов и толщины линий, изменений форм и размеров фигур, являются, безусловно, очень полезными при построении и оформлении гистограмм. Главное – не переусердствовать и всегда сохранять понимание того, что является одним из основных преимуществ гистограмм – простота и доступность понимания как для Вас, так и для того, кому Вы её представляете.

06.06.2011 / 3310 / Загрузок: 18 / NickX /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb