Интерпретация гистограмм

В предыдущей статье мы рассмотрели общие положения, а также обратили внимание на некоторые особенности построения гистограмм, определяющие корректность представляемой информации. В этой – рассмотрим какую информацию можно "прочесть” с гистограмм и как это сделать.

Представление данных в виде диаграмм и графиков преследует цель подать информацию в наглядном и понятном виде. Таким образом, важнейшими характеристиками любых диаграмм являются информативность и доступность тех данных, которые представлены с их помощью.

Несмотря на то, что гистограмма является достаточно простым и легким для восприятия графиком, представление данных с ее помощью требуют от исследователя определенного опыта, а от постороннего человека – понимания принципов построения и анализа гистограмм. Само собой разумеется, что гистограмма, построенная "своими руками”, будет понятна Вам, но для человека, не знакомого с результатами наблюдений (или процессом, который описывают результаты наблюдений), Ваш график может показаться не столь очевидным. Насколько построенная Вами гистограмма буде информативна и понятна стороннему наблюдателю, определяет в конечном итоге то, как будет воспринята информация, которую Вы показываете с ее помощью.

На что же следует обратить внимание, рассматривая прямоугольники, составляющие гистограмму? И как построить гистограмму, чтобы информация, преподносимая с ее помощью, была понятна всем?

Во-первых, не следует пренебрегать атрибутами стандартного графика: название гистограммы, величины и размерности осей X и Y – это первое, на что обращает внимание опытный исследователь. Во-вторых, представляя данные в виде гистограммы, Вы должны быть уверенны, что этот тип диаграмм наилучшим образом отражает ту информацию, которую Вы пытаетесь показать. К примеру, разница между столбчатой диаграммой (Bar Chart) и гистограммой базируется в основном на различии количественных и качественных данных. Качественные данные отличаются типом, но не степенью – они не могут быть измерены. Количество членов каждой партии в совете не может быть представлено гистограммой, так как не представляет одну популяцию.

Наиболее пригодны гистограммы для графического представления частотных распределений числовых рядов и данных, разбитых на интервалы (наблюдения группированы для наилучшего представления распределения).

Визуальная оценка гистограмм позволяет воспринять ряд статистических показателей:

  • распределение наблюдений;
  • наибольшую концентрацию данных – моду;
  • минимальное и максимальное значения;
  • разброс;
  • степень асимметрии (скос);
  • эксцесс;
  • наличие явных выбросов;
  • возможное присутствие нескольких распределений (популяций);
  • ширину интервалов – дистанция между правым и левым краями частотной ячейки по оси X;
  • количество интервалов – общее (в том числе и нулевые значения) количество частотных ячеек гистограммы

Кроме того, с помощью гистограмм можно удобно представить:

  • среднее арифметическое значение;
  • среднее медиану
  • стандартное отклонение и дисперсию.

Большинство пакетов статистической обработки данных содержит встроенную функцию расчета описательных статистик и вывода графического отчета:

Рассмотрим на этом примере некоторые особенности интерпретации данных с помощью гистограмм:

  1. Форма гистограммы с некоторым приближением напоминает "перевернутый колокол” и довольно точно описывается аппроксимирующей кривой (идеализированной функцией нормального распределения).
  2. Вероятность того, что наблюдения подчиняются нормальному закону распределения (p-value) составляет 0, 362, что значимо выше 0,05.
  3. Эксцесс (Kurtosis), числовая характеристика степени остроты пика, близок к 0 (-0,008).

Исходя из пунктов 1-3, можем считать рассмотренный набор значений удовлетворяющим нормальному закону распределения.

  1. Доля всех значений в определенном интервале гистограммы равна его площади (вся площадь гистограммы принимается равной единице, или 100%). Площадь интервала, соответственно, определяет вероятность того, что следующее наблюдение попадет в заданный диапазон результатов. Таким образом, самый высокий столбик гистограммы отвечает интервалу наиболее вероятных результатов.
  2. В рассмотренном примере среднее арифметическое значение (Mean) и медиана (Median) попадают за пределы этого интервала – находятся справа от него.
  3. Показатель асимметрии – скос (Skewness) равен 0,173 – выше 0.

Исходя из пунктов 4-6, можно сделать вывод о наличии незначительной положительной асимметрии, вызванной, скорее всего, влиянием выбросов – двух наблюдений, объединенных отдельным столбиком справа.

  1. Гистограмма содержит всего один четко выраженный пик, следовательно, доказательств присутствия данных из разных популяций не обнаружено.

Гистограммы являются одним из наиболее важных статистических инструментов анализа данных. Представление результатов наблюдений с их помощью позволяет исследователю оценить ряд статистических показателей, сделать выводы о функции распределения и определить возможные отклонения, а также сравнить два набора данных (в частности, результаты до и после произведенных действий или внедрения проектов). Гистограммы также являются незаменимым инструментом при работе с большими массивами данных, так как позволяют в простой и доступной форме визуализировать весь набор результатов.

16.05.2011 / 6046 / Загрузок: 21 / Andrew /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb