Отличие гистограммы от других типов диаграмм и графиков

Забегая наперед, скажу, что гистограмма может принимать самые причудливые формы. Да и для построения этого графика могут применять не только прямоугольники – столбцы, но и кривые, точки, линии… Тем не менее, гистограмма – это также довольно специфический график, и путать его с другими типами диаграммами весьма нерационально.

Чаще всего гистограмму путают со следующими графиками:

  • Столбчатая и/или линейчатая диаграмма (Bar Chart).
  • Точечная диаграмма (Dotplot).
  • Диаграмма “лист и стебель” (Stem-and-Leaf).
  • Диаграмма распределения вероятностей (Probability Distribution Plot).
  • Диаграмма Парето (Pareto Chart).

Рассмотрим все по порядку.


Отличие гистограммы от столбчатой и/или линейчатой диаграммы

Гистограмма состоит из столбцов, поэтому неудивительно, что ее легко спутать с другой диаграммой, также состоящей из столбцов – столбчатой. Или линейчатой, если говорить о линейках/полосках вместо столбцов. Однако столбчатая и линейчатая диаграммы зачастую отражают количество наблюдений в атрибутивных (или дискретных) категориях, тогда, как у гистограммы по оси Х – непрерывные данные1:

Если диаграммы выше развернуть на 90°, то общие и отличные черты останутся без изменений:

Отдельным пунктом следует выделить диаграмму временного ряда, на которой отложены столбцы вместо точек или линий. У этой диаграммы, как и у гистограммы, по оси X отложены непрерывные данные – дата и/или время. Однако в отличие от гистограммы диаграмма временного ряда показывает наблюдения, упорядоченные во времени, а не распределение значений.

Давайте покажу на примере: сейчас многие носят смарт-часы, которые умеют считать шаги. Допустим, вот так может выглядеть диаграмма временного ряда, если ее сделать столбчатой:

По оси X у нас время в часах, по оси Y – количество шагов в час. Мы видим на диаграмме несколько часов, соответствующих отдыху. В эти часы количество шагов равно 0. Также мы видим несколько часов с большим количеством шагов. К примеру, в период с 14:00 до 16:00 зафиксировано более 1000 шагов в час. Глядя на диаграмму, мы можем сделать вывод о наиболее интенсивных периодах дня и времени отдыха.

Теперь давайте возьмем те же данные и построим гистограмму:

Это совсем другой график, не правда ли? Из него мы не сможем сделать вывод о том, когда в сутках у нас более активный период, а когда менее. Но мы можем наблюдать некое подобие экспоненциального распределения и утверждать только то, что в сутках мы чаще спим, чем ходим по 1600 шагов в час.

Больше о диаграммах временных рядов вы можете узнать из публикации Анализ временных рядов (Time Series Analysis).


Отличие гистограммы от точечной диаграммы (Dotplot)

И гистограммы, и точечные диаграммы отражают распределение переменной – с тем лишь отличием, что гистограммы чаще всего делают это с помощью столбцов, а точечные диаграммы – (только не удивляйтесь) с помощью точек.

Точечные диаграммы дают нам немного больше представления об индивидуальных наблюдениях, так как отражают каждое из них. Гистограммы, в отличие от них, объединяют наблюдения, которые попадают в один интервал, под одним столбцом. Это преимущество, однако, теряется с увеличением количества наблюдений, так как с увеличением количества единичных наблюдений близкие значения также группируют в точки.

Еще с помощью точечных диаграмм легче заметить “гранулы” – одинаковые значения:

Но чтобы добиться такого же от гистограммы, нужно либо поэкспериментировать с количеством интервалов, либо чтобы “гранулы” наблюдений находились действительно далеко друг от друга:

Больше о точечной диаграмме вы можете узнать из публикации DotPlot в деталях.


Отличие гистограммы от диаграммы “лист и стебель” (Stem-and-Leaf)

Диаграмма “лист и стебель” (Stem-and-Leaf) – это такой себе предшественник гистограммы. Этому графику посвящен отдельный пост на нашем сайте – Что за странный график из листьев и стеблей?, – поэтому вдаваться в детали и описывать его мы не будем. Вместо этого еще раз подчеркнем общие и различные свойства.

Диаграммы внешне выглядят по-разному, но отражают практически ту же информацию. “Лист и стебель” вполне подойдет для небольшого массива данных, и когда у вас нет под рукой программного обеспечения для построения гистограммы. Вот срочно вам понадобилось на производстве понять распределение наблюдений, а в кармане лишь карандаш и салфетка – рисуйте Stem-and-Leaf.

Гистограмма лучше справится с большим массивом данных и не потребует от вас округления наблюдений, так как недостаток низкого разрешения оставила своему предшественнику. Поэтому если есть возможность построить гистограмму, то выбор очевиден. Кроме того, гистограмма явно нагляднее, чем “лист и стебель”. Да что тут говорить, вы и сами все видите:


Отличие гистограммы от диаграмм распределения вероятностей (Probability Distribution Plot)

Оба графика – и гистограмма, и диаграмма распределения вероятностей – отражают распределение, только в первом случае это – распределение реальных наблюдений, а во втором – вероятностей, теоретической величины. Как следствие, гистограммы чаще всего покрыты ступенчатыми выступами, соответствующими некоему ограниченному количеству информации о распределении переменной, которое мы обладаем. Диаграмма распределения вероятностей чаще всего отображает плавную линию, соответствующую бесконечному количеству наблюдений:

Есть еще масса мелких отличий – как то: частота наблюдений по оси Y у гистограмм или плотность у диаграмм распределения вероятностей, – но они все являются лишь следствием вышеуказанных особенностей обоих графиков. Кроме того, диаграмма распределения вероятностей может применяться для решения совершенно других задач, нежели гистограмма. Подробнее в статье Диаграмма распределения вероятностей (Probability Distribution Plot).


Отличие гистограммы от диаграммы Парето (Pareto Chart)

Мне не доводилось сталкиваться со случаями, когда гистограмму не могли отличить от диаграммы Парето, но я довольно часто слышу, что диаграмма Парето состоит из гистограммы и некоторых дополнительных элементов. Это не верно. На диаграмме Парето столбцами отражены количества наблюдений в дискретных категориях, при этом колонки ранжированы по убыванию. Ее можно назвать столбчатой диаграммой, но никак не гистограммой.

Диаграмме Парето посвящена не одна публикация на нашем сайте. Попробуйте поиск по соответствующему тегу, чтобы узнать больше.

Если вы сталкивались с заблуждениями относительно гистограммы и других типов диаграмм, которые я не описал выше, буду благодарен за дополнение к статье.

15.09.2020 / 83 / Загрузок: 0 / DMAgIC / | Теги: Minitab
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2020            Хостинг от uWeb