Гистограммы: что это такое и с чем его едят

Гистограмма – это один из тех немногих способов графического представления данных, доступность и легкость восприятия которого не вызывает сомнения. Она прекрасно подходит для описания больших массивов данных, равно как и для характеристики небольшого числового ряда.

Гистограммой называют двухмерный график, по горизонтальной оси которого откладываются переменные или числовые интервалы, а по вертикальной – частота возникновения переменной (в заданном интервале). Чаще всего гистограмма состоит из прямоугольников с шириной, равной величине интервала и площадью, пропорциональной соответствующей частоте возникновения переменной. Другими словами, площадь прямоугольника соответствует количеству значений, которые попадают в определенный интервал: чем больше значений, тем больше площадь – при равных значениях интервалов, больший столбик соответствует большему количеству значений.

Попробуем разобрать это понятие подробнее, построив гистограмму собственными силами. Возьмем ряд наблюдений: 3, 5, 11, 12, 19, 22, 23, 25, 27, 29, 35, 36, 37, 45, 49. Сама по себе эта строчка несёт мало информации, но если поделить ее на удобные интервалы (к примеру, возьмем диапазон 10), то легко можно сгруппировать все данные и представить в виде следующей таблицы:

Гистограмма, построенная на данных таблицы, будет выглядеть следующим образом:

По оси Y в данном случае отложено количество наблюдений, попадающих в соответствующий диапазон оси X.

Насколько удобным можно назвать выбранный интервал и по каким критериям определить правильно ли он подобран, рассмотрим ниже. Предположим вместо 10 мы выбрали диапазон равный 5 (т.е. количество интервалов увеличилось вдвое). В таком случае, гистограмма примет следующий вид:

…или двадцати пяти (всего два диапазона):

Становится понятно, что один и тот же набор данных может выглядеть совсем по-разному, будучи представленным в виде гистограммы. Определение величины интервала (длинны отрезка по оси X) играет ключевую роль, как для визуализации данных, так и для корректности отображаемой информации. При этом, подбор диапазонов может не только выявить скрытую информацию о наблюдаемой величине (характеристике процесса), но и сыграть злую шутку, скрыв важную информацию или натолкнув на ложное предположение.

Пример ниже отчетливо иллюстрирует как распределение наблюдаемой величины, содержащее три пика может быть "удачно” замаскировано изменением величины интервалов:

Использование пакетов статистической обработки данных (таких как Minitab, Statgraphics или Statistica) дает возможность строить гистограммы, сравнивать и анализировать данные значительно быстрее и комфортнее, чем в ручном режиме. Кроме того, в них уже присутствует алгоритм выбора оптимальных диапазонов. Однако, иногда коррекция со стороны исследователя всё-таки просто необходима. Например, при необходимости сравнения с помощью гистограмм разных по величине и разбросу массивов данных:

Таким образом, не смотря на простоту построения и анализа, особенности настройки гистограмм требуют от исследователя значительного опыта и пристального внимания. Выбор интервалов группировки данных определяет информативность и корректность представленных данных. Неправильный подбор основных параметров гистограммы может привести к ложному выводу о функции распределения наблюдаемой величины и привести исследователя к неправильному выводу. Кроме того, следует принимать во внимание, что гистограмма – это всего лишь графический метод анализа данных и любой сделанный на его основе вывод требует статистического подтверждения гипотезы.

09.05.2011 / 6809 / Загрузок: 20 / Andrew /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb