Как построить гистограмму вручную?

Несмотря на то, что гистограммы легче всего построить, используя программное обеспечение, попробуем сделать это своими собственными силами. Возьмем ряд наблюдений:

3, 5, 11, 12, 19, 22, 23, 25, 27, 29, 35, 36, 37, 45, 49

Сама по себе эта строчка несёт мало информации, но если поделить ее на удобные интервалы, то легко можно сгруппировать все данные и представить в виде следующей таблицы:

Гистограмма, построенная на данных таблицы, будет выглядеть следующим образом:

По оси Y в данном случае отложено количество наблюдений, попадающих в соответствующий диапазон на оси X.


Выбор интервалов (Binning)

Насколько удобным можно назвать выбранный выше интервал? По каким критериям определить, правильно ли он подобран? И как выбор интервала может повлиять на интерпретацию гистограммы? Все это рассмотрим ниже.

Предположим, вместо пяти отрезков по 10 единиц мы поделим весь диапазон на десять отрезков по 5 – интервалы станут в два раза короче. В таком случае гистограмма примет следующий вид:

…или всего на 2 интервала – от 0 до 25 и от 25 до 50:

Становится понятно, что один и тот же набор данных может выглядеть совсем по-разному, будучи представленным в виде гистограммы. Определение величины интервала (длинны отрезка по оси X) играет ключевую роль как для визуализации данных, так и для корректности отображаемой информации. При этом подбор диапазонов может не только выявить скрытую информацию о наблюдаемой величине (характеристике процесса), но и сыграть злую шутку, скрыв важную информацию или натолкнув на ложное предположение.

Пример ниже отчетливо иллюстрирует, как распределение наблюдаемой величины, содержащее три моды – пика, – может быть “удачно” замаскировано изменением величины интервалов:

Как же выбрать верный интервал?

К сожалению, для выбора интервалов нет единого верного подхода. Вместо этого есть несколько рекомендаций. К примеру, одна из наиболее общих рекомендаций советует нам разделить весь диапазон наблюдений на 5-30 интервалов. Согласитесь, смысл в этом есть, однако мы уже видели, к чему приводит изменение количества интервалов, а подбирать вручную одну из 25 возможностей – не самая легкая задача. Тем более, что для большого количества данных может понадобиться и больше интервалов.

Еще одна рекомендация говорит, что мы должны поделить весь диапазон так, чтобы в каждый интервал попадало не менее 5-10 наблюдений. Опять же, что делать, когда данных много? И что делать, если в данных есть прореха: например, в один из интервалов не попадет ни одно значение, хотя в интервалах по соседству их будет предостаточно? Разумеется, и в этом случае придется перебрать несколько вариантов, прежде чем мы найдем верный.

Существуют также различные формулы, которые через степени, корни и логарифмы помогут вам найти то самое правильное количество интервалов. Какая формула дает верный результат? При каком расчете от вас не ускользнут нужные детали на графике? Или в каждом случае перебирать все варианты?

Рекомендаций и вариантов расчета гораздо больше, чем нам хотелось бы потратить времени на построение одного графика. Поэтому, к сожалению, вынужден констатировать тот факт, что на практике все либо полагаются на программное обеспечение, либо на собственную “чуйку”, перебирая несколько вариантов вручную и обосновывая это разумными соображениями.

В первом случае, при использовании специализированного ПО, есть хотя бы надежда, что в нем заложен некий алгоритм выбора оптимального количества интервалов. Во втором – при ручном подборе количества интервалов – я не стану утверждать, что опыт не может подсказать, как подобрать верное количество интервалов. Лишь замечу, что от вас все еще может что-то ускользнуть. Как минимум ваше время. Но если вы все же решили заняться подбором количества интервалов вручную и посмотреть, как от этого меняется внешний вид гистограммы, ниже я расскажу вам, как это сделать быстрее всего.

На мой взгляд, первый способ более прагматичен. Строить графики с помощью ПО быстрее и комфортнее, чем в ручном режиме. Коррекция со стороны исследователя иногда необходима, но не обязательна. Нужно позволить программе делать свою работу, а исследователю свою: вместо того, чтобы корпеть над одним графиком, не забывайте:

  • Гистограмма – это всего лишь один из возможных методов графического анализа данных. Не ограничивайте себя им в поисках гипотез.
  • Гистограмма – это всего лишь графический метод анализа данных, и любой сделанный на его основе вывод требует статистического подтверждения гипотезы.

Подытожим:

  1. Не смотря на простоту построения и анализа, особенности настройки гистограмм требуют от исследователя значительного опыта и пристального внимания.
  2. Выбор интервалов группировки данных определяет информативность и корректность представленных данных. Неправильный подбор может привести к ложному выводу о функции распределения наблюдаемой величины.
  3. Избежать этого можно, используя дополнительные методы графического анализа, а также подтверждение гипотез статистическими расчетами.
  4. Ручная настройка интервалов гистограмм все же нужна в некоторых случаях. Например, при сравнении разных по величине и размаху выборок:

Как построить гистограмму в пакете “101 инструмент вашего проекта шести сигм”?

Для построения гистограмм в пакете “101 инструмент вашего проекта шести сигм” откройте папку Measure и выберите инструмент №33 – Histogram. Вам потребуется внести все наблюдения в колонку “B”, и как только это будет сделано, ваша гистограмма готова:

Также обратите внимание на опцию выбора количества интервалов непосредственно над диаграммой. Помните, выше я обещал показать, как сделать ручной подбор наиболее быстрым? Так вот это и есть тот способ. Просто меняйте значение в желтой ячейке от 5 до 30 и следите за тем, как меняется ваша гистограмма.

26.08.2020 / 101 / Загрузок: 0 / DMAgIC / Комментарии: 1 | Теги: Minitab
Всего комментариев: 1
avatar
0
1

Цитата
Существуют также различные формулы, которые через степени, корни и логарифмы помогут вам найти то самое правильное количество интервалов


Например, формула Старджесса или Брукса и Карузера

а ВНИИ Метрологии дает рекомендации выбора числа интервалов (k)  в зависимости выборки (N)
N                             k
40-100                    7-9
100-500                  8-12
500-1000                10-16
1000-10000            12-22
avatar
SixSigmaOnline.ru © 2009-2020            Хостинг от uWeb