Как проводить анализ гистограмм?

Гистограммы нужны для того, чтобы наглядно представить распределение наблюдений. Но что еще мы можем увидеть, рассматривая прямоугольники, составляющие этот график? Какую информацию можем “прочесть”? На что обратить внимание и как это лучше сделать?

Визуальная оценка гистограмм позволяет воспринять ряд статистических показателей:

  • распределение наблюдений (distribution);
  • наибольшую концентрацию данных – моду (mode);
  • минимальное и максимальное значения (min и max);
  • размах (range);
  • степень асимметрии – скос (skewness);
  • эксцесс (kurtosis);
  • наличие явных выбросов (outliers);
  • возможное присутствие нескольких распределений (популяций);
  • ширину интервалов – дистанцию между правым и левым краями частотной ячейки по оси X;
  • количество интервалов – общее (в том числе и нулевые значения) количество частотных ячеек гистограммы.

Все это постараемся разобрать ниже.

Как уже неоднократно упоминалось в этой публикации, первое, что мы будем оценивать, глядя на гистограмму – это распределение наблюдений. Тут нет ничего сложного: мы просто визуально оцениваем, на какое из известных нам распределений похожа форма нашего графика. В проектах шести сигм чаще всего сравнивают сходство с нормальным законом распределения. Визуально оценивать согласие с любым другим законом сложно, но если вы возьметесь за это, посмотрите, как могут выглядеть различные Типы распределений и соответствующие им гистограммы.

Гистограмма позволяет анализировать частотное распределение числового ряда, а соответственно дает возможность выделить наиболее вероятные число или интервал с наибольшим количеством наблюдений – другими словами, пик. Гистограмма с ярко выраженным пиком называется унимодальной:

Если мы можем различить у гистограммы два ярко выраженных пика, то гистограмма называется бимодальной. Во многих случаях это значит, что выборки происходят из двух разных популяций, так как наличие двух мод в одной популяции – маловероятное явление или присущее лишь некоторым процессам. Примеры таких процессов можно найти в публикациях О бимодальном распределении и полиэтилене низкого давления и Как получить бимодальное распределение?

Гистограмма с двумя модами может выглядеть следующим образом:

И если вы получаете такое распределение по результатам входящего контроля качества, то, вероятнее всего, ваш поставщик отбирает лучшие детали, а вам посылает все остальное. Эта практика часто применяется в электронной промышленности: поставщик производит электронные компоненты, а на выходе своего процесса разделяет их на несколько групп в зависимости от того, насколько близко значение к номиналу.

Гистограммы с тремя и большим количеством пиков (многомодальные) встречаются крайне редко и, зачастую, также свидетельствуют о присутствии специальных факторов, влияющих на исследуемую систему или процесс. Частный случай такого распределения – “плато” или гистограмма, каждый интервал которой содержит примерно равное количество значений. Такая гистограмма называется однородной или гистограммой равномерного распределения:

И если вы получаете такое распределение по результатам входящего контроля качества, то, вероятнее всего, ваш поставщик отбирает для вас лучшие детали, а все остальное посылает конкурентам.

Кроме количества пиков на гистограмме можно оценить его положение или симметрию. Гистограмма называется симметричной, если она имеет симметричную форму относительно центральной линии (правая и левая стороны одинаковой формы). Ассиметричные гистограммы бывают со скосом влево или вправо от осевой линии.

Если левая сторона гистограммы вытянута значительно больше, чем правая (или левый “хвост” значительно длиннее правого), то говорят, что гистограмма имеет отрицательную асимметрию:

Соответственно, у гистограммы с положительной асимметрией больше в сторону выдаётся правая сторона (или правый “хвост” значительно длиннее левого):

10.09.2020 / 175 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2020            Хостинг от uWeb