Существует множество способов представить числовые данные в графическом виде. И хотя каждый из этих способов имеет свои достоинства и недостатки, все они призваны для одной цели – визуализировать массив данных, – а потому имеют одинаковую ценность. Несмотря на это, от выбора способа представления данных зависит многое. Иными словами, насколько удачно вы сможете подобрать способ графической интерпретации данных, настолько аудитория сможет понять цель того, что вы пытаетесь показать этим. Среди наиболее простых, но от этого не менее информативных методов, можно выделить ящичные диаграммы. Основная цель ящичной диаграммы – представить распределение значений, – а ее выгодным достоинством является возможность сравнения нескольких распределений одновременно. С другой стороны, внешний вид диаграммы, несмотря на свою незамысловатость, не столь прост в понимании, как это может показаться. Представляя данные в виде ящичных диаграмм, следует всегда учитывать уровень знаний аудитории. Текстовые пояснения или краткий экскурс помогут слушателям понять, что отображает диаграмма. Содержание:
Что такое ящичная диаграмма? Мне попадалось множество толкований того, что же такое ящичная диаграмма. Одни – слишком мудрёные и длинные. Человеку, не знакомому со статистикой на “ты”, понять их довольно сложно. Другие – короткие, емкие, но совершенно не точные. Поэтому, когда кто-то скажет, что это:
то знайте – все это о ящичной диаграмме. Конечно же, с одинаковым успехом можно то же сказать и о гистограммах, точечных диаграммах, интервальных графиках и еще десятке других диаграмм, но к ящичной диаграмме это тоже относится. Именно такое определение ей часто дают. Лично мне больше всего нравится следующее определение: метод графического изображения набора данных через их квартили. Предлагаю на этом определении и остановиться. А если у вас есть определение получше, то смело пишите его в комментариях к этой статье. Синонимы названия Ящичную диаграмму еще называют:
Также вы можете встретиться с названием диаграммы на английском языке:
Что показывает ящичная диаграмма? Простейшая ящичная диаграмма выглядит следующим образом: На ней мы видим весь диапазон наблюдаемых значений – все 100%. 50% из них помещены в “ящик”, остальные 50% – представлены “хвостами” или “усами”. Конец нижнего хвоста представляет наименьшее из наблюдаемых значений (min), конец верхнего – наибольшее (max). От края нижнего хвоста до края верхнего – диаграмма нам показывает размах (range). Нижняя стенка ящика (перпендикулярная хвосту) представляет первый квартиль (Q1). Соответственно верхняя стенка ящика (перпендикулярная хвосту) – третий квартиль (Q3). Расстояние между первым и третьим квартилями называется межквартильным или интерквартильным размахом (IQR). В центре ящика проходит еще одна линия, перпендикулярная хвостам – это медиана (Q2). Стороны ящика, параллельные хвостам, не отображают ничего, кроме целостности ящика, разумеется. Если на вашем графике встречаются звездочки, как на диаграмме выше, то знайте, это – выброс (outlier). Кроме того, с помощью ящичной диаграммы можно визуально оценить асимметрию. Индикатором асимметричности распределения могут служить хвосты различной длинны или половины ящика, существенно отличающиеся в размере. Это выгодно отличает данный вид диаграмм при сравнении двух и больше серий данных. Как построить ящичную диаграмму вручную? Учитывая возможности современных статистических пакетов анализа данных, построение ящичных диаграммы не составляет труда. Но с теоретической точки зрения, стоит коротко рассмотреть принципы построения вручную. Попробуем изобразить следующий набор данных: 231, 248, 228, 256, 252, 262, 216, 253, 254, 257, 244, 238, – в виде диаграммы “ящик с усами”. Для этого:
В результате всех этих действий получаем графическое изображение нашего набора данных через их квартили: Как построить ящичную диаграмму в пакете “101 инструмент вашего проекта шести сигм”? Перенесем все данные на лист инструмента “34_Boxplot Tool”. Этот инструмент вы найдете в папке Measure пакета “101 инструмент вашего проекта шести сигм”. Как только данные будут внесены на лист, вы получите ящичную диаграмму: Как построить ящичную диаграмму в программе Minitab? Теперь давайте сделаем все тоже самое в пакете Minitab. Для начала нам следует внести данные в программу. С этим нам поможет один из 4-х способов. Затем:
Получаем нашу диаграмму: Она несколько отличается от той, что мы нарисовали вручную. Для того, чтобы наша диаграмма совпадала с той, которая у нас получилась вручную:
Ящичные диаграммы довольно часто отображают “лежа”, но главное, что их суть от этого не меняется. Просто в некоторых случаях так удобнее представлять данные. Что еще может boxplot? Вооружившись серьезным пакетом статистической обработки данных, было бы интересно разобраться, что еще можно добавить к нашему ящику и его усам. Чтобы оценить все потенциальные возможности данного способа графического представления данных, воспользуемся опцией Data View.
В большинстве случаев настроек по умолчанию достаточно. Не стоит перегружать диаграмму лишними сведениями – это лишь затруднит ее понимание. С другой стороны, удачно варьируя отмеченные пункты, можно представить данные в новом свете. Как сравнивать данные с помощью ящичных диаграмм? Сравнение предполагает, что у вас минимум две серии наблюдений: две выборки или некие наблюдения, которые вы можете поделить на категории. Чтобы посмотреть, как это работает, сгенерируем два набора по 50 значений, подчиняющихся нормальному закону распределения:
Теперь, чтобы сравнить их с помощью ящичных диаграмм:
На диаграмме четко видно, что значения из группы C1 имеют меньший размах, чем в C2. Также четко видно, что медиана C2 имеет большее числовое значение. Что же касается C1, то можно заметить, что значения выборки распределены менее симметрично. Также мы видим один выброс в колонке C2. Чтобы подчеркнуть все вышесказанное, снова прибегнем к опции Data View. Вы можете использовать алгоритм, описанный ранее, или просто:
Более наглядно представить разницу в размахе наблюдений нам поможет Range Box. Установив флажок напротив этой опции, вы поместите всю диаграмму в еще один ящик. В результате, сравнивать придется размеры ящиков вместо хвостов. Следовательно, разница будет более наглядна. Чтобы подчеркнуть разность значений медиан, воспользуемся опцией Median connect line. Это даст возможность сравнивать медианы не относительно шкалы или положения на диаграмме, а относительно соединительной линии. Наклон линии подчеркивает разность значений медиан. Чтобы сфокусировать внимание на асимметрии распределения (если самих хвостов недостаточно), можно воспользоваться следующими опциями:
Вы также можете отобразить все наблюдаемые значения на диаграмме (Individual symbols) – это позволит указать скопления значений. Вместе с тем, использование этой опции очень сильно “утяжеляет” диаграмму. Работа с различными группами данных Minitab Ящичные диаграммы помогают сравнивать группы данных и делать выводы. Поэтому немаловажным при работе в среде Minitab является умение группировать данные и представляет их в удобной форме. Этому нам и придется научиться. Давайте создадим необходимые для этого данные и представим их в различных форматах. Создайте 4 набора данных по 20 значений, подчиняющихся нормальному закону распределения:
В результате на листе с данными у вас окажется таблица из 4-х колонок: Так могли бы выглядеть результаты измерения деталей, полученных из двух гнезд двух пресс-форм. Или результаты измерения параметров деталей, произведенных двумя резцами на двух различных станках. В меню Graph \ Boxplot вам доступны следующие возможности:
До этого момента мы уже использовали One Y \ Simple и Multiple Y’s \ Simple. Первая опция удобна для построения графика для одного набора значений. Если попробовать сравнить данные в колонках С1-С4 с ее помощью, то мы получим 4 отдельные диаграммы. Согласитесь, это – не самый удобный подход к сравнению данных. Чтобы разместить все ящики на одном графике, выберите опцию Multiple Y’s \ Simple и задайте в поле Graph variables колонки С1-С4. Нажав Ok, получим один график, на котором намного легче сравнить все группы данных между собой. Однако, если данные представлены в другом формате, нам может быть недостаточно описанных выше алгоритмов. Давайте соединим наши колонки в одну используя функцию Data \ Stack \ Columns. Названия колонок используем в качестве категорий и разместим в соседней колонке. Чтобы узнать больше о функции соединения колонок, используйте соответствующий One-Point Lesson. Теперь все наши данные находятся в одной колонке, а их описание – в другой: Словно вам в руки попали данные с производства – все вперемешку. Чтобы построить ящичные диаграммы, используя данные в таком формате, в меню Graph \ Boxplot выберите One Y \ With Groups. Теперь в появившемся окне нам доступно дополнительное поле – Categorical variables for grouping. Это поле отвечает за группирование данных по определенному признаку или критерию. Какие признаки или критерии можно задавать? Критерием может служить колонка рабочего листа. Например, колонка С6, как показано на рисунке выше. Количество значений в этой колонке должно совпадать с количеством наблюдений. Критерии могут быть как как числовыми, так и буквенными.
Полученная диаграмма полностью соответствует той, которую мы получили из данных, размещенных в четырех разных колонках, с тем лишь исключением, что программа отобразила ящики в обратном порядке: Теперь снова вернемся к нашим 4-м колонкам и соединим их попарно: колонку С1 и С2, а затем С3 и С4: Если вызвать окно с помощью Graph \ Boxplot \ One Y \ With Groups и задать обе колонки с наблюдениями: То для каждой из них программа построит отдельный график. Однако, если вместо One Y \ With Groups, выбрать Multiple Y’s \ With Groups и задать в диалоговом окне все тоже самое: То получим полное соответствие ожидаемому результату: И еще немного настроек, доступных в программе Minitab До сих пор мы разбирали различные возможности программы для того, чтобы соединить несколько ящиков на одном графике. Теперь давайте посмотрим, как сделать наоборот: построить несколько диаграмм, используя различные признаки или критерии. Для этого нам понадобится все те же данные и опция Graph \ Boxplot \ One Y \ Simple:
Если же вернуться назад к пункту 2 и на вкладке By variables указать колонку С9 в строке By variables with groups in separate graphs: То программа разделит данные на две независимые диаграммы. Вот одна из них, в которую программа выделила данные, соответствующие критерию 1 в колонке С9: Теперь перейдем в Graph \ Boxplot \ Multiple Y's \ Simple:
Как видите, на одной части графика у нас диаграммы из обеих колонок, соответствующие критерию “1”, а на второй – критерию “2”. Как и в предыдущем случае, указав на вкладке By variables колонку С9 в строке By variables with groups in separate graphs, мы разделим данные на две независимые диаграммы. Вот одна из них, в которую программа выделила наблюдения из колонок С7 и С8, по критерию “1” из колонки С9: Таким образом, мы всегда можем выбрать часть данных из одной или нескольких колонок для сравнения, используя заданный критерий или атрибут. На этом краткий экскурс по ящичным диаграммам, их свойствам, а также возможностям программного обеспечения для их построения можно считать закрытым. И если вы дочитали эту публикацию, то, наверное, она вам понравилась. Буду рад отзыву или вашим замечаниям. А может быть у вас есть задача или проблема, в решении которой эта статья вам не дала всех ответов? Поле для комментариев всегда к вашим услугам. | |
![]() |
Всего комментариев: 0 | |
|
|
Я добавил в таблицу графики, которые показывают α и α/2. Кстати, пока добавлял, заметил, что в исходном файле формула расчета коэффициентов подтягивала величину риска из строки α/2. Возможно, из-за этого возникла путаница? Буду рад, если повторите расчеты и отпишите.
Задача которую я решаю: Мы проводим многократные измерения случайной величины, которая подчиняется закону распределения Стьюдента (это проверяется критерием Пирсона). И с доверительной вероятностью, как правило 95% и уровнем значимости 5%, ищем области в которых с заданной доверительной вероятностью находится истинное значение измеряемой величины. Именно к этой задаче относятся вышеприведённый схемы.