Построение и анализ гистограмм в Minitab

Большинство пакетов статистической обработки данных содержат встроенную функцию и алгоритм построения графиков. С их помощью вся процедура превращения числового ряда в гистограмму сводится к нескольким кликам мышью. С другой стороны, упрощение процесса создания диаграмм – не главное достоинство специализированной программы. Что еще может предложить нам программная среда – рассмотрим в настоящей публикации.

Все операции будут проведены с использованием Minitab. Исходные данные и результаты анализа, Вы сможете найти в прикрепленном файле, который доступен всем зарегистрированным пользователям.

Для того, чтобы построить гистограмму, программе необходимы данные – результаты наблюдений, желательно выстроенные в столбик с заголовком-названием. В противном случае построенный график будет иметь название, например, “Hystogram С1” (где С1 – столбик в котором размещены данные). Согласитесь, не очень-то информативно. К тому же, если построение гистограммы является частью проекта, то с его расширением разобраться какая именно гистограмма какие данные представляет, будет всё труднее.

Существует четыре основных способа внесения данных в программу (подразумевается проект, в котором анализируются внешние данные):

  • внесение значений вручную с помощью клавиатуры;
  • копирование данных из другого источника (к примеру, листа MS Exel);
  • открытие внешнего рабочего листа непосредственно из программы с помощью команды File  Open Worksheet (поддерживаются все основные форматы табличного хранения данных: xls, xlsx, xml, txt, csv, dat,…);
  • внесение данных с помощью подключения программы к внешней базе данных или файловой системе (Open Database Connectivity).

Первые три типа внесения данных на практике используются чаще, не требуют специальных знаний по созданию подключений и осуществляются быстрее, чем установка запроса по типу ODBC.

В этой публикации особенности внесения данных упущены, при этом будем считать, что данные уже заданы и перейдем непосредственно к процессу построения гистограммы. Основное окно, в котором есть возможность выбрать тип гистограммы, открывается при помощи команд Graph  Histogram… и выглядит следующим образом:

По умолчанию (“Simple” – выделенный значок) предлагает построение простейшей гистограммы. Нажмите OK, чтобы перейти в следующее меню:

В появившемся окне указываем нужный диапазон данных (в настоящем примере выбираем столбик “Вес, гр”) и нажимаем “Select” – название столбика появится в поле “Graph variables” – таким образом, мы задали исходные данные для построения гистограммы. Чтобы построить гистограмму, нажмите OK:

Если в окне выбора типа гистограммы вместо “Simple” выбрать “With Fit”, то на полученную гистограмму будет наложена (по умолчанию) кривая нормального распределения:

Если закон распределения известен еще до построения графика, то в окне настройки гистограммы можем задать функцию, с помощью которой следует аппроксимировать результаты наблюдений. Для этого в окне настроек выберите опцию “Data View”:

В закладке “Distribution”, следующего меню, установите флажок напротив “Fit Distribution” и выберите необходимый вид распределения в появившемся списке:

Программа автоматически аппроксимирует данные (в рассмотренном примере выбрано экспоненциальное распределение):

Чтобы наложить на гистограмму еще и сглаживающую кривую, в окне “Histogram - Data View” перейдите на закладку “Smoother” и установите переключатель напротив “Lowess” (тип алгоритма сглаживания):

Степень и количество шагов сглаживания по умолчанию установлены на 0,5 и 2, соответственно. Варьируя этими значениями (степень сглаживания – в пределах от 0 до 1), можно менять плавность, мягкость перепадов, приближённость к данным сглаживающей кривой, в зависимости от данных и цели анализа. Полученная гистограмма выглядит следующим образом:

Закладка “Data Display” окна “Histogram – Data View” позволяет представить данные в относительно нестандартном для гистограммы виде:

Если вместо значения по умолчанию ”Bars” (колонки), установить флажок напротив “Symbols” (символы) – частота возникновения величины в каждом диапазоне будет представлена виде точек:

Опция “Project lines” (линии проекции) – позволяет представить данные в виде штрихов с длиной, соответствующей частоте появления значения (на оси X):

Опция “Area” (площадь) – объединяет все прямоугольники данных, образуя единую площадь под кривой, очерчённую контуром:

Обратите внимание, что флажки можно отмечать как по отдельности, так и в любых комбинациях. В таком виде гистограмма менее наглядна и, возможно, на первый взгляд покажется не столь понятной. С другой стороны, использование точек, к примеру, позволяет оценить, насколько точно данные аппроксимированы кривой распределения, а с помощью проекционных линий и обрамленных областей сравнить несколько массивов данных гораздо проще, чем с помощью стандартных “столбчатых” гистограмм. Однако, сравнение массивов данных – это уже тема для следующей статьи.

30.05.2011 / 8316 / Загрузок: 55 / NickX /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb