17.04.2018 | Добавил: dmagic | Просмотров: 665
До какой степени визуализировать данные?

У каждой палки есть 2 конца, у медали – обратная сторона, а у визуализации данных и графического анализа не только достоинства, но и недостатки. Больше всё-таки достоинств. Их даже настолько много, что порой мы забываем о недостатках или попросту отказываемся их видеть. Но они есть, и о них полезно знать.

В этой заметке мы используем всего 4 графика для того, чтобы продемонстрировать один из основных недостатков визуализации, и проследим, как этот недостаток возрастает вместе с повышением удобства восприятия данных.

Используем набор данных, который вы найдете в Minitab:

  1. Перейдите в меню Help на строку Sample Data.
  2. Если вы используете программу 17-й или более ранней версии, то все данные уже находятся у вас на диске. Таким образом, в открывшемся окне вам потребуется перейти в папочку Getting Started и выбрать файл ShippingData.mtw.
  3. Если вы используете программу 18-й версии, то выполнив пункт 1, вы окажетесь на вебсайте Minitab. В правой колонке сайта – меню – выберите Getting started guide data sets, а затем Shipping center data.
  4. На отрывшейся странице вы найдете описание данных (откуда они и что из себя представляют), а внизу – ссылку Download ShippingData.mtw. На нее и нажмите.

Не зависимо от версии ПО, если вы выполнили все верно, то получите следующие данные:

Что мы видим?

  • Колонку с дистрибуторским центром – Center (C1).
  • Колонки с датами заказа и доставки – Order (C2) и Arrival (C3).
  • Длительность доставки в днях – Days (C4).
  • Статус доставки (вовремя, с опозданием…) – Status (C5).
  • Дистанцию, на которую был отправлен заказ – Distance (C6).
  • Всего 319 наблюдений.

Вряд ли вы найдете монитор такой величины, чтобы отразить все данные на одном экране. Но если вам все же удастся, вы с досадой обнаружите, что данных так много, что мозг не справляется. Что же делать с таким количеством цифр?

Можно рассчитать описательные статистики, чтобы получить несколько цифр, описывающих все наблюдения. Опираясь на них, можно утверждать, что доставка в среднем длится… или что с вероятностью в столько-то процентов заказчик получает свой товар до 5 дней…

Мы пойдем другим путем. Нам ведь не нужны точные расчеты – достаточно понять, что собой представляют эти числа. И в этом нам поможет диаграмма индивидуальных значений (Individual Value Plot):

  1. В меню Graph выберите Individual Value Plot.
  2. В появившемся окне по умолчанию выбран One Y \ Simple. Нажмите Ok.
  3. В следующем окне задайте переменные – Days и нажмите Ok.

Когда мы перестаем смотреть на числа и заменяем их графиком, то получаем понятную для мозга картинку, но избавляемся от деталей. Диаграмма индивидуальных значений (Individual Value Plot) – чуть ли не единственное исключение, так как отражает каждое значение точкой:

В таблице мы видели все числа – максимум деталей. На диаграмме мы не видим столько деталей. Некоторые точки слились в пятна… Пожалуй, намного лучше не стало, но уже кое-какие выводы сделать можем. К примеру, что все поставки были в пределах 8 дней.

Попробуем прибегнуть к помощи точечной диаграммы (Dotplot):

  1. В меню Graph выберите Dotplot.
  2. В появившемся окне по умолчанию выбран One Y \ Simple. Нажмите Ok.
  3. В следующем окне задайте переменные – Days и нажмите Ok.

Точечная диаграмма может “складывать” под одну точку более одного наблюдения в случаях, когда их много. В нашем случае все 319 наблюдений помещаются, и каждое отражается точкой:

Согласитесь, что эта диаграмма кажется более визуальной, хотя больше о данных мы знать не стали. Мы по-прежнему не видим среднего, хотя наблюдаем любопытную тенденцию: данные время от времени “прерываются”. Как будто каких-то точек не хватает… Я даже специально изменил ось X, чтобы сделать нагляднее:

Может быть, рабочие перерывы или работает 2 смены из 3-х? Ну да ладно, давайте двигаться дальше…

Посмотрим на данные с помощью гистограммы (Histogram)

  1. В меню Graph выберите Histogram.
  2. В появившемся окне по умолчанию выбрана опция Simple. Нажмите Ok.
  3. В следующем окне задайте переменные – Days и нажмите Ok.

Теперь наша диаграмма стала еще более визуально понятной, но мы совершенно отказались от единичных измерений:

Теперь мы можем сделать предварительное заключение о том, что чаще всего мы доставляем за 4 дня и что чаще заказы приходят раньше указанного срока (так как видна четкая асимметрия)… Но вместо данных и наблюдений у нас на диаграмме… цветные колонки.

А что нам предложит ящичная диаграмма (Boxplot)?

  1. В меню Graph выберите Boxplot.
  2. В появившемся окне по умолчанию выбран One Y \ Simple. Нажмите Ok.
  3. В следующем окне задайте переменные – Days и нажмите Ok.

Теперь мы видим медиану, ящик, в который помещается 50% наших наблюдений, размах и даже выброс. На ящичной диаграмме асимметрия уже не столь очевидна. Может, дело было в выбросе?

Если бы вы меня спросили: “Что дальше? Куда двигаться, чтобы повысить визуализацию?”, – то я бы посоветовал использовать опцию Stat \ Basic Statistics \ Graphical Summary:

Она уже содержит гистограмму, ящичную диаграмму и график доверительных интервалов (Interval Plot), который содержит еще меньше реальных данных, зато еще лучше визуализирует среднее и 95% доверительный интервал.

Но цель наша была в другом: понять, что с визуализацией данных мы “теряем” сами данные. Порой это даже полезно, так как мы, не отвлекаясь на детали, получаем обобщенное представление. Но порой за этим кроется и ряд недостатков:

  • повышение возможности сделать ошибку;
  • повышение неопределенности выводов;
  • потеря деталей (как в примере “прерывающихся” данных, которые мы “потеряли” на гистограмме);
  • и т.д.

Что с этим делать и как избежать?

  • Если вы дочитали аж до этого момента, уже хорошо! Осведомлен, значит вооружен.
  • Если прибегаете к графическому анализу перед статистическим, уже хорошо! Может, вам не всегда удастся уйти от всех проблем визуализации, но поверьте, еще больше вы избежите.
  • И если вы строите более чем одну диаграмму для оценки данных, уже хорошо! Как минимум, повышается вероятность обнаружить необычные наблюдения в выборке.

В остальном: не перестараться с визуализацией в ущерб потере данных, периодически следить за публикациями на нашем сайте и повышать свой опыт.

Поделитесь, какими диаграммами вы пользуетесь в своей работе чаще всего для оценки данных?

Лин6Сигм / 17.04.2018 | Просмотров: 665 | Добавил: dmagic | Всего комментариев: 6 / Теги: Minitab, графический анализ, гистограмма, шесть сигм
ПОХОЖИЕ МАТЕРИАЛЫ


  Добавить комментарий
avatar
1
1
Статья интересна как часть урока по Минитабу в плане визуалиации данных при помощи построения различных графиков, но с другой стороны она является в некоторой степени экстремистской.

Как так можно утверждать, что с визуализацией данных мы теряем сами данные? Не является ли это утверждение опрометчивым?

Да и вообще к анализу данных нужно подходить очень и очень аккуратно и перед тем как начинать графический анализ, нужно хотя бы иметь сформулированную гипотезу - то, что мы хотим либо подтвердить, либо опровергнуть.

Колонка Center содержит в себе данные по отгрузкам из трёх центров: Western, Eastern and Central и логично было бы задаться гипотезой, например, существуют ли различия между тремя центрами поставок; какие центры чаще всего имели задержки с поставкой и т.п.

А пробелы, обнаруженные на графике, это не потеря данных, это из-за специфики расчёта Days. Если кто обратил внимание на формат даты в колонках Arrival и Order, то увидели бы, что он отображает не только день/месяц/год, но и время. Отсюда и отображение значения в колонке Days идёт до пятого знака после запятой. Судя по всему, время отгрузки и время прибытия фиксировались в рабочее время, то, очевидно, что ночное время никак нельзя было зафиксировать, отсюда и пробелы между кластерами данных.
avatar
0
2
Дмитрий, рад, что статья понравилась и спасибоза отзыв. Что вам показалось в моем утверждении опрометчивым? Как бы вы его
сформулировали?
avatar
1
3
Добрый вечер.
Я бы не стал утверждать, что с визуализацией данных мы теряем данные.
Это как минимум некорректно.
Графики помогают наглядно посмотреть на то как распределены данные в дополнение к basic statistics.
Помогают выявить специфические моменты и определить направления, в котором нужно либо провести дополнительный анализ, либо собрать дополнительные данные.
avatar
0
4
Вашу точку зрения понял. Но вы так и не ответили на второй вопрос: какую формулировку предложили бы вы? Или, как бы посоветовали мне корректно сформулировать мое утверждение?

Штука ведь вот в чем: и гистограмма и Stem-and-Leaf помогают визуализироватьданные. При этом глядя на гистограмму мы данные не видим, а глядя на Stem-and-Leaf – видим.
avatar
1
5
Да, некоторые графики не отображают численных значений, но от них это и не требуется. Графики позволяют перевести численные значения в наглядную и удобную для последующего анализ форму. Если бы графики "теряли" данные, то их бы не использовали в статистике.

А если сформулировать так: Как визуализация помогает быстро и наглядно интерпретировать данные.

Ведь каждый график хорош и полезен в определенных случаях. Я, например, очень часто сталкиваюсь на работе с тем, что люди "нарисуют" кучу графиков в Минитабе и занимаются "описательной" статистикой в стиле "что вижу, то пою".
avatar
0
6
Дмитрий, принято! Еще раз спасибо за отзыв.
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb