У каждой палки есть 2 конца, у медали – обратная сторона, а у визуализации данных и графического анализа не только достоинства, но и недостатки. Больше всё-таки достоинств. Их даже настолько много, что порой мы забываем о недостатках или попросту отказываемся их видеть. Но они есть, и о них полезно знать.
В этой заметке мы используем всего 4 графика для того, чтобы продемонстрировать один из основных недостатков визуализации, и проследим, как этот недостаток возрастает вместе с повышением удобства восприятия данных.
Используем набор данных, который вы найдете в Minitab:
- Перейдите в меню Help на строку Sample Data.
- Если вы используете программу 17-й или более ранней версии, то все данные уже находятся у вас на диске. Таким образом, в открывшемся окне вам потребуется перейти в папочку Getting Started и выбрать файл ShippingData.mtw.
- Если вы используете программу 18-й версии, то выполнив пункт 1, вы окажетесь на вебсайте Minitab. В правой колонке сайта – меню – выберите Getting started guide data sets, а затем Shipping center data.
- На отрывшейся странице вы найдете описание данных (откуда они и что из себя представляют), а внизу – ссылку Download ShippingData.mtw. На нее и нажмите.
Не зависимо от версии ПО, если вы выполнили все верно, то получите следующие данные:
Что мы видим?
- Колонку с дистрибуторским центром – Center (C1).
- Колонки с датами заказа и доставки – Order (C2) и Arrival (C3).
- Длительность доставки в днях – Days (C4).
- Статус доставки (вовремя, с опозданием…) – Status (C5).
- Дистанцию, на которую был отправлен заказ – Distance (C6).
- Всего 319 наблюдений.
Вряд ли вы найдете монитор такой величины, чтобы отразить все данные на одном экране. Но если вам все же удастся, вы с досадой обнаружите, что данных так много, что мозг не справляется. Что же делать с таким количеством цифр?
Можно рассчитать описательные статистики, чтобы получить несколько цифр, описывающих все наблюдения. Опираясь на них, можно утверждать, что доставка в среднем длится… или что с вероятностью в столько-то процентов заказчик получает свой товар до 5 дней…
Мы пойдем другим путем. Нам ведь не нужны точные расчеты – достаточно понять, что собой представляют эти числа. И в этом нам поможет диаграмма индивидуальных значений (Individual Value Plot):
- В меню Graph выберите Individual Value Plot.
- В появившемся окне по умолчанию выбран One Y \ Simple. Нажмите Ok.
- В следующем окне задайте переменные – Days и нажмите Ok.
Когда мы перестаем смотреть на числа и заменяем их графиком, то получаем понятную для мозга картинку, но избавляемся от деталей. Диаграмма индивидуальных значений (Individual Value Plot) – чуть ли не единственное исключение, так как отражает каждое значение точкой:
В таблице мы видели все числа – максимум деталей. На диаграмме мы не видим столько деталей. Некоторые точки слились в пятна… Пожалуй, намного лучше не стало, но уже кое-какие выводы сделать можем. К примеру, что все поставки были в пределах 8 дней.
Попробуем прибегнуть к помощи точечной диаграммы (Dotplot):
- В меню Graph выберите Dotplot.
- В появившемся окне по умолчанию выбран One Y \ Simple. Нажмите Ok.
- В следующем окне задайте переменные – Days и нажмите Ok.
Точечная диаграмма может “складывать” под одну точку более одного наблюдения в случаях, когда их много. В нашем случае все 319 наблюдений помещаются, и каждое отражается точкой:
Согласитесь, что эта диаграмма кажется более визуальной, хотя больше о данных мы знать не стали. Мы по-прежнему не видим среднего, хотя наблюдаем любопытную тенденцию: данные время от времени “прерываются”. Как будто каких-то точек не хватает… Я даже специально изменил ось X, чтобы сделать нагляднее:
Может быть, рабочие перерывы или работает 2 смены из 3-х? Ну да ладно, давайте двигаться дальше…
Посмотрим на данные с помощью гистограммы (Histogram)
- В меню Graph выберите Histogram.
- В появившемся окне по умолчанию выбрана опция Simple. Нажмите Ok.
- В следующем окне задайте переменные – Days и нажмите Ok.
Теперь наша диаграмма стала еще более визуально понятной, но мы совершенно отказались от единичных измерений:
Теперь мы можем сделать предварительное заключение о том, что чаще всего мы доставляем за 4 дня и что чаще заказы приходят раньше указанного срока (так как видна четкая асимметрия)… Но вместо данных и наблюдений у нас на диаграмме… цветные колонки.
А что нам предложит ящичная диаграмма (Boxplot)?
- В меню Graph выберите Boxplot.
- В появившемся окне по умолчанию выбран One Y \ Simple. Нажмите Ok.
- В следующем окне задайте переменные – Days и нажмите Ok.
Теперь мы видим медиану, ящик, в который помещается 50% наших наблюдений, размах и даже выброс. На ящичной диаграмме асимметрия уже не столь очевидна. Может, дело было в выбросе?
Если бы вы меня спросили: “Что дальше? Куда двигаться, чтобы повысить визуализацию?”, – то я бы посоветовал использовать опцию Stat \ Basic Statistics \ Graphical Summary:
Она уже содержит гистограмму, ящичную диаграмму и график доверительных интервалов (Interval Plot), который содержит еще меньше реальных данных, зато еще лучше визуализирует среднее и 95% доверительный интервал.
Но цель наша была в другом: понять, что с визуализацией данных мы “теряем” сами данные. Порой это даже полезно, так как мы, не отвлекаясь на детали, получаем обобщенное представление. Но порой за этим кроется и ряд недостатков:
- повышение возможности сделать ошибку;
- повышение неопределенности выводов;
- потеря деталей (как в примере “прерывающихся” данных, которые мы “потеряли” на гистограмме);
- и т.д.
Что с этим делать и как избежать?
- Если вы дочитали аж до этого момента, уже хорошо! Осведомлен, значит вооружен.
- Если прибегаете к графическому анализу перед статистическим, уже хорошо! Может, вам не всегда удастся уйти от всех проблем визуализации, но поверьте, еще больше вы избежите.
- И если вы строите более чем одну диаграмму для оценки данных, уже хорошо! Как минимум, повышается вероятность обнаружить необычные наблюдения в выборке.
В остальном: не перестараться с визуализацией в ущерб потере данных, периодически следить за публикациями на нашем сайте и повышать свой опыт.
Поделитесь, какими диаграммами вы пользуетесь в своей работе чаще всего для оценки данных?
![]() |
Добавить комментарий | |
| |
А если сформулировать так: Как визуализация помогает быстро и наглядно интерпретировать данные.
Ведь каждый график хорош и полезен в определенных случаях. Я, например, очень часто сталкиваюсь на работе с тем, что люди "нарисуют" кучу графиков в Минитабе и занимаются "описательной" статистикой в стиле "что вижу, то пою".
Штука ведь вот в чем: и гистограмма и Stem-and-Leaf помогают визуализироватьданные. При этом глядя на гистограмму мы данные не видим, а глядя на Stem-and-Leaf – видим.