Парето анализ или правило “80/20” является одним из наиболее широко распространенных инструментов качества и шести сигм. Принцип анализа предельно прост, но весьма эффективен и, что самое главное, применим практически в любых ситуациях. Именно поэтому, несмотря на ранее опубликованные материалы на нашем сайте и в сети, информация о принципе Парето и его графической реализации остается актуальной. Содержание публикации
Закон Парето: немного истории и примеров Вильфредо Парето – итальянский экономист и социолог – заметил, что 80% всех благ используется 20% населения, остальные 20% благ пользуют 80% населения. Следует отметить, что Парето был не первым, кто выявил это явление, как и распределение благ в Италии не является чем-то уникальным. Тем не менее, за принципом устойчиво закрепилось его имя, а суть его сводиться к очень простому явлению: неравномерности распределения причин и следствий в природе. В производстве 20% всех причин отвечают за 80% дефектов изделий. Следовательно, определив наиболее весомые причины, можно снизить уровень брака на 80%. В сфере предоставления услуг – 20% всех ошибок приводит к 80% неверных транзакций. Когда-то давным-давно мы проводили опрос на нашем сайте: “Каким программным обеспечением Вы пользуетесь для работы с данными?” По результатам этого опроса 59% респондентов используют MS Excel, а 21% – Minitab. На долю остальных 8 программных продуктов, фигурирующих в опросе, приходится 20% ответов респондентов. И такая тенденция характерна не только для рынка программного обеспечения. Обобщенно можно говорить, что 20% продуктов удовлетворяет 80% потребительского спроса, а остальные 20% спроса удовлетворяют оставшиеся 80% продуктов. А вот еще один опрос – “Как Вы оцените содержание нашего сайта?”, – в котором тоже четко прослеживается принцип “80/20”: Как видите, 80% посетителей сайта находят здесь, что искали, а на долю остальных 20% посетителей выпадает 80% других возможных результатов :-D Когда мы купили дочурке мозаику, то сразу же обратили внимание на неравное количество деталей разного цвета. Чтобы убедиться, мы с женой взялись считать. Тем временем наша дочка решила проблему гораздо проще и элегантнее.
А вот вам пример из сферы шести сигм. Статистика – это наука об организации, сборе, представлении, анализе и интерпретации количественных данных в целях содействия принятию более эффективных решений. Статистических инструментов существует огромное множество, но применяя 20% из них, можно осуществить 80% всех задач. И методология шести сигм этому подтверждение. Что такое диаграмма Парето? Эмпирическое правило “80/20” имеет и графическое представление – диаграмму Парето. Диаграмма Парето – это:
Диаграмму Парето нельзя получить, разместив сектора круга, пузырьки или любые другие элементы любых других диаграмм в порядке убывания. Исключение может составлять столбчатая диаграмма, развернутая на 90° – линейчатая диаграмма. Также вы не получите диаграмму Парето, если не ранжируете колонки по убыванию – каждая последующая колонка должна быть не выше предыдущей. Исключение может составлять последняя колонка – “Прочие” или “Остальное”, – в которую часто скидывают все категории с незначительным количеством наблюдений. Часто диаграмму Парето строят в виде столбчатой диаграммы с графиком. Это помогает визуально отделить 20% факторов или причин, влияющих на 80% всех последствий: Как построить диаграмму Парето? Для построения диаграммы Парето следует выполнить всего несколько простых шагов:
Ниже мы рассмотрим некоторые примеры и особенности работы с ПО. Но еще перед этим вам следует запомнить, что есть еще один шаг, который предшествует всему вышеописанному алгоритму. Пункт №0 – поймите цель анализа. Без понимания того, зачем вы проводите анализ и зачем вам диаграмма Парето, вы не сможете двигаться дальше. Вы не сможете верно выбрать метод категоризации или классификации проблем, определить нужный интервал времени для сбора данных и т.д. А в результате получите диаграмму, которая не поможет вам достигнуть намеченной цели. В таком случае часто говорят, что не соблюден принцип “80/20”. Но на самом деле просто допущен ряд ошибок, и главная из них в том, что исследователь не понял цели анализа. Ниже мы не раз еще вернемся к этому, и вы увидите, каких ошибок можно было бы избежать, просто понимая цель анализа. К сожалению, это не оградит вас от ошибок на 100%, но существенно снизит вероятность того, что вы допустите ошибку, и существенно повысит вероятность того, что если вы все же допустите ошибку, то поймете, как ее исправить. В Minitab? Давайте рассмотрим процесс построения диаграммы Парето в Minitab на примере сведений о поставках и количестве дефектных образцов, найденных в каждой из них. Исходные данные представлены в следующей таблице:
Полученная диаграмма будет содержать, кроме данных о количестве дефектов в партиях, процентный вклад каждой из них в общее количество найденных дефектов и кумулятивный (накопленный) процент по каждой партии. Все эти данные также будут отражены на графике: В MS Excel? В последних версиях MS Excel уже присутствует опция для построения диаграммы Парето. Вы можете найти ее в разделе гистограмм: По какой причине Microsoft посчитали диаграмму Парето подвидом гистограмм, и почему график начинается где-то у подножья первой колонки, мне не понятно. Однако опция присутствует, и если у вас установлен последний пакет офиса или MS Excel отдельно, то построить диаграмму Парето вам не составит труда. Но даже если у вас установлена более старая версия программы, вы можете прибегнуть к несложным манипуляциям с данными, чтобы получить требуемую диаграмму. В первую очередь следует отсортировать данные таблицы по количеству дефектных образцов от максимального до минимального значения: Используя данные, упорядоченные по убыванию, можно построить простейшую диаграмму Парето – просто из столбиков. И, как и в предыдущем случае, скорее всего Excel-ю вы скажете, что это гистограмма: Мы также можем доработать таблицу:
Используя данные в столбцах “Партия”, “Количество дефектных образцов” и “Кумулятивный показатель”, можем построить, в зависимости от версии вашего ПО, гистограмму или гистограмму-график. Если вам не доступна опция построения диаграммы “гистограмма-график”, можно сначала построить гистограмму, выделить ряд, отвечающий кумулятивному показателю, вызвать меню правой кнопкой мыши и кликнуть на “Изменить тип диаграммы для ряда…”:
По такому же принципу можно отразить на одной диаграмме данные в колонках “Процентное соотношение” и “Кумулятивный процент”. Однако намного интереснее будет, если мы отразим на одной диаграмме количество дефектных образцов в каждой партии в виде столбиков и кумулятивный процент в виде графика. Для этого нам также потребуется повторить весь алгоритм действий, описанный выше. С тем лишь отличием, что на этот раз одну из колонок – кумулятивный процент – нужно будет построить по вспомогательной оси. Из-за того, что в одной колонке у нас данные в штуках, а во второй – в процентах, единственный способ корректно показать их на одной диаграмме – это использовать вспомогательную ось. Чтобы совместить начало графика с “верхушкой” первого столбца, необходимо установить их значения посередине шкалы соответствующей оси. Для этого задайте минимальные и максимальные значения основной и вспомогательной осей относительно медианы, в качестве которой следует выбрать значение плато столбца и точки графика соответственно. В примере выше минимальное и максимальное значения основной оси – 0 и 780, а вспомогательной – 60% и 105% соответственно. В пакете “101 инструмент вашего проекта шести сигм”? Для построения гистограмм в пакете “101 инструмент вашего проекта шести сигм” откройте папку Analyze и выберите инструмент №45 – Pareto. Выберите один из доступных форматов диаграммы – каждая на отдельной закладке – и перенесите данные в таблицу: В R? Для построения диаграммы Парето мы используем все тот же набор данных, что и выше. Сохраним его в csv-файл и разместим файл в папке “Мои документы”. Также нам потребуется программа R и пакет “qcc”. Указать на файл можно с помощью следующей команды:
Таким образом переменной x присвоены все значения файла Pareto.csv. Введя команду:
получим диаграмму Парето количества дефектных образцов в партиях: Несмотря на то, что график нам удалось довольно легко построить, особой информативностью он не отличается. Попробуем применить некоторый “тюнинг” – для этого разнесем две колонки в разные переменные:
Подпишем оси диаграммы:
Изменим команду, чтобы категории не накладывались на подпись оси X:
Теперь добавим название, изменим шкалу “Y” и поменяем цвет колонок:
Алгоритм полностью:
Результат:
Вся процедура занимает не более 5 минут. Вы можете скопировать весь алгоритм и убедиться в этом самостоятельно. Анализ диаграммы Парето На что следует обратить внимание в первую очередь, разглядывая диаграмму Парето? Разумеется, в первую очередь мы все обратим внимание на очевидные вещи: серию колонок, высота которых отражает частоту возникновения отдельной ошибки или группы ошибок (симптомов, проблемы и т.д.). Это позволяет нам сфокусировать усилия на тех областях, которые вносят больший вклад и, следовательно, имеют больший потенциал. Даже если нам удастся устранить лишь половину причин из первой категории, это принесет больший эффект, чем устранение половины всех категорий из “хвоста диаграммы”. Диаграмма Парето также помогает нам избежать траты усилий, времени и ресурсов на устранение причин, влияние которых менее значимо. Кроме того, не следует забывать о вполне очевидных преимуществах. Диаграмма Парето позволяет нам:
Следует отметить, что в отдельных случаях самая высокая колонка может не означать самый высокий приоритет. Например, если ошибка в любой другой колонке связана с риском для жизни или приносит компании намного больший ущерб, то будет разумнее сфокусироваться на ней. Может показаться, что в данном случае диаграмма Парето потеряла свой смысл, но это не так. Помните пункт №0 из раздела о построении диаграммы Парето выше? В данном случае уместнее говорить не о том, что принцип “80/20” не соблюден или что диаграмма Парето потеряла смысл, а о том, что исследователь не понял цели анализа. Зачем нам строить диаграмму Парето, если известно, что какая-то отдельная ошибка может представлять угрозу для жизни? Нужно устранять ее причины, а не графики строить. Подводные камни Парето анализа Принцип Парето гласит о том, что 80% всех последствий (будь то прибыль от продажи или дефекты продукции) вызваны 20% всех причин (к примеру, наименований товаров или возможных ошибок). Следовательно, остальные 20% последствий вызваны 80% остальных причин. Это правило позволяет нам выделить приоритетные направления работы или определить группу товаров, приносящую основную долю прибыли, следить за ее постоянным пополнением на складе или полке магазина. Иногда соотношение “80/20” может незначительно отличатся – это может быть “90/10” или “70/30”. Но мы все еще можем выделить приоритетные категории и работать дальше. А что если по каким-то непонятным причинам принцип не срабатывает? Что если нам не удается выделить небольшое количество причин, отвечающих за основную долю последствий? Это случается так часто, что в английском языке даже придумали название этому явлению: Pareto Paralysis. Читается почти как Pareto Analysis (анализ Парето), однако вместо анализа означает паралич. Что означает этот каламбур? Каковы 2 основные отличительные черты такой ситуации? Каковы наиболее вероятные причины возникновения, и, главное, что делать в таких случаях? Обо всем этом подробнее ниже. 1. Последняя колонка – “Прочие” или “Остальное” – существенно выше остальных В последнюю колонку часто объединяют малозначимые категории – те, в которых очень низкое количество наблюдений. Это делается для сокращения диаграммы – повышения удобства ее восприятия. Таким образом можно убрать практически невидимый на графике “хвост” и оставить больше полезного пространства для других данных. В последнюю колонку также можно объединить и те категории, на которых вы не собираетесь фокусироваться. Разумеется, в таком виде диаграмма Парето уже на подходит для анализа – лишь для визуального представления выводов. Однако это позволяет еще больше упростить диаграмму и сосредоточить внимание только на важном, а значит, все еще может быть полезно. Но по какой бы причине вы не скидывали несколько категорий в корзинку “Прочие” или “Остальное”, высота этой категории не может быть существенно выше остальных. Просто представьте себе диаграмму Парето причин отказов станка, в которой самой высокой является категория “Прочие”. О чем это говорит? Лишь о том, что последняя колонка является наиболее значимой. И если игнорировать наиболее значимые факторы, то все последующие действия не приведут к желаемым решениям.
Какой же может быть допустимая высота колонки “Прочие” или “Остальное”? К сожалению, нет однозначного числового критерия, который бы говорил нам о том, что если в колонке “Прочие” собралось более 5% всех наблюдений, то ее стоит разделить на подкатегории. Тем не менее, просто логически размышляя над тем, что мы ожидаем от анализа Парето – 20% категорий, отвечающих за 80% результата, – можно заключить, что в категорию “Прочие” уж точно не может попадать более 20% всех наблюдений. И чем меньший % в нее попадает, чем меньший % наблюдений мы исключаем из последующего анализа, тем лучше. 10% – уже неплохо, 5% – еще лучше, 1% – отлично! В каких случаях может наблюдаться подобное явление?
Что делать, если в категорию “Прочие” все же попадает более 20% наблюдений? На этот вопрос также нет однозначного ответа. Однако мы можем попытаться выделить некоторые стандартные решения:
2. Не получается выделить 20% категорий, отвечающих за 80% наблюдений Как уже было написано выше, иногда соотношение “80/20” может варьироваться. Например, это может быть “90/10” или “70/30”. Само по себе соотношение важно не настолько, насколько важна возможность выбрать приоритетные области для дальнейших действий. Поэтому нам куда чаще приходится ориентироваться на отступ одной группы колонок от другой, чем на эмпирические 20% и 80%: Если есть заметные отступы между категориями и группами категорий, то мы всегда сможем выделить приоритетные области и работать дальше. В тех случаях, когда не получается выделить не только 20% категорий, отвечающих за 80% наблюдений, но и заметные отступы между категориями или группами категорий, в анализе Парето снова наступает “паралич”:
Может показаться, что в отличие от предыдущей ситуации, когда большая часть наблюдений попадала в категорию “Прочие” или “Остальное”, приоритеты дальнейшей работы понятны. Однако это на так. Вы, разумеется, можете продолжить работать, начиная с топ-категории и последовательно двигаться к наименее важной, однако не следует исключать возможности, что данная ситуация является следствием одной из уже известных нам ошибок:
А потому и советы по работе с последующим анализом Парето не отличаются от тех, которые приведены выше. Многоуровневая диаграмма Парето – спецназ шести сигм В рамках проекта шести сигм часто используется многоуровневый Парето анализ. Что представляет собой трехуровневый анализ? Рассмотрим на примере анализа данных о поломках оборудования. Стандартная база данных службы ТОиР может содержать следующую информацию: Используя такую базу данных, можно провести сравнение цехов – первая диаграмма Парето поможет нам понять, в каком цеху простоев больше. Выбрав цех, в котором общее количество простоев отнимает больше всего рабочего времени, можно сузить фокус и построить еще одну диаграмму Парето, которая поможет нам определить то оборудование, которое простаивает наибольшее количество времени. Например, 80% всех простоев случается по причине остановок машин A и B. Следующий уровень – определение причин остановок машин A и B. На этот раз нам придется построить 2 диаграммы Парето: для машины А и для машины B отдельно, чтобы определить, что 80% остановок на этом оборудовании вызвано отказами I, II, III и IV. Если в базе денных доступны дополнительные сведения, то можно продолжить декомпозицию проблемы и построить диаграммы четвертого, пятого… уровней. Кроме того, если в различных цехах установлено одинаковое оборудование, мы могли начать не с цеха, а именно с оборудования. Таким образом диаграмма первого уровня выделила бы тип станков, которые простаивают больше всего времени на заводе. Когда проблема звучит как “Простои в цеху №1” или “Поломки на станке А”, то ее решение кажется слишком сложным, а что конкретно нужно сделать, совершенно непонятно. Когда же с помощью многоуровневой диаграммы Парето проблема декомпозируется, ситуация становится намного понятнее, а решения не заставляют себя долго ждать. Вот пример: Кстати, таблица выше взята из реального проекта, который помог сократить среднее время простоя по причине поломки оборудования (MTTR2) c 0,7 до 0,057 недели. Благодаря наличию базы данных, основная часть которой показана выше, 4-м часам обработки и анализа данных, а также многоуровневой диаграмме Парето удалось сократить среднее время простоя по причине поломки оборудования на 92%. Неплохой результат для организации, машинный парк которой насчитывает около 5 000 единиц. Реализация многоуровневой диаграммы Парето (Paynter или Pivot Chart) При всей своей простоте многоуровневый Парето анализ обладает некоторыми недостатками:
Чтобы не “утонуть”, проводя многоуровневый Парето анализ большого объема данных, воспользуемся диаграммами Paynter Chart или Pivot Chart. Названия этих диаграмм часто принимают за синонимы, однако между ними есть небольшое различие: Paynter Chart является подвидом Pivot Chart-а, у которого первичной категорией по оси X является временной интервал. Используя многоуровневую диаграмму Парето для анализа брака, мы можем построить диаграмму первого уровня – сравнить брак по участкам: А затем построить две диаграммы второго уровня для участков А и B, сравнивая производимые на них продукты:
Обратите внимание, диаграмма Парето первого уровня показала, что следует сфокусироваться на участках А и B. Причем начинать следует все же с участка А, так как показатель брака на нем выше. Второй уровень показал, что наибольший % брака наблюдается на продукте B1, который производится на участке B. Исключи мы участок B на первом уровне, а такое вполне возможно, –допустили бы ошибку и упустили бы возможность. Избежать подобной ошибки нам помогут Paynter Chart или Pivot Chart. Для того, чтобы построить такой график в Minitab:
Я выбрал опцию по умолчанию, однако у разработчиков, на мой взгляд, странное понимание про фэншуй – диаграмма получается довольно несуразной. Согласитесь: Также на мой взгляд в MS Excel данная диаграмма решена намного лучше. Pivot Chart или “Сводную диаграмму” вы найдете на вкладке Insert/Вставка. Выделите таблицу с данными и нажмите на иконку соответствующего графика. Чтобы настроить диаграмму, просто перетащите соответствующие колонки в одно из 4-х окон в правой части экрана: В результате простой настройки мы получаем сразу две диаграммы Парето в одной: Можно пойти еще дальше и добавить на третий уровень, например, причины брака: Но главным преимуществом при построении этой диаграммы в MS Excel является то, что третий уровень можно отразить в виде столбиков с накоплением. В таком случае мы уже не говорим о диаграмме Парето, но согласитесь, так оценивать данные намного удобнее. В любом случае, каким бы ПО вы не решили воспользоваться, главное, чтобы оно выполняло свою функцию: автоматизировало и упрощало вашу работу, а также предотвращало возможность допустить ошибку. Как не следует реализовывать многоуровневую диаграмму Парето? Очень часто Paynter или Pivot Chart путают с объемной столбиковой диаграммой: 3D диаграмма, в отличие от сводной диаграммы (Pivot Chart), представляет отдельные ряды данных, а не разбивает диаграмму Парето на несколько уровней. Разумеется, вы можете упорядочить данные перед тем, как строить диаграмму, и в таком виде столбики все же будут ранжированы. Но подумайте вот о чем:
Применение диаграммы Парето До сих пор мы рассматривали применение диаграммы Парето и принципа “80/20” для решения отдельных задач. Однако и сама диаграмма Парето часто применяется в других инструментах анализа. В этом разделе мы посмотрим, в каких еще инструментах и методиках анализа можно встретить диаграмму Парето. Мы также разберем, на каких этапах проектов бережливых шести сигм наиболее уместно прибегнуть к ее помощи. Вероятно, наиболее известным инструментом, построенном на базе Парето, является ABC-анализ. Он позволяет выделить среди всех категорий три группы: соответственно, A, B и C. Условные обозначения названий групп при этом не играет особой роли. На том же принципе построены инструменты XYZ и DEF-анализа. Группа A охватывает все показатели от 0 до 80%. Это часть наиболее значимых факторов, и должна рассматриваться в первую очередь. Группа B охватывает следующие 15%. Таким образом, суммарный процент составляет 95%. Группа C – все остальные факторы. Границы 80 и 95% следует принимать условно. Допустимы отклонения – главное, чтобы можно было выделить приоритетные категории и их группы для дальнейшей работы. Чаще всего ABC-анализ применяют для категоризации товароматериальных запасов – оборачиваемость наименований в торговой сети или складе. Однако он, как и анализ Парето, весьма универсален. Например, с его помощью можно проанализировать географию посетителей нашего сайта: Также можно встретить диаграмму Парето в следующих инструментах и методиках анализа:
Диаграмма Парето также частый гость проектов бережливых шести сигм. Ниже приведены некоторые примеры, где можно встретить диаграмму в проектах A3 или проектных циклах шести сигм – DMAIC и DMADV: В отчетах 8D диаграмму Парето чаще всего можно встретить:
Дополнительные материалы по теме Парето-анализа Вы также можете найти короткую презентацию о диаграмме Парето в глоссарии нашего сайта и еще одну публикацию – Как построить диаграмму Парето в Minitab Workplace? – в блоге. Обязательно загляните в раздел База знаний \ Примеры проектов \ Проекты шести сигм, чтобы ознакомиться с применением диаграммы в реальных условиях. Вы также можете посмотреть, как использовалась диаграмма Парето в публикациях Оценка подрядчика с помощью FMEA, Планирование экспериментов “на кухне”, Почему проекты 6 сигм бывают неудачными? Дополнительную информацию о пакете “101 инструмент вашего проекта шести сигм” вы найдете по ссылке. ______________________________________ | |||||||||
![]() |
Всего комментариев: 0 | |
|
|
Я добавил в таблицу графики, которые показывают α и α/2. Кстати, пока добавлял, заметил, что в исходном файле формула расчета коэффициентов подтягивала величину риска из строки α/2. Возможно, из-за этого возникла путаница? Буду рад, если повторите расчеты и отпишите.
Задача которую я решаю: Мы проводим многократные измерения случайной величины, которая подчиняется закону распределения Стьюдента (это проверяется критерием Пирсона). И с доверительной вероятностью, как правило 95% и уровнем значимости 5%, ищем области в которых с заданной доверительной вероятностью находится истинное значение измеряемой величины. Именно к этой задаче относятся вышеприведённый схемы.