Выбросы. Часть 2: как возникают выбросы?

Откуда берутся необычно низкие или высокие значения наблюдаемой величины? Определив причину появления выбросов среди наблюдений, исследователь может принять решение, следует ли учитывать эти наблюдения в последующем анализе, продолжать ли сбор данных и последующий анализ наблюдений. Однако применить единый алгоритм к анализу выбросов, как и единый критерий их идентификации (см. предыдущую статью), не представляется возможным. А потому в настоящей публикации будут рассмотрены лишь наиболее вероятные источники появления выбросов и рекомендации относительно их поиска.

Появление выбросов может быть связанно либо с поведением процесса, либо с измерением наблюдаемой величины. Иными словами, наличие выбросов среди наблюдаемых значений может быть вызвано действительно их наличием, но может быть также вызвано допущенными ошибками при проведении измерений и регистрации результатов. Например, если измерять температуру двигателя автомобиля в процессе езды, то вполне вероятно, что если вы остановитесь и откроете капот, то температура может снизиться, показав тем самым необычно низкое значение. В таком случае можно говорить, что вы зафиксировали влияние специальной причины отклонения. В то же время, если регистрацию температуры двигателя проводит человек, то вполне возможно, что записывая очередной результат, он допустит ошибку или опечатку. В таком случае, полученный выброс является не более чем ошибкой, допущенной при регистрации наблюдений, и не говорит ровным счетом ничего о температуре двигателя (читай, поведении процесса).

Не смотря на то, что источников появления выбросов всего два, причин может быть гораздо больше. Некоторые, наиболее вероятные из них приведены на следующей диаграмме:

Основные причины появления выбросов пронумерованы от 1 до 6 в соответствии с приоритетностью анализа. Таким образом, вероятность воздействия персонала (под номером 1) наиболее высокая. В то время как вероятность воздействия оборудования – 6, наиболее низкая. Приведенная градация представляет исключительно мнение автора и основана на личных наблюдениях.

Итак, наиболее вероятной причиной появления выбросов будем считать персонал. В этой категории выделено две причины второго уровня: ошибки или непреднамеренные искажения данных и заведомо неверная регистрация наблюдений – саботаж. Ошибки могут возникать во время наблюдения процесса, измерения характеристики, регистрации результатов или ввода данных. Пример с ручной регистрацией температуры двигателя, приведенный выше, отлично иллюстрирует этот пункт.

Преднамеренное искажение данных может возникать из-за заинтересованности в результате или не следованию разработанной процедуре проведения измерений. Преднамеренному искажению результатов сильно подвержены данные, полученные путем опроса. Достаточно вспомнить, как рыбак характеризует свой улов, чтобы понять причину появления заведомо неверных результатов.

За персоналом следует измерительная система и ошибки, связанные с измерительным инструментом. Два пункта в этой категории – настройка и калибровка – скорее всего, не нуждаются в разъяснениях. Разумеется, что подготовка измерительного прибора к проведению измерений и калибровка (либо поверка) являются залогом получения адекватных показаний прибора.

Обратите внимание на ошибки, связанные с механизмом регистрации! В этой категории следует подразумевать именно ошибки, вызванные регистрацией показаний измерительным прибором, а не ошибки, обусловленные регистрацией человека. Иными словами, ошибка, которая может возникнуть до того, как показания прибора появятся на табло, следует относить к первопричине “Измерительная система”, а ошибка, которая может возникнуть при перенесении показателя на лист бумаги или ячейку программы обработки данных – к “Персоналу”.

В качестве примера вспомните бытовые напольные весы. В зависимости от того, стоите ли вы на них ровно или наклонитесь немного вперед, посередине или ближе к какому-то краю, на дисплее появятся различные показания, что в свою очередь часто подталкивает к манипуляции с прибором.

Само собой, что один и тот же измерительный прибор, в зависимости от оператора, может показывать различные значения, в том числе и влиять на наличие выбросов среди наблюдений. В проектах шести сигм, которые ведут участники курса для зеленых поясов, мы пытаемся максимально исключить эту причину, исследуя сходимость и воспроизводимость измерительной системы в самом начале этапа измерений.

Метод отбора и обработки проб также имеет непосредственное влияние на присутствие выбросов. Если при отборе или обработке пробы допущена ошибка, то любое наблюдение, являясь частью генеральной совокупности, может быть диагностировано как выброс. И наоборот, если невнимательно подойти к отбору, то в выборке могут появиться наблюдения из разных популяций. Представьте исследование средней заработной платы продавцов розничной сети супермаркетов. Если выбрать наугад достаточное количество человек из списка, то вполне вероятно, что среди выбранных фамилий окажутся продавцы, которых недавно повысили до супервайзеров или менеджеров, однако изменения еще не успели отобразиться в списке. Заработная плата этих сотрудников будет представлять выбросы из общей популяции.

То же относится и к размеру выборки: если выборка столь мала, что не представляет популяцию, то любое наблюдение, находящееся далеко от остальных, будет ошибочно диагностировано как выброс. На следующем графике представлено 7 рядов данных, сгенерированных с помощью программы Minitab. Исходные условия (количество наблюдений, среднее арифметическое и стандартное отклонение) равны. Все данные подчиняются нормальному закону распределения, однако в двух из 7 случаев наблюдаются выбросы:

Ошибочное предположение о законе распределения может также привести к появлению выбросов. Лептокуртозис или асимметрия распределения, могут привести к тому, что наблюдения, находящиеся в хвостах. будут ошибочно идентифицированы как выбросы, если по умолчанию предполагается подчинение нормальному закону распределения. Например, крайний столбец справа на следующей гистограмме кажется выбросом. Однако если учесть, что сгенерированные данные подчиняются t-распределению, то отдельно стоящий столбец является не более чем значением генеральной совокупности, находящимся в правом хвосте:

Влияние окружающей среды и посторонних факторов, таких как шум или запыленность, по праву находится на 4м месте среди причин появления выбросов. Выше на примере температуры двигателя приведен пример влияния постороннего фактора (открытого капота) на результаты наблюдений. Похожий пример можно привести и для солнечного света и освещенности производственных или офисных помещений. Проводя замеры освещенности, исследователь наверняка столкнется с выбросами – рабочими местами, которые находятся вблизи окон. То же относится и к температуре внутри помещения, в которой будут наблюдаться выбросы – участки вблизи окон, дверей, вытяжных отверстий и т.д.

Дефектные материалы – 5й пункт – зачастую представляют собой явные выбросы:

Обратите внимание, что речь не идет о разделении бракованных и годных изделий, но об идентификации материалов или изделий, свойства которых претерпели радикальные изменения, такие как полная или частичная деструкция.

Влияние оборудования на появление выбросов среди наблюдаемых данных занимает последнее место. Причина кроется в том, что отбор проб или наблюдение процесса, с целью определения его текущего состояния зачастую происходит в контролируемых условиях. Следовательно, если выборка наблюдений подвержена выбросам, обусловленным нестабильной работой оборудования или постоянными настройками его, то следует считать неудачным/ошибочным процесс отбора проб. Тем не менее, исследователю стоит знать о возможных влияниях перебоев в работе оборудования, частых изменений настроек, техобслуживания и замены узлов на наличие выбросов среди наблюдаемых значений. Зачастую такие выбросы также легко определить, как и радикальное изменение свойств материалов или изделий. Наблюдения, полученные в результате работы различного технологического оборудования или его узлов, ведет к тому, что выборка будет представлять не одну популяцию, а несколько. Диагностировать выбросы в таком случае намного сложнее.
Резюме:

  1. Существует два источника появления выбросов наблюденный: связанные с поведением процесса и с измерением наблюдаемой величины.
  2. Тем не менее, причин появления выбросов гораздо больше и, не смотря на приведенный перечень, анализ следует проводить в каждом случае индивидуально.
  3. Рассмотренные в этой заметке вероятные причины и механизм их поиска с помощью диаграммы Ишикавы призваны помочь участникам тренинга шести сигм для зеленых поясов в ходе первичного анализа данных на этапе измерений.
29.08.2012 / 3348 / Загрузок: 14 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb