09.04.2018 | Добавил: dmagic | Просмотров: 447
Самые кассовые фильмы, графический и статистический анализ

В проектах шести сигм приходится иметь дело с фактами и данными, таблицами и графиками, статистическими расчетами и т.д. Возможно, звучит сложно, но поверьте, сложнее выстроить последовательность анализа, нежели осуществить те или иные расчеты. Тем более, что сами расчеты за вас может сделать программа обработки данных.

В большинстве случаев я рекомендую провести визуальную оценку данных – графический анализ – перед тем, как проводить статистические расчеты или тесты гипотез. Гистограмма, ящичная диаграмма, контрольная карта или любой другой график, который поможет вам сформировать предположение, а уж затем искать его подтверждение статистическим путем.

К сожалению, такой подход хоть и универсален, не лишен недостатков. Я продемонстрирую это на примере из кино. Черную пантеру и Marvel мы уже подвергали анализу. Для этой заметки я собрал данные о самых кассовых фильмах за всю историю кинематографа.

На первом месте Аватар – тут сомнений нет. Даже удивительно, что еще не сняли вторую часть:

К остальным же позициям могут быть претензии. Тут и разная из года в год инфляция вступает в игру, и новые, ранее не доступные технологии… Да чего греха таить – реальные денные не лишены огрехов, а некоторых так вовсе не хватает. Чтобы понять это, достаточно кликнуть иконку Info Folder на панели Project Manager-а1:

Как видно на появившейся в левой части вкладке, у нас в руках таблица с информацией о 100 фильмах; при этом отсутствует 16 значений в колонке C4 “Продолжительность” и еще 2 – в колонке C6 “Бюджет”.

Как удобно! Всего один клик позволяет нам узнать:

  • С какими данными мы работаем (текстовыми, числовыми или датами).
  • Сколько данных на листе (сколько колонок, рядов и значений).
  • Сколько значений отсутствует.

Что еще мы можем узнать из этой таблицы? Каких-либо гипотез у меня нет, поэтому я построю график сразу для всех колонок в таблице. Это можно сделать через меню Graph \ ScatterPlot, как мы это делали в вышеупомянутой заметке о Marvel-овской Черной Пантере, или сделать так:

В появившемся окне задайте все доступные переменные. Обратите внимание: доступны только числовые переменные.

Вероятно, можно часами разглядывать следующий график (точнее матрицу графиков) и так ничего и не обнаружить:

Тот редкий случай, когда графический анализ малополезен. Что же делать? Как теперь двигаться дальше? Какие гипотезы теперь проверять?

Без паники! Как было сказано в начале заметки, подход “сначала график – потом расчеты” не лишен недостатков. Выше – один из таких редких случаев, который позволит нам научиться чему-то новому. Например, тому, чтобы проскочить этот шаг и взглянуть еще раз на все денные, но уже через призму корреляции:

  1. В меню Stat \ Basic Statistics выберите опцию Correlation.
  2. В появившемся окне задайте все доступные переменные и нажмите Ok.
  3. Перейдите в окно Session для просмотра результатов.

Те пары переменных, для взаимосвязи которых значение вероятности (p-value) пересекло отметку 0,05, можем далее не рассматривать. Мы не можем признать корреляцию статистически значимой между:

  • продолжительностью и годом выпуска (p-value=0,101);
  • кассовыми сборами и годом выпуска (p-value=0,663);
  • рейтингом фильма и бюджетом (p-value=0,879).

Мы также можем не тратить время на те переменные, для которых значение корреляции Пирсона составляет ниже 0,22. Так корреляции нет между рейтингом фильма и кассовыми сборами (0,197). Также ее нет между продолжительностью и годом выпуска (-0,180), кассовыми сборами и годом выпуска (0,044), рейтингом фильма и бюджетом (0,016). Но эти пары переменных мы уже отбросили на предыдущем этапе анализа.

Оставшиеся пары переменных обладают пусть и статистически значимой, но весьма слабой корреляцией. Зависимость между бюджетом и кассовыми сборами, которую мы обнаружили для экранизаций комиксов Marvel, не так уж легко обнаружить в данном случае: коэффициент корреляции составляет всего 0,290. А если взглянуть на график, то и вовсе встает вопрос о ее наличии.

3 точки в правом верхнем углу – это фильмы “Аватар”, “Титаник” и 7-й эпизод звездных воин – первые три позиции в списке. Если попросить Minitab построить график без них:

  1. В меню Graph выберем Scatterplot.
  2. В появившемся окне выберите With Regression и нажмите Ok.
  3. В следующем окне задайте зависимые и независимые переменные и нажмите кнопку Data Options.
  4. На вкладке Subset установите флажки напротив Specify which rows to exclude и Row numbers.
  5. В строку Row numbers укажите 1 2 и 3, чтобы исключить 1, 2 и 3 ряды:

Также советую настроить шкалу вертикальной оси, чтобы изменение угла наклона линии регрессии стало заметным:

Интересно, что самые высокие величины коэффициентов корреляция наблюдаются между парами переменных: бюджет и год выпуска (0,460) и рейтинг и год выпуска (-0,441). В первом случае корреляция положительная, во втором – отрицательная.

Растет ли бюджет с каждым годом и падает ли рейтинг с каждым годом?

У нас уже есть числовые показатели – коэффициенты корреляции Пирсона и значения вероятностей, но для ответа мы воспользуемся графиками:

  1. В меню Graph выберите Scatterplot.
  2. В появившемся окне выберите With Regression и нажмите Ok.
  3. Задайте зависимые и независимые переменные:
  4. Затем нажмите кнопку Multiple Graphs и на одноименной вкладе устнавите флажек напротив In separate panels of the same graph:
  5. Нажмите Ok.

Не забудьте, что мы попросили программу исключить “топ-3”. Чтобы исключенные фильмы вновь появились на наших графиках, следует в диалоговом окне настройки графика вновь нажать кнопку Data Options и на вкладке Subset перенести флажок с Row numbers на No Rows.

Как видите, большинство точек сгруппировано в одной части диаграммы. Я бы даже сказал, что по правилу 80-20: 80% всех точек сгруппировано на 20% площади диаграммы, а остальные 20% точек занимают оставшиеся 80% площади. Вот только все наши вероятности и корреляции, как и линия регрессии, очевидно, отталкиваются лишь от тех 20% точек и совершенно не подкреплены 80% наблюдений. Поэтому как бы мне не хотелось сделать содержательный вывод о том, что с каждым годом бюджеты картин растут, а зритель становиться все более и более привередливым, оценивая все лучшие шедевры кинематографа все более низким рейтингом, данных для этого у меня нет.

Эх! А так хотелось закончить хэппи-эндом. Но концовка получилась неопределенной: нужна следующая выборка. Зато мы применили нестандартный подход к анализу данных: вначале провели статистические расчеты, а затем подвергали свои предположения критике с помощью графического анализа. И, возможно, продолжение последует. Что скажете?

______________________________________
1 Подробнее о панели Project Manager читайте в заметке Как “навести” 5S в данных?
2 Откуда и почему 0,2, читайте Корреляционный анализ.

Лин6Сигм / 09.04.2018 | Просмотров: 447 | Добавил: dmagic | Всего комментариев: 0 / Теги: Lean6Sigma в кино, Minitab, Matrix Plot, корреляция
ПОХОЖИЕ МАТЕРИАЛЫ


  Добавить комментарий
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb