Описательная статистика: представление данных

Предположим, что было проведено 200 опытов/измерений. Соответственно, собрано 200 результатов. Все данные записаны в ряд, столбец или в виде таблицы на листе бумаги или в электронной форме. Почему то, с трудом представляется возможность построения выводов, основываясь на данных, указанных в таком виде. Даже, упорядочив определенным образом данные в таблице, очень тяжело проанализировать массив из 200 результатов. С другой стороны, построив простой график, диаграмму или гистограмму, сделать вывод или, хотя бы, предположение становится простой задачей.

Как же лучше представить данные, для того что бы презентовать их слушателям?

Ответ на этот вопрос во многом зависит от типа данных и требуемого результата анализа, но, можно однозначно сказать, что описательная статистика и диаграммы способны представить данные в наиболее удобной для анализа форме.

Описательная статистика позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Все расчеты описательных статистик сводятся к группировке данных по их значениям, построению распределения их частот, выявлению центральных тенденций распределения и, наконец, к оценке разброса данных по отношению к найденной центральной тенденции.

Представление описательных статистик является, как правило, первым шагом любого анализа. Цель представления данных в виде описательных статистик – сделать выводы и принять стратегические (для анализа) решения, основанные на имеющихся данных.

Основные показатели описательной статистики:

  • Среднее значение (среднее арифметическое, медиана, мода).
  • Усредненное значение.
  • Разброс (диапазон разброса данных).
  • Дисперсия.
  • Стандартное (среднеквадратическое) отклонение.
  • Квартили.
  • Доверительный интервал.

Вернемся к примеру выше: проведя простейшие вычисления можно рассчитать среднее значение из 200 результатов, а также минимальное, максимальное значения и разброс. Владея этой информацией можно говорить о массиве данных следующим образом: все наблюдаемые значения находятся в диапазоне между xmin и xmax, среднее значение выборки - x̄. Согласитесь, что такая формулировка намного информативнее и понятнее чем таблица, содержащая 200 результатов измерений.

Рассчитав все описательные статистики для массива данных, можно делать определенные выводы о проведенных исследованиях. Способ расчета описательных статистик и дополнительная информация об их применении представлена в презентации Описательная статистика.

И все же, найдутся люди, склонные утверждать, что наибольшее количество информации об измерениях содержат их результаты, а рассчитанные показатели служат лишь для обобщения результатов и не могут их заменить. Такое утверждение тоже не лишено логики, но представлять “сырые данные” в виде огромного количества цифр, тем не менее, не рекомендуется. Гораздо удобнее показать их графическое отображение – график или диаграмму. Рассмотрим основные виды диаграмм, отображающие то же, что и основные статистические показатели.

Предположим, что данные из примера выше были распределены на несколько групп. Каждая группа данных представляет количество результатов в определенном диапазоне. Сводная таблица будет выглядеть следующим образом:

Полученная таблица может быть использована для построения гистограммы. С помощью этого вида диаграмм можно оценить среднее значение и диапазон разброса данных. Следует, однако, учитывать, что для распределения данных, отличного от нормального, наивысший столбик гистограммы отвечает моде, а не среднему арифметическому. В случае нормального распределения бесконечно-большого набора данных значения среднего арифметического, медианы и моды будут стремиться к единому значению.

Проследить поведение процесса и дисперсию наблюдений, удобнее всего используя потоковые диаграммы или, просто, графики. График также способен помочь при сравнении двух массивов данных: разные распределения результатов вокруг среднего значения свидетельствуют о том, что наблюдаемые значения не принадлежат одной популяции:

Нанесенные на график дополнительные линии среднего значения выборки, минимального и максимального значений, линии тренда, а также, линии, отвечающие ±1, 2 и 3 стандартным отклонениям делают его максимально информативным.

Сравнить две выборки и отобразить квартили можно с помощью ящичной диаграммы (boxplot). Отобразим данные двух массивов, использованных для построения потоковой диаграммы выше, в виде "ящика с усами” (ящичной диаграммы).

В зависимости от программного обеспечения, которое используется для построения диаграммы, на ящичной диаграмме можно отобразить множество дополнительных данных. Например, на диаграмме выше отображен символ *, отвечающий выбросу.

Следует также отметить, наличие функций быстрого анализа данных и вывода всех описательных статистик в удобной форме, присутствующих в современных пакетах статистического анализа данных. Инструкции по получению базовой информации в пакетах MS Excel 2007, Minitab, SPSS Statistics 17 и Statistica 8 описаны в презентации Описательная статистика. Результаты анализа могут также быть представлены и в графической форме:

Чтобы подытожить сказанное, рассмотрим таблицу основных описательных статистик и методы их графического отображения:

23.07.2009 / 32348 / Загрузок: 0 / DMAgIC /
Всего комментариев: 0
avatar
SixSigmaOnline.ru © 2009-2018            Хостинг от uWeb