Пиши Дома Нужные Работы

Обратная связь

Анализ распределения данных. Виды вероятностных распределений. Нормальное распределение и его свойства

 

Каждый вариационный ряд характеризуется особой формой полигона частот, определяемой специфическими закономерностями соответствующего явления / признака. Вид полигона частот при количестве замеров величины признака, стремящемся к бесконечности, называется вероятностным распределением данных. Вероятностное распределение (далее – просто «распределение» или «распределение данных») – одно из основных понятий теории вероятностей и математической статистики. Распределение может быть дискретным (описывается вероятностями отдельных значений) и непрерывным (описывается плотностями вероятности). К дискретным относятся распределения Бернулли, биномиальное, геометрическое, гипергеометрическое, логарифмическое, отрицательное биномиальное, Пуассона и дискретное равномерное. К непрерывным относятся распределения Вейбулла, гиперэкспоненциальное, Колмогорова, Коши, Лапласа, логнормальное, нормальное (Гаусса), логистическое, Накагами, Парето, полукруговое, непрерывное равномерное, Райса, Рэлея, Стьюдента, Фишера, хи-квадрат, экспоненциальное, гамма и бета.

Один из важнейших видов распределений – т.н. нормальное или Гауссово распределение (может также называться «второй закон Лапласа» или «распределение Гаусса-Лапласа»). Для ученого, занятого обработкой результатов биомедицинских исследований, фактически существует два варианта вероятностных распределений – нормальное и все остальные, поскольку в случае нормального (или близкого к нему) распределения анализируемых данных возможно применение т.н. параметрических методов статистической обработки, все же прочие варианты требуют использования т.н. непараметрических методов (подробно см. ниже).



Распределение вероятностей, соответствующее нормальному (Гауссову), задается фун­кцией плотности вероятностей:

 

, где

 

µ – математическое ожидание (в данном случае – медиана и мода распределения, пояснения см. далее);

σ – стандартное отклонение распределения (σ2, соответственно – его дисперсия).

 

Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием 0 и стандартным отклонением 1 (см. рис. 4).

 
 

 

Рис. 4. Вид графика плотности вероятности нормального распределения для разных значений σ и µ (зеленым цветом отмечен график стандартного нормального распределения).

 

Важное значение нормального распределения в математической статистике вытекает из центральной предельной теоремы теории вероятностей: если результат наблюдения является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то при увеличении числа слагаемых распределение центрированного и нормированного результата стремится к нормальному. Проще говоря, распределение значений некоего признака стремится к нормальному, если разница между результатами замеров величины данного признака обусловлена только случайными факторами, а число замеров стремится к бесконечности. Данное свойство нормального распределения (благодаря которому оно и получило свое название) чрезвычайно широко используется в различных методах статистического анализа, являясь их отправной точкой.

Нормальное распределение часто встречается в природе. Например, следующие случайные величины хорошо моделируются нормальным распределением:

– отклонение при стрельбе;

– погрешности большинства измерений;

– ряд характеристик живых организмов (в том числе – человека).

 

Нормальное распределение обладает рядом особенностей, позволяющих его более или менее точно идентифицировать на основании весьма поверхностного анализа:

1. График плотности вероятности нормального распределения имеет колоколообразную форму и симметричен относительно вертикальной оси (см. рис. 4);

2. У графика нормального распределения одна мода, причем значения моды, медианы и среднего арифметического вариационного ряда в случае нормального распределения совпадают (определения среднего арифметического, медианы и моды будут даны позднее);

3. В случае нормального распределения расстояние от 25-го процентиля (1-го квартиля, 25‰) до медианы (2-го квартиля, 50‰) вариационного ряда равно расстоянию от медианы до 75-го процентиля (3-го квартиля, 75‰). Смысл понятий «квартиль» и «процентиль» будет объяснен в следующем разделе, пока просто запоминайте, стараясь не упустить суть);

4. Главнейшим свойством графика плотности вероятности нормального распределения является то, что расстояние по абсциссе (горизонтальной оси) от среднего арифметического вариационного ряда (М), измеренное в единицах стандартного отклонения (σ), всегда дает одинаковую общую площадь под кривой: между ±1 стандартным отклонением находится 68,26% площади, между ±2 стандартными отклонениями – 95,44% площади, между ±3 стандартными отклонениями – 99,72% площади (см. рис. 5).

 
 

 

Рис. 5. Главное свойство графика плотности вероятности нормального распределения.

 

Проще говоря, в пределах М ± 1σ всегда должно находиться приблизительно 68,3% вариант (при условии, что распределение анализируемого вариационного ряда соответствует нормальному), в пределах М ± 2σ – 95,4% вариант, и в пределах М ± 3σ – 99,7%. Соответственно, вероятность того, что значение, относящееся к данному вариационному ряду, окажется удалено от его среднего арифметического более, чем на три «сигмы», очень мала, составляя ≈0,3% (этот факт известен как «правило трёх сигм»).

Всякий вариационный ряд, полученный в результате измерений какого-либо признака в анализируемой выборке (понятие выборки также будет дано позднее), перед началом статистического анализа должен быть проанализирован на предмет соответствия нормальному распределению с целью выбора адекватных методов статобработки (параметрических либо непараметрических). Следует отметить, что широкая распространенность нормального распределения данных в биомедицинских исследованиях сильно преувеличена: на самом деле нормальное распределение в чистом виде почти никогда не встречается. Как правило, исследователи имеют дело либо с более-менее хорошим приближением наблюдаемого распределения к нормальному (см. рис. 6), либо с ассиметричными распределениями (см. рис. 7, 8).

 
 

 

Рис. 6. Хорошее приближение наблюдаемого распределения к нормальному (уровень тревожности среди респондентов на Украине (n=1725), данные 2008 г.).

 

Графики распределений на рис. 4 симметричны. Распределения многих изучаемых в медицине признаков также выглядят достаточно симметрично. Однако это не всегда так. Например, график на рис. 7, на котором показаны данные по концентрации простатического специфического антигена (ПСА) в сыворотке крови, является асимметричным. Асимметричное распределение называют также смещенным распределением.

Распределение, пик которого сдвинут влево, а «хвост» – вправо, называется «положительно смещенным» или «смещенным вправо». На рис. 7 распределение смещено вправо (также см. рис. 8, распределение концентраций щелочной фосфатазы). Распределение, пик которого находится справа, а «хвост» – слева, называется «отрицательно смещенным» или «смещенным влево». На рис. 8 распределение уровня гемоглобина смещено влево. В обоих случаях распределение данных, внешне напоминая «колокол», не является нормальным и не подходит для обработки параметрическими методами статистического анализа. К сожалению, в большинстве случаев распределение данных, полученных в ходе биомедицинских исследований, является ассиметричным.

Следует помнить и о том, что нормальное распределение может иметь место только для непрерывных количественных признаков (переменных), таких, как рост, вес, возраст, концентрация и т.п. Если изучаемый признак – качественный, порядковый либо даже количественный дискретный (например, число членов семьи, количество назначенных антибиотиков, число смен антибактериальной терапии, количество комнат в помещении и т.д.), его распределение априори не может быть нормальным, и статистическая обработка подобных признаков должна производиться с использованием непараметрических методов.

 
 

 

Рис. 7. Пример распределения, смещенного вправо (концентрация простатического специфического антигена (ПСА) в сыворотке крови).

 

 
 

 

Рис. 8. Примеры распределений, похожих на нормальное, но не являющихся таковым (калий сыворотки и глюкоза плазмы – избыточный эксцесс, пик заострен; щелочная фосфатаза – распределение смещено вправо, гемоглобин – соответственно, влево).

 

 

Способы выявления нормального характера распределения:

1. Визуальный анализ предварительно построенного полигона (гистограммы) частот – симметричность, колоколообразный вид;

2. Строгое доказательство симметричности распределения: среднее арифметическое = медиана = мода, расстояние от 25‰ до медианы равно расстоянию от медианы до 75‰;

3. Асимметрия (skewness) нормального распределения равна 0. Асимметрия распределения с длинным правым хвостом (смещенного вправо) положительна, с длинным левым хвостом (смещенного влево) – отрицательна;

4. Эксцесс (kurtosis), показывающий «остроту пика» распределения, для стандартного нормального распределения равен 0. Если эксцесс положителен, то пик заострен, если отрицателен – соответственно, закруглен;

5. Для проверки нормальности распределения можно также использовать построение графиков квантилей (т.н. Q-Q plot, данная опция предоставляется всеми программами статистического анализа). На таких графиках изображаются квантили двух распределений – эмпирического (т.е. построенного по анализируемым данным) и теоретически ожидаемого стандартного нормального распределения. При нормальном распределении проверяемой переменной точки на графике квантилей должны выстраиваться в прямую линию, исходящую из левого нижнего угла графика под углом 45° (см. рис. 9). Графики квантилей особенно полезны при работе с небольшими по размеру выборками, для которых невозможно построить гистограммы, принимающие какую-либо определенную форму.

 
 

 

Рис. 9. Пример графика квантилей для нормально распределенной совокупности данных, состоящей из 500 наблюдений.

 

Следует отметить, что интерпретация графиков квантилей при работе с небольшими выборками, происходящими из нормально распределенных генеральных совокупностей, требует определенного навыка. Дело в том, что при небольшом числе наблюдений точки на графике квантилей не всегда могут образовывать четко выраженную прямую линию. В качестве иллюстрации на рис. 10 приведены графики квантилей для 5 случайным образом сгенерированных нормально распределенных выборок по 20 наблюдений каждая. Обратите внимание на то, что фигура, в которую выстраиваются точки, местами далека от прямой линии.

Тем не менее, если график квантилей имеет однозначно криволинейный вид при большом числе наблюдений в выборке, это определенно свидетельствует о том, что распределение значений изучаемого признака в данной выборке не является нормальным (см. рис. 11).

В тех же нередких случаях, когда график квантилей практически прямолинеен, за исключением нескольких крайних значений (как на рис. 12), можно попробовать удалить несколько наименьших и наибольших вариант из анализируемой выборки (рассматривая их как артефакты, не соответствующие общей тенденции и, вероятнее всего, связанные с погрешностями при измерениях крайне низких и крайне высоких значений изучаемого признака); при этом распределение совокупности данных приобретет вид нормального. Тем не менее, такой подход нельзя рекомендовать, пока не исключены все остальные причины отличия вида наблюдаемого в эксперименте распределения от нормального;

 

 
 

 

Рис. 10. Графики квантилей для пяти случайным образом сгенерированных нормально распределенных выборок (для каждой n=20).

 
 

 

Рис. 11. График квантилей для выборки, распределение которой очевидным образом отличается от нормального (n=200).

 
 

 

Рис. 12. График квантилей для выборки, распределение которой почти не отличается от нормального, за исключением нескольких крайних значений изучаемого признака (n=200).

 

6. Более точную информацию о форме распределения можно получить с помощью критериев нормальности: критерия хи-квадрат, критерия Колмогорова-Смирнова и W-критерия Шапиро-Уилка. Общепринятым методом проверки формы распределения является тест Колмогорова-Смирнова с поправкой Лиллиефорса (программа Statistica предлагает его по умолчанию). Считается, что указанный метод применим при числе наблюдений не менее 60; если же размер выборки (n) менее 60, предпочтительно использование критерия Шапиро-Уилка.

В общем виде проверяемую при помощи обоих тестов нулевую гипотезу можно сформулировать так: «Анализируемая выборка происходит из генеральной совокупности, имеющей нормальное распределение». Если вычисляемая при помощи любого из перечисленных методов вероятность нулевой гипотезы Р (она же – т.н. «уровень значимости») оказывается ниже некоторого заранее принятого уровня (обычно – менее 0,05, но иногда – менее 0,1), нулевая гипотеза отклоняется, т.е. анализируемое распределение не является нормальным. Наоборот, если вычисленное значение Р оказывается больше или равно 0,05 (либо 0,1), анализируемое распределение признается соответствующим нормальному.

Объяснение терминов «нулевая гипотеза», «выборка», «генеральная совокупность» и «уровень значимости» будет дано при последующем изложении материала.

 






ТОП 5 статей:
Экономическая сущность инвестиций - Экономическая сущность инвестиций – долгосрочные вложения экономических ресурсов сроком более 1 года для получения прибыли путем...
Тема: Федеральный закон от 26.07.2006 N 135-ФЗ - На основании изучения ФЗ № 135, дайте максимально короткое определение следующих понятий с указанием статей и пунктов закона...
Сущность, функции и виды управления в телекоммуникациях - Цели достигаются с помощью различных принципов, функций и методов социально-экономического менеджмента...
Схема построения базисных индексов - Индекс (лат. INDEX – указатель, показатель) - относительная величина, показывающая, во сколько раз уровень изучаемого явления...
Тема 11. Международное космическое право - Правовой режим космического пространства и небесных тел. Принципы деятельности государств по исследованию...



©2015- 2024 pdnr.ru Все права принадлежат авторам размещенных материалов.