Обратная связь
|
Анализ распределения данных. Виды вероятностных распределений. Нормальное распределение и его свойства
Каждый вариационный ряд характеризуется особой формой полигона частот, определяемой специфическими закономерностями соответствующего явления / признака. Вид полигона частот при количестве замеров величины признака, стремящемся к бесконечности, называется вероятностным распределением данных. Вероятностное распределение (далее – просто «распределение» или «распределение данных») – одно из основных понятий теории вероятностей и математической статистики. Распределение может быть дискретным (описывается вероятностями отдельных значений) и непрерывным (описывается плотностями вероятности). К дискретным относятся распределения Бернулли, биномиальное, геометрическое, гипергеометрическое, логарифмическое, отрицательное биномиальное, Пуассона и дискретное равномерное. К непрерывным относятся распределения Вейбулла, гиперэкспоненциальное, Колмогорова, Коши, Лапласа, логнормальное, нормальное (Гаусса), логистическое, Накагами, Парето, полукруговое, непрерывное равномерное, Райса, Рэлея, Стьюдента, Фишера, хи-квадрат, экспоненциальное, гамма и бета.
Один из важнейших видов распределений – т.н. нормальное или Гауссово распределение (может также называться «второй закон Лапласа» или «распределение Гаусса-Лапласа»). Для ученого, занятого обработкой результатов биомедицинских исследований, фактически существует два варианта вероятностных распределений – нормальное и все остальные, поскольку в случае нормального (или близкого к нему) распределения анализируемых данных возможно применение т.н. параметрических методов статистической обработки, все же прочие варианты требуют использования т.н. непараметрических методов (подробно см. ниже).
Распределение вероятностей, соответствующее нормальному (Гауссову), задается функцией плотности вероятностей:
, где
µ – математическое ожидание (в данном случае – медиана и мода распределения, пояснения см. далее);
σ – стандартное отклонение распределения (σ2, соответственно – его дисперсия).
Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием 0 и стандартным отклонением 1 (см. рис. 4).
Рис. 4. Вид графика плотности вероятности нормального распределения для разных значений σ и µ (зеленым цветом отмечен график стандартного нормального распределения).
Важное значение нормального распределения в математической статистике вытекает из центральной предельной теоремы теории вероятностей: если результат наблюдения является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то при увеличении числа слагаемых распределение центрированного и нормированного результата стремится к нормальному. Проще говоря, распределение значений некоего признака стремится к нормальному, если разница между результатами замеров величины данного признака обусловлена только случайными факторами, а число замеров стремится к бесконечности. Данное свойство нормального распределения (благодаря которому оно и получило свое название) чрезвычайно широко используется в различных методах статистического анализа, являясь их отправной точкой.
Нормальное распределение часто встречается в природе. Например, следующие случайные величины хорошо моделируются нормальным распределением:
– отклонение при стрельбе;
– погрешности большинства измерений;
– ряд характеристик живых организмов (в том числе – человека).
Нормальное распределение обладает рядом особенностей, позволяющих его более или менее точно идентифицировать на основании весьма поверхностного анализа:
1. График плотности вероятности нормального распределения имеет колоколообразную форму и симметричен относительно вертикальной оси (см. рис. 4);
2. У графика нормального распределения одна мода, причем значения моды, медианы и среднего арифметического вариационного ряда в случае нормального распределения совпадают (определения среднего арифметического, медианы и моды будут даны позднее);
3. В случае нормального распределения расстояние от 25-го процентиля (1-го квартиля, 25‰) до медианы (2-го квартиля, 50‰) вариационного ряда равно расстоянию от медианы до 75-го процентиля (3-го квартиля, 75‰). Смысл понятий «квартиль» и «процентиль» будет объяснен в следующем разделе, пока просто запоминайте, стараясь не упустить суть);
4. Главнейшим свойством графика плотности вероятности нормального распределения является то, что расстояние по абсциссе (горизонтальной оси) от среднего арифметического вариационного ряда (М), измеренное в единицах стандартного отклонения (σ), всегда дает одинаковую общую площадь под кривой: между ±1 стандартным отклонением находится 68,26% площади, между ±2 стандартными отклонениями – 95,44% площади, между ±3 стандартными отклонениями – 99,72% площади (см. рис. 5).
Рис. 5. Главное свойство графика плотности вероятности нормального распределения.
Проще говоря, в пределах М ± 1σ всегда должно находиться приблизительно 68,3% вариант (при условии, что распределение анализируемого вариационного ряда соответствует нормальному), в пределах М ± 2σ – 95,4% вариант, и в пределах М ± 3σ – 99,7%. Соответственно, вероятность того, что значение, относящееся к данному вариационному ряду, окажется удалено от его среднего арифметического более, чем на три «сигмы», очень мала, составляя ≈0,3% (этот факт известен как «правило трёх сигм»).
Всякий вариационный ряд, полученный в результате измерений какого-либо признака в анализируемой выборке (понятие выборки также будет дано позднее), перед началом статистического анализа должен быть проанализирован на предмет соответствия нормальному распределению с целью выбора адекватных методов статобработки (параметрических либо непараметрических). Следует отметить, что широкая распространенность нормального распределения данных в биомедицинских исследованиях сильно преувеличена: на самом деле нормальное распределение в чистом виде почти никогда не встречается. Как правило, исследователи имеют дело либо с более-менее хорошим приближением наблюдаемого распределения к нормальному (см. рис. 6), либо с ассиметричными распределениями (см. рис. 7, 8).
Рис. 6. Хорошее приближение наблюдаемого распределения к нормальному (уровень тревожности среди респондентов на Украине (n=1725), данные 2008 г.).
Графики распределений на рис. 4 симметричны. Распределения многих изучаемых в медицине признаков также выглядят достаточно симметрично. Однако это не всегда так. Например, график на рис. 7, на котором показаны данные по концентрации простатического специфического антигена (ПСА) в сыворотке крови, является асимметричным. Асимметричное распределение называют также смещенным распределением.
Распределение, пик которого сдвинут влево, а «хвост» – вправо, называется «положительно смещенным» или «смещенным вправо». На рис. 7 распределение смещено вправо (также см. рис. 8, распределение концентраций щелочной фосфатазы). Распределение, пик которого находится справа, а «хвост» – слева, называется «отрицательно смещенным» или «смещенным влево». На рис. 8 распределение уровня гемоглобина смещено влево. В обоих случаях распределение данных, внешне напоминая «колокол», не является нормальным и не подходит для обработки параметрическими методами статистического анализа. К сожалению, в большинстве случаев распределение данных, полученных в ходе биомедицинских исследований, является ассиметричным.
Следует помнить и о том, что нормальное распределение может иметь место только для непрерывных количественных признаков (переменных), таких, как рост, вес, возраст, концентрация и т.п. Если изучаемый признак – качественный, порядковый либо даже количественный дискретный (например, число членов семьи, количество назначенных антибиотиков, число смен антибактериальной терапии, количество комнат в помещении и т.д.), его распределение априори не может быть нормальным, и статистическая обработка подобных признаков должна производиться с использованием непараметрических методов.
Рис. 7. Пример распределения, смещенного вправо (концентрация простатического специфического антигена (ПСА) в сыворотке крови).
Рис. 8. Примеры распределений, похожих на нормальное, но не являющихся таковым (калий сыворотки и глюкоза плазмы – избыточный эксцесс, пик заострен; щелочная фосфатаза – распределение смещено вправо, гемоглобин – соответственно, влево).
Способы выявления нормального характера распределения:
1. Визуальный анализ предварительно построенного полигона (гистограммы) частот – симметричность, колоколообразный вид;
2. Строгое доказательство симметричности распределения: среднее арифметическое = медиана = мода, расстояние от 25‰ до медианы равно расстоянию от медианы до 75‰;
3. Асимметрия (skewness) нормального распределения равна 0. Асимметрия распределения с длинным правым хвостом (смещенного вправо) положительна, с длинным левым хвостом (смещенного влево) – отрицательна;
4. Эксцесс (kurtosis), показывающий «остроту пика» распределения, для стандартного нормального распределения равен 0. Если эксцесс положителен, то пик заострен, если отрицателен – соответственно, закруглен;
5. Для проверки нормальности распределения можно также использовать построение графиков квантилей (т.н. Q-Q plot, данная опция предоставляется всеми программами статистического анализа). На таких графиках изображаются квантили двух распределений – эмпирического (т.е. построенного по анализируемым данным) и теоретически ожидаемого стандартного нормального распределения. При нормальном распределении проверяемой переменной точки на графике квантилей должны выстраиваться в прямую линию, исходящую из левого нижнего угла графика под углом 45° (см. рис. 9). Графики квантилей особенно полезны при работе с небольшими по размеру выборками, для которых невозможно построить гистограммы, принимающие какую-либо определенную форму.
Рис. 9. Пример графика квантилей для нормально распределенной совокупности данных, состоящей из 500 наблюдений.
Следует отметить, что интерпретация графиков квантилей при работе с небольшими выборками, происходящими из нормально распределенных генеральных совокупностей, требует определенного навыка. Дело в том, что при небольшом числе наблюдений точки на графике квантилей не всегда могут образовывать четко выраженную прямую линию. В качестве иллюстрации на рис. 10 приведены графики квантилей для 5 случайным образом сгенерированных нормально распределенных выборок по 20 наблюдений каждая. Обратите внимание на то, что фигура, в которую выстраиваются точки, местами далека от прямой линии.
Тем не менее, если график квантилей имеет однозначно криволинейный вид при большом числе наблюдений в выборке, это определенно свидетельствует о том, что распределение значений изучаемого признака в данной выборке не является нормальным (см. рис. 11).
В тех же нередких случаях, когда график квантилей практически прямолинеен, за исключением нескольких крайних значений (как на рис. 12), можно попробовать удалить несколько наименьших и наибольших вариант из анализируемой выборки (рассматривая их как артефакты, не соответствующие общей тенденции и, вероятнее всего, связанные с погрешностями при измерениях крайне низких и крайне высоких значений изучаемого признака); при этом распределение совокупности данных приобретет вид нормального. Тем не менее, такой подход нельзя рекомендовать, пока не исключены все остальные причины отличия вида наблюдаемого в эксперименте распределения от нормального;
Рис. 10. Графики квантилей для пяти случайным образом сгенерированных нормально распределенных выборок (для каждой n=20).
Рис. 11. График квантилей для выборки, распределение которой очевидным образом отличается от нормального (n=200).
Рис. 12. График квантилей для выборки, распределение которой почти не отличается от нормального, за исключением нескольких крайних значений изучаемого признака (n=200).
6. Более точную информацию о форме распределения можно получить с помощью критериев нормальности: критерия хи-квадрат, критерия Колмогорова-Смирнова и W-критерия Шапиро-Уилка. Общепринятым методом проверки формы распределения является тест Колмогорова-Смирнова с поправкой Лиллиефорса (программа Statistica предлагает его по умолчанию). Считается, что указанный метод применим при числе наблюдений не менее 60; если же размер выборки (n) менее 60, предпочтительно использование критерия Шапиро-Уилка.
В общем виде проверяемую при помощи обоих тестов нулевую гипотезу можно сформулировать так: «Анализируемая выборка происходит из генеральной совокупности, имеющей нормальное распределение». Если вычисляемая при помощи любого из перечисленных методов вероятность нулевой гипотезы Р (она же – т.н. «уровень значимости») оказывается ниже некоторого заранее принятого уровня (обычно – менее 0,05, но иногда – менее 0,1), нулевая гипотеза отклоняется, т.е. анализируемое распределение не является нормальным. Наоборот, если вычисленное значение Р оказывается больше или равно 0,05 (либо 0,1), анализируемое распределение признается соответствующим нормальному.
Объяснение терминов «нулевая гипотеза», «выборка», «генеральная совокупность» и «уровень значимости» будет дано при последующем изложении материала.
|
|