Статистический анализ взаимосвязи и взаимозависимости признаков
Анализ взаимосвязи различных признаков очень часто встречается в процессе обработки данных биомедицинских исследований. В самом деле, нередко бывает необходимо строго доказать взаимосвязь между неким воздействием и изучаемым эффектом («исходом»), а также оценить силу и характер подобной взаимосвязи.
Корреляционный анализ
Корреляция – статистическая взаимосвязь двух параметров между собой; сила этой взаимосвязи измеряется т.н. коэффициентом корреляции.
Коэффициент корреляции (r) – показывает, в какой степени значения одного параметра изменяются при пропорциональном изменении значений другого параметра. Проще говоря, коэффициент корреляции показывает, на какую величину изменится значение одного параметра при изменении значения другого параметра на единицу. Т.о., если коэффициент корреляции равен +0,85, то при изменении значения любого из параметров на +1 значение другого параметра также вырастет на 0,85; если же коэффициент корреляции равен –0,47, то при изменении величины любого из параметров на +1 значение другого параметра изменится на –0,47, т.е. уменьшится на 0,47. Величина коэффициента корреляции изменяется от –1 до +1, причем 0 означает отсутствие корреляции.
Если значение коэффициента корреляции положительное (больше нуля), такая корреляция называется прямой или положительной. Если значение коэффициента корреляции отрицательное (меньше нуля), то соответствующая корреляция называется обратной или отрицательной. Прямая корреляция означает, что при увеличении одного параметра другой также увеличивается, в случае обратной корреляции – соответственно, уменьшается.
Как для остальных видов статистического анализа, для корреляции рассчитывается показатель вероятности нулевой гипотезы (р), который должен быть равен или меньше заранее оговоренного уровня значимости (α) – см. раздел 8 настоящей главы. Обычно уровень значимости устанавливается равным 0,05 (что обычно для биомедицинских исследований), с возможным внесением поправки на проблему множественных сравнений (см. выше).
В зависимости от величины по модулю коэффициента корреляции сила корреляционной взаимосвязи классифицируется как:
| r | ≤ 0,25 – слабая корреляция;
0,25 < | r | < 0,75 – умеренная корреляция (корреляция средней силы);
| r | ≥ 0,75 – сильная корреляция.
Возможны ситуации, когда найденная корреляционная зависимость не может быть корректно учтена и использована при формулировке выводов исследования:
1. Корреляция статистически значима (р меньше или равен принятому уровню значимости, например, 0,05), но коэффициент корреляции слишком мал (≤0,25). Такие корреляции могут представлять интерес для исследователей неявных тенденций в больших популяциях, но для клиники они, как правило, не важны, поскольку описываемые ими взаимообусловленные изменения параметров организма слишком незначительны. Проще говоря, такая корреляция статистически значима, но клинически незначима. Подобные зависимости во множестве выявляются при анализе выборок большого размера. Обычно в клинических исследованиях принимают во внимание как минимум корреляции средней силы;
2. Коэффициент корреляции высок, но она статистически незначима (р>0,05 либо иного уровня значимости, принятого исследователями). Проще говоря, такая корреляция клинически значима, но статистически незначима. Подобные ситуации, как правило, имеют место при малом размере анализируемой выборки; при этом увеличение размера выборки до рекомендованного (см. Главу III, раздел 6.5) может повысить статистическую значимость корреляции до приемлемой (в случае, если корреляционная зависимость действительно имеет место). Необходимо помнить о том, что в малых выборках высока вероятность выявления взаимосвязей, обусловленных исключительно случайным сочетанием значений параметров, причем чем меньше размер выборки, тем выше роль случайности в результатах статистической обработки. Как указывалось ранее, статистическая обработка данных, полученных при анализе выборок, включающих менее 20 наблюдений, почти всегда не имеет смысла.
Методы корреляционного анализа могут быть параметрическими (предназначенными для анализа взаимозависимости нормально распределенных данных) и непараметрическими.
Параметрический корреляционный анализ – Пирсона.
Критерии применимости корреляционного анализа Пирсона:
1. Все учитываемые признаки должны быть нормально распределены;
2. Все учитываемые признаки должны быть количественными.
Непараметрический корреляционный анализ – Спирмена, Тау Кендалла, Гамма.
Критерии применимости перечисленных разновидностей корреляционного анализа:
1. Учитываемые признаки – количественные, распределения которых не являются нормальными либо неизвестны (по крайней мере, для одного из признаков);
2. Возможен анализ смеси количественных и качественных (порядковых) признаков;
3. Возможен анализ нескольких качественных (порядковых) признаков.
Ранговая корреляция Спирмена (ρ) – универсальный метод, используется для оценки взаимосвязи количественных (независимо от вида распределения) и/или порядковых (качественных) признаков. Наиболее популярный метод корреляционного анализа.
Ранговая корреляция Тау Кендалла (τ) – используется для оценки взаимосвязи порядковых признаков или смеси количественных и порядковых признаков.
Гамма-корреляция (γ) – используется, когда в анализируемых переменных имеется много вариант, значения которых совпадают.
Как и для прочих статистических показателей, для коэффициента корреляции может быть рассчитан доверительный интервал. Вычисляется он следующим образом:
1. Вычисляется функция z:
Здесь r – коэффициент корреляции.
2. Вычисляется стандартная ошибка m для z:
Здесь n – количество наблюдений в переменных, для которых рассчитывается коэффициент корреляции.
3. Вычисляются нижний и верхний пределы функции z (z1 и z2):
Здесь t – значение t-критерия для данного числа степеней свободы (см. выше: df = n–1) и заданного уровня значимости α (обычно р≤0,05). Подсчет t-критерия обычно выполняется при помощи специальной функции программы статистической обработки. Например, в программах семейства Statistica этот подсчет реализован следующим образом (см. рис. 23):
Рис. 23. Подсчет t-критерия Стьюдента для данного числа степеней свободы и заданного уровня значимости α, реализованный в программах Statistica 7.0 и 8.0.
4. Вычисляются нижний и верхний пределы ДИ для коэффициента корреляции r:
С вероятностью 95% истинное значение коэффициента корреляции, вычисленное на основе анализа генеральной совокупности, находится в указанных границах.
Коэффициенты корреляции можно попарно сравнивать. Для проверки гипотезы о равенстве двух корреляций (H0) величины сравниваемых коэффициентов корреляций r1 и r2 подвергаются z-преобразованию Фишера:
После этого вычисляется стандартная ошибка разницы по формуле:
Здесь:
n1 – количество пар значений переменных для первого коэффициента корреляции;
n2 – количество пар значений переменных для второго коэффициента корреляции.
Затем вычисляется значение t-критерия Стьюдента по формуле: t = (z1 – z2)/Sd
Для дальнейших расчетов берется абсолютное значение этого числа.
Затем вычисляется количество степеней свободы (df). В данном случае df = (n1 + n2) – 2
Зная t и df, при помощи таблицы критических значений t-критерия Стьюдента можно определить р (см. рис. 24).
Рис. 24. Сокращенная таблица критических значений t-критерия Стьюдента. Здесь df – число степеней свободы, α – уровень значимости (в данном случае будет соответствовать р).
Можно также вычислить доверительные интервалы для обоих сравниваемых коэффициентов корреляции и посмотреть, не пересекаются ли они: если ДИ пересекаются (границы ДИ накладываются друг на друга), то коэффициенты корреляции значимо не различаются.
Вышеописанные вычисления можно быстро выполнить при помощи описанного ранее диалогового окна программы Statistica версий 7.0 и 8.0 (см. рис. 22). Для этого необходимо знать величины собственно сравниваемых коэффициентов корреляции, число наблюдений (n) для каждого из них, а также тип статистической гипотезы (направленная или ненаправленная, т.е. одно- или двусторонняя – см. выше).
Ведя речь о корреляционном анализе, необходимо указать, что нельзя слепо доверяться его результатам!!! Дело в том, что довольно простая формула, по которой рассчитывается коэффициент корреляции, ничего не знает о том, существует ли взаимосвязь между анализируемыми признаками в действительности – она лишь анализирует по ряду формальных критериев функции, описывающие изменение этих признаков, и сравнивает полученные результаты друг с другом. Проще говоря, если два признака по чистой случайности изменяются сходным образом, они будут коррелировать между собой. Естественно, выявленные при помощи таких корреляций «взаимосвязи» пополняют копилку научных анекдотов. Так, на рис. 25 представлена взаимосвязь между количеством убийств в США и частотой использования браузера Internet Expolrer с очевидной сильной прямой корреляцией между указанными факторами, причем данные удивительным образом даже не подтасованы [4, 3].
| | |
Рис. 25. Взаимосвязь между количеством убийств в США и доли браузера Internet Explorer на рынке браузеров (данные за 2006-2011 гг.).
Еще один замечательный пример абсурдной корреляции показан на рис. 26, где отчетливо прослеживается взаимосвязь между количеством скачиваний известной свободной операционной системы Linux и количеством поисковых запросов по поводу прыщей (данные из кэша поисковых запросов портала Yandex).
В целом, выявление при анализе взаимосвязи неких факторов А и В статистически значимого коэффициента корреляции, соответствующего взаимозависимости средней силы и более, может свидетельствовать о том, что в реальности:
1. Признак А влияет на признак В;
2. Признак В влияет на признак А;
3. На оба признака влияет неизвестный третий фактор С;
4. Признаки А и В не влияют друг на друга, но по чистой случайности изменяются сходным образом (параллельно).
Рис. 26. Взаимосвязь между количеством скачиваний операционной системы Linux и количеством поисковых запросов по поводу прыщей (данные из кэша Yandex).
Таким образом, корреляционный анализ устанавливает наличие и силу только статистической связи, и наличие корреляции двух признаков (любой силы) не может интерпретироваться как доказательство причинно-следственной связи этих признаков.
Говоря о практической стороне дела, при анализе коэффициентов корреляции необходимо принимать во внимание следующие соображения:
1. Корреляция, даже статистически высокозначимая, должна характеризоваться достаточным числом наблюдений в коррелирующих переменных (не менее 20 в каждой);
2. Лучше устанавливать уровень значимости (α) с поправкой на множественность сравнений, т.е. он должен быть разумно низким, например, ≤0,01 или даже ≤0,001 – это повышает вероятность того, что такая корреляция не будет являться результатом случайного совпадения значений анализируемых признаков;
3. Каждая выявленная корреляционная зависимость должна получать четкое логическое обоснование, подтверждая некоторый известный науке феномен либо внятную, обоснованную гипотезу экспериментаторов.
Существует универсальная мера качества (объясняющей способности) причинных статистических моделей, применяющаяся, главным образом, в дисперсионном и регрессионном анализах (см. далее), но также и при вычислении коэффициентов корреляции. Это т.н. доля объясненной дисперсии, которая рассчитывается по формуле: r2×100 (%). Более точно – это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели) в общей дисперсии зависимой переменной. Чем больше величина доли объясненной дисперсии, тем выше качество объясняющей модели.
Регрессионный анализ
Регрессионный анализ – статистический метод исследования влияния одной или нескольких «независимых» переменных на «зависимую» переменную. Независимые переменные называют также регрессорами или предикторами, а зависимые переменные – критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения между ними.
Цели регрессионного анализа:
1. Определение степени обусловленности вариации зависимой переменной изменением предикторов (независимых переменных);
2. Предсказание значения зависимой переменной с помощью независимых (одной или нескольких), т.е. построение математической модели поведения критериальной переменной в зависимости от изменения переменных-предикторов;
3. Определение вклада отдельных независимых переменных (предикторов) в вариацию зависимой переменной.
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. Т.о., регрессионный анализ относится к методам математического моделирования. Подобный вид анализа является технически сложным и почти никогда не производится вручную – все необходимые операции выполняет программа статистической обработки данных.
Различают следующие разновидности регрессионного анализа:
1. Однофакторный (один независимый признак) и многофакторный (два и более независимых признака);
2. Линейный (моделируется полиноминальная функция первой степени) и нелинейный (моделируются более сложные функции – логит, пробит, пропорциональных рисков по Коксу, экспоненциальная регрессия и т.п.).
Классический регрессионный анализ не предусматривает использования количественных дискретных и качественных признаков – в анализ могут включаться только количественные непрерывные переменные (но есть специальные модификации, позволяющие работать и с дискретными, и с порядковыми признаками). Результат регрессионного анализа – построение регрессионного уравнения с наибольшим коэффициентом детерминации (R2).
1. Однофакторный линейный регрессионный анализ (простая регрессия) – один из вариантов двумерного статистического анализа.
Критерии применимости однофакторного линейного регрессионного анализа:
1. Число наблюдений в исследуемой выборке (n) должно быть в несколько раз больше числа независимых признаков;
2. Все анализируемые признаки должны быть количественные, непрерывные и нормально распределенные;
3. Каждому значению Х (т.е. независимого признака) должно соответствовать только одно значение Y (т.е. зависимого признака);
4. В случае множественного регрессионного анализа необходимо также отсутствие линейных корреляций между независимыми признаками (т.н. «отсутствие мультиколлинеарности объясняющих признаков»).
Формула простой линейной регрессии имеет вид: Y = a + bX,
Y – значение зависимой переменной;
X – значение независимой переменной;
где а – константа, при необходимости вводимая программой статистической обработки (т.н. «свободный член»);
b – коэффициент при аргументе (независимой переменной).
Соответственно, результат выполнения однофакторного линейного регрессионного анализа – вычисленные величины свободного члена и коэффициента при аргументе. Качество построенной математической модели характеризуется показателем р (должен быть меньше или равен заранее оговоренному уровню значимости), а также коэффициентом детерминации R2 (должен максимально приближаться к единице). Напоминаем, что R2×100 (%) – это т.н. доля объясненной дисперсии, о которой шла речь ранее. Смысл данного понятия в том, что изменение признака Х приводит к изменению признака Y в R2×100 процентах случаев.
2. Многофакторный линейный регрессионный анализ (множественная регрессия) – способ анализа связи между несколькими независимыми переменными и зависимой переменной, выражающий данную связь в виде уравнения множественной линейной регрессии:
Здесь:
Y – значение зависимой переменной;
а – константа, при необходимости вводимая программой статистической обработки (т.н. «свободный член»);
b1…n – коэффициент при аргументах (независимых переменных) X1…n;
X1…n – значения соответствующих независимых переменных (№1, 2 и т.д., вплоть до n).
Критерии применимости многофакторного линейного регрессионного анализа такие же, как и однофакторного (см. выше).
Результат выполнения многофакторного линейного регрессионного анализа – вычисленные величины свободного члена и коэффициентов при всех введенных в уравнение аргументах. Качество построенной математической модели характеризуется показателем р (должен быть меньше или равен заранее оговоренному уровню значимости), а также коэффициентом детерминации R2 (должен максимально приближаться к единице).
3. Нелинейный регрессионный анализ («подгонка кривых») – способ анализа связи между одной или несколькими независимыми переменными и зависимой переменной, выражающий данную связь в виде уравнения какой-либо нелинейной функции.
Различают два класса нелинейных регрессий:
– регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
– регрессии, нелинейные по оцениваемым параметрам.
Примером регрессии, нелинейной по включаемым в нее объясняющим переменным, могут служить следующие функции:
– полиномы разных степеней (т.н. степенные функции):
Y = а + bX + cX2 (квадратичная, или параболическая функция)
Y = а + bX + сX2 + dX3 (кубическая функция)
Y = а + bX + сX2 + dX3 + eX4 и т.д.
Здесь:
Y – значение зависимой переменной;
а – константа, при необходимости вводимая программой статистической обработки (т.н. «свободный член»);
b, с, d, e и т.д. – коэффициенты при аргументе (независимой переменной) X;
X – значение независимой переменной;
– равносторонняя гипербола: Y = a + b/X (обозначения те же – см. выше).
– полулогарифмическая функция: Y = a + b×lnX
К регрессиям, нелинейным по оцениваемым параметрам, относятся функции:
– степенная: Y = aXb
– показательная: Y = abX
– экспоненциальная: Y = ea+bX, где e – т.н. число Эйлера, или основание натурального логарифма (≈2,718).
– гиперболическая (не равносторонняя): Y = a
– логистическая (S-образная, сигмоида): Y =
– обратная: Y =
Графики некоторых из перечисленных функций показаны на рис. 27:
Рис. 27. Графическое отображение различных (линейных и нелинейных) функций, применяемых при выполнении нелинейного регрессионного анализа («подгонки кривых»).
Пример результата успешно выполненного нелинейного регрессионного анализа приведен на рис. 28. В данном случае R2=0,999, а математическая модель соответствует функции полинома второго порядка (т.е. квадратичной функции).
Общие замечания по регрессионному анализу:
Цель выполнения регрессионного анализа – нахождение математической модели, наилучшим образом описывающей наблюдающуюся в эксперименте закономерность. Данная модель в дальнейшем может использоваться для предсказания поведения той или иной системы в зависимости от изменения некоторых контролируемых факторов, что может быть весьма полезно и в медицине (например, предсказание прогноза заболевания и возможности развития его осложнений по некоторым ключевым параметрам, отслеживаемым при поступлении пациента в стационар или на ранних этапах госпитализации). Хорошие математические модели могут лечь в основу разработки анкет, опросников и шкал для диагностики различных заболеваний и определения лечебной тактики.
Рис. 28. Результат успешного применения нелинейного регрессионного анализа (подгонки кривых). Функция полинома второго порядка (квадратическая, или параболическая) идеально описывает поведение отслеживаемого параметра.
Признаки «хорошей» модели:
Обычно для построения «хорошей» работоспособной модели и сравнения ее с другими возможными моделями необходимо учитывать следующие свойства (критерии):
Скупость (простота). Модель должна быть максимально простой. Данное свойство определяется тем фактом, что модель не отражает действительность идеально, а является ее упрощением. Поэтому из двух моделей, приблизительно одинаково отражающих реальность, предпочтение отдается модели, содержащей меньшее число объясняющих переменных.
Единственность. Для любого набора статистических данных определяемые коэффициенты должны вычисляться однозначно.
Максимальное соответствие. Уравнение тем лучше, чем большую часть разброса зависимой переменной оно может объяснить. Поэтому стремятся построить уравнение с максимально возможным скорректированным коэффициентом детерминации R2. Считается, что для хорошей модели значение R2 должно составлять не менее 0,93…0,95.
Согласованность с теорией. Никакое уравнение не может быть признано качественным, если оно не соответствует известным теоретическим предпосылкам. Другими словами, модель обязательно должна опираться на теоретический фундамент, т.к. в противном случае результат ее использования может быть (и обязательно будет) весьма плачевным.
Прогнозные качества. Модель может быть признана качественной, если полученные на ее основе прогнозы подтверждаются реальностью.
Важно также отметить, что результаты регрессионного анализа применимы только к тому интервалу значений данных, на котором они получены.
Например, если в результате выполнения регрессионного анализа была построена математическая модель вероятности развития некоего заболевания в зависимости от величины определенных биохимических показателей, причем при построении модели были использованы данные биохимических тестов для лиц в возрасте 20-50 лет, то для лиц старше 50 и моложе 20 лет данную модель использовать некорректно. Аналогично, если построена математическая модель эпидемиологии некоего заболевания на основании отрывочных данных о заболеваемости, датированных 1960-2000 гг., то данную модель можно использовать для определения недостающих показателей заболеваемости только в пределах 1960-2000 гг., но не ранее 1960 г и не позднее 2000 г. Проще говоря, математические модели нельзя экстраполировать за пределы интервала значений переменных, использованных при их построении, а что получается при нарушении этого правила, показано на рис. 29.
– Как видишь, к концу следующего месяца у тебя будет более четырех дюжин мужей…
– Постой, но ведь нужно использовать более двух точек данных??!
– Упс, ты права… (все значительно хуже, чем представлялось сразу).
Рис. 29. Причина, по которой результаты регрессионного анализа применимы только к тому интервалу значений данных, на котором они получены. Проще говоря, вне указанного интервала описанная математической моделью закономерность может (хоть и не обязана) случайным образом отличаться от таковой в пределах интервала.
|