Обратная связь
|
Статистические гипотезы и проверка их значимости
Теория вероятности – строгая математическая дисциплина; в основе всех методов статистической обработки лежат ранее доказанные теоремы (нередко – названные именами доказавших их математиков). Во всех случаях статистических методов доказательство ведется «от противного»: на основании имеющихся данных исследователь пытается доказать, что исходная посылка ложна, т.е. разница между сравниваемыми результатами отсутствует, значения переменной в контрольной и опытной группах не различаются, следовательно, являются выборками из одной генеральной совокупности. В том случае, если указанное предположение удается доказать, результат статистического теста считается отрицательным (нет различий между сравниваемыми данными), если не удается – положительным. Все статистические тесты сводятся к анализу различий между рядами данных – либо реально полученных в эксперименте, либо экспериментальных и «математически ожидаемых», соответствующих предполагаемому виду вероятностного распределения.
Описанная выше гипотеза, предполагаемая при доказательстве «от противного» и соответствующая отрицательному результату статистического теста, называется «нулевая гипотеза» и обозначается «Н0». Понятие «нулевой гипотезы» является одним из ключевых в математической статистике. Альтернативная гипотеза (Н1) логически отрицает Н0 и соответствует положительному результату статистического теста (т.е. между сравниваемыми данными есть различия, они являются выборками из разных генеральных совокупностей).
Поскольку статистические методы обработки данных имеют дело лишь с вероятностью того или иного факта / события / заключения, то результатом их применения является т.н. «показатель вероятности нулевой гипотезы», или «р». Мало кто понимает, что означает знаменитый показатель «латинское пэ малое», приводимый в качестве доказательства статистической значимости результатов во множестве научных работ – а это всего лишь уровень вероятности того, что нулевая гипотеза об отсутствии различий верна. Соответственно, выражение «р≤0,05» означает, что вероятность нулевой гипотезы составляет 5% или менее (и соответственно, вероятность альтернативной гипотезы равна 95% или более).
Для оценки результатов статистической обработки данных научных исследований пришлось ввести т.н. «уровень значимости». Уровень значимости (α, significance level) – это пороговое значение показателя вероятности нулевой гипотезы («р»), необходимое для принятия отклоняющего решения (т.е. необходимое для признания результата статистического теста положительным или отрицательным). Для биомедицинских исследований величина уровня значимости обычно устанавливается ≥0,05 (5%), реже – ≥0,01 (1%), что считается достаточным. Предположение, при проверке которого вычисленный показатель р соответствует заранее оговоренному уровню значимости либо ниже его, называют «статистически значимым» (говорить «статистически достоверный» – ошибочно).
Нельзя при этом забывать о смысле понятия «уровень значимости». Чем ниже α, тем ниже вероятность ошибочного отклонения Н0, но эта вероятность никогда не равна нулю! Так, α=0,05 (т.е. 1/20) показывает, что имеется 5% вероятность того, что найденная связь между переменными в выборке является лишь случайной особенностью данной выборки. Данное свойство лежит в основе т.н. «проблемы множественных сравнений».
Суть проблемы состоит в том, что при проведении большого числа статистических тестов на одной выборке данных существует вероятность, прямо пропорциональная количеству тестов, что результаты по крайней мере некоторых из них окажутся ложноположительными вследствие ненулевой вероятности Н0 (т.е. ввиду наличия уровня значимости). Например, при проведении 100 сравнений и заданном уровне значимости α=0,05 (т.е. 5% вероятности нулевой гипотезы) по крайней мере 100×0,05=5 из обнаруженных статистически значимых различий в реальности окажутся не существующими (ложноположительными).
Классическое решение данной проблемы было предложено Карло Бонферрони в 1935 г.: при проведении m независимых статистических тестов значимы только те результаты, для которых р≤0,05÷m. Таким образом, если было выполнено 10 сравнений с использованием одного и того же массива данных, то величина р, необходимая для признания выявленных различий статистически значимыми, должна быть не более 0,05÷10=0,005.
Критерий Бонферрони – очень строгий критерий: поскольку он существенно повышает специфичность эксперимента, он, соответственно, пропорционально понижает чувствительность, т.е. мощность исследования; вследствие этого, при использовании поправки Бонферрони вероятность сделать открытие там, где его нет, очень низка, но и вероятность упустить открытие там, где оно есть, очень высока. С целью уменьшить негативное влияние поправки Бонферрони на количество и качество получаемых результатов в 1995 г. был предложен метод FDR (False Discovery Rate control). Согласно указанному методу, все выполненные статистические тесты вначале упорядочиваются по уровню величин р: р1 ≤ р2 ≤ р3… ≤ рm. Затем для контроля FDR на уровне α (например, 0,05) вычисляют:
, где
j* – уровень FDR;
j – порядковый номер статистического теста;
m – общее число тестов;
pj – величина р для j-ого теста;
α – желаемый уровень значимости.
При рj ≤ j* различия считаются значимыми, при рj > j* - незначимыми.
Проще говоря, допустимый уровень FDR для теста j равен (0,05×j)/m, где m – общее число выполненных тестов. Понятно, что поправка FDR значительно менее консервативна, чем поправка Бонферрони, вследствие чего мощность эксперимента существенно повышается.
В случае, если контроль FDR также является чрезмерно консервативным, используют т.н. перестановочный тест (permutation test): в базе эксперимента случайным образом производится перестановка пометок «опыт» и «контроль» при помощи компьютерного алгоритма. После перестановки заново вычисляется уровень р для каждого статистического теста. Процедура повторяется не менее 10.000 раз, причем все случаи, когда вычисленные значения р меньше исходных, фиксируются. Затем вычисляется откорректированное значение р по формуле:
, где
рperm – величины р, вычисленные при выполнении перестановочного теста;
N – количество повторений процедуры перестановки (permutation test).
Подробнее о данной проблеме см. Главу III, пункт 6 (рандомизированные контролируемые клинические испытания, РКИ), где, в числе прочего, даются определения чувствительности («мощности») и специфичности исследования.
При публикации результатов научных исследований рекомендуется указывать величину р как есть, с округлением до 2-й значащей цифры (например, р=0,00014). Существует менее рекомендованный альтернативный подход, когда указывается, что р не превышает некий стандартный уровень значимости (например, р<0,01). В обоих случаях должно быть выдержано единообразие представления результатов исследования (т.е. избранная форма представления р должна быть одинаковой на протяжении всей публикации).
Статистические гипотезы, выдвигаемые исследователями, могут быть направленные и ненаправленные. Ненаправленная гипотеза предполагает, что значения переменной в первой выборке отличаются от значений во второй (two-tails), при этом направление различий неизвестно. Направленная гипотеза предполагает, что заранее известно, что значения переменной в первой выборке больше значений во второй (one-tail). В научной практике ситуация, описываемая ненаправленной гипотезой, встречается намного чаще, чем соответствующая направленной гипотезе, ибо результат научного поиска, как правило, неизвестен заранее. Это существенно, поскольку большинство программ для статистической обработки вычисляет и предоставляет исследователю величины р для обоих вариантов гипотез (т.н. односторонний, или one-tailed p, и двусторонний, или two-tailed p), при этом величина одностороннего р в два раза меньше величины двустороннего, что создает соблазн использовать при формулировке статистического заключения именно ее. Делать этого не следует, дабы статистическая обработка не превращалась в совсем уж наглую ложь; в каждом случае нужно отчетливо представлять, какого рода гипотеза выдвигалась перед началом исследования.
Если величина р больше принятого уровня значимости, это не означает, что результат соответствующего статистического теста должен непременно игнорироваться при анализе результатов работы. Как уже говорилось, р – это всего лишь степень вероятности нулевой гипотезы, а уровень значимости выбирается произвольно. Проще говоря, если в ходе исследования были получены интересные, логически обоснованные и практически важные результаты, статистическая значимость которых оказалась недостаточной, то их необходимо опубликовать как предварительные (с указанием уровня р), а в дальнейшем – провести еще одно исследование большей мощности, увеличив размер выборки в соответствии с полученными данными (см. рекомендации в Главе III, раздел 6.5). Автору неоднократно встречались публикации в уважаемых зарубежных журналах, где р составлял от 0,06 до 0,20.
В дальнейшем повествовании будет неоднократно встречаться понятие «число степеней свободы», или df. Это условный параметр, необходимый для статистических расчетов; для выборки размером n число степеней свободы (df) вычисляется как n–1.
|
|