Обратная связь
|
Выбор статистического показателя
Для многих студентов слово «статистика» ассоциируется с зазубриванием формул и бесконечными часами утомительных подсчетов. В действительности профессиональный исследователь если и может воспроизвести, то не более нескольких формул и тратит на расчеты совсем немного времени. В этом нет необходимости: формулы есть в учебниках или заложены в компьютер, а расчеты можно производить на калькуляторе, на компьютере (или предоставить это студенту-лаборанту!). Что значительно важнее, это знать, какого рода статистический анализ подходит и информативен для определенного рода данных. При выборе наиболее подходящего статистического показателя учитывается множество факторов. В этом разделе мы рассмотрим три из них: уровень, па котором измеряется зависимая переменная, распределение значений зависимой переменной и план исследования.
Уровень измерения
Понятие уровня, или шкалы измерения было введено в главе 4. Вспомним, что выделяют четыре уровня измерения: поминальный, или качественное обозначение результатов; порядковый, или ранжирование результатов по некой шкале количественных значений; интервальный, или распределение результатов по шкале количественных значений, которые не только упорядочены, но и равноудалены друг от друга; и уровень отношений, или равномерное упорядочение результатов по шкале количественных значений, имеющей абсолютный нуль.
Уровень измерения является одним из факторов, определяющих, какой из статистических критериев уместнее всего употребить. Некоторые критерии, включая и t, используются только тогда, когда измерение производится на шкале интервалов или шкале отношений. Основание для этого требования станет очевидным при анализе формулы на рис. 7.1. Для расчета f-критерия мы должны произвести ряд арифметических операций с числами — сложить, а затем разделить, чтобы получить среднее, вычесть каждое число из среднего, чтобы' получить показатель отклонения и т. д. Эти операции имеют смысл только в том случае, если числа, с которыми мы работаем, являются точным отображением количественного значения, а не просто названиями или порядковыми номерами. Показатели частоты из табл. 7.1 отвечают указанному требованию, и, следовательно, к этим данным f-критерий применим. Однако f-критерий не подошел бы, если бы наши данные были основаны на описанной ранее рейтинговой шкале. Мы могли бы, к примеру, сложить рейтинговую оценку 5 («крайне агрессивный») с рейтинговой оценкой 1 («совершенно неагрессивный») и получили бы среднее 3 («умеренно агрессивный»). (Вскоре я уточню это замечание. Кроме того, необходимо помнить, что не все специалисты в области теории измерения и статистики сходятся во мнении по вопросу связи между шкалами измерения и статистическими показателями, — см. Cliff, 1993; Michell, 1986.)
Распределение показателей
Использование некоторых статистических критериев связано с определенными предположениями о распределении оцениваемых этим критерием показателей. В частности, так называемые параметрические критерии зависят от определенных
предположений о распределении данных. Это, фактически, и является смыслом термина «параметрический»: статистический анализ зависит от валидности некоторых предположений в отношении «параметров» популяции, к которой принадлежит выборка. Рассмотренный выше t-критерий — пример параметрического критерия; критерий, используемый в дисперсионном анализе (ANOVA), которому посвящен следующий раздел, — еще один пример.
Если говорить более конкретно, в основе использования большинства параметрических критериев лежит два допущения. Первое состоит в том, что показатели распределены по закону нормального распределения. Второе — что дисперсия в сравниваемых группах одинакова. Второе допущение распространяется не на все случаи, но применимо ко многим, часто используемым параметрическим критериям, включая -критерий и F-критерий дисперсионного анализа.
Рис. 7.1. Примеры нормального и ненормального распределения
Мы уже обсуждали понятие дисперсии. Рассмотрим теперь необходимые условия нормального распределения. На рис. 7.1 (а) изображено нормальное распределение. Термин «нормальное распределение* используется в отношении классической колоколообразной кривой, к распределению, в котором среднее, медиана и мода совпадают, а показатели постепенно уменьшаются по мере удаления от этого центра. Рис. 7.1 (б) и (в), напротив, иллюстрируют распределение, явно отличное от нормального.
Между уровнем измерения и распределением есть определенная связь. Показатели номинальных и порядковых шкал не могут иметь нормальное распределение. Что касается номинальной шкалы, в ней нет количественных значений, и поэтому вопрос распределения по шкале количественных значений не стоит; все, что здесь возможно, это подсчет частоты случаев в каждой из категорий. Если говорить о порядковой шкале, то нам неизвестна разница между показателями, а следовательно, и их распределение. Кроме того, в абсолютно упорядоченной шкале (то есть при отсутствии совпадений) на каждый уровень шкалы приходится всего по одному случаю; поэтому теоретически распределение будет плоским. Таким образом, необходимым условием нормального распределения является наличие шкалы отношений или интервалов. Тем не менее это недостаточное условие, поскольку кривая показателей все еще может выглядеть так, как на рис. 7.1 (б) или (в). Однако по закону нормального распределения могут быть распределены только показатели, соответствующие определенным шкалам.
Мы только что рассмотрели предположения, лежащие в основе использования параметрических критериев t и F. Скажем теперь несколько слов об альтернативе
Логика проверки с использованием критерия хи-кнадрат: определениетого, насколько полученные
значения частоты в каждой клетке таблицы отклоняютсяот ожидаемой частоты, если допустить
отсутствие различиймежду группами.
Фактическая частота
| Игрушечные машинки
| Конструктор
| Куклы и игрушечная мебель
| Принадлежности для рисования и рукоделия
| Мальчики
|
|
|
|
| Девочки
|
|
|
|
| Ожидаемая частота
|
| Мальчики
| 6,5
|
| 6,5
|
| Девочки
| 6,5
|
| 6,5
|
| , „ (фактическая частота — ожидаемая частота)2
Формула: У 1 = У----------------------------------------------------------'-
л ожидаемая частота
Х2= 23,42; уровень вероятности <0,01
Вывод: между мальчиками и девочками существуют значимые различия в предпочтении игрушек. Рис.7.2. Иллюстрация аналитическойпроцедуры с использованием критерия хи-кнадрат
параметрических критериев, после чего можно будет сделать еще несколько замечаний относительно выбора статистического показателя.
Как можно было ожидать, альтернативой параметрическим являются непараметрические критерии. Рисунок 7.2 служит иллюстрацией для широко используемого непараметрического критерия хи-квадрат. Гипотетические данные, представленные на рисунке, относятся к описанному ранее исследованию предпочтений игрушек; гипотетический результат состоит в том, что предпочтение определенных игрушек является функцией от пола1. Хи-квадрат используется при наличии номинальных данных, таких, как данные, представленные на рисунке, для которых f-критерий не подходит. Для каждого из четырех уровней измерения — номинального, порядкового, интервального и уровня отношений — существуют свои непараметрические критерии. Таким образом, этот подход имеет более широкое применение, чем использование параметрических критериев. Кроме того, непараметрические показатели не связаны с предположениями о виде распределения, которые лежат в основе параметрических показателей; поэтому непараметрические критерии применимы к данным, построенным на шкалах интервалов и отношений, но не удовлетворяющим параметрическим допущениям. (Из работ, посвященных непараметрическим критериям, можно назвать следующие: Gibbons, 1993; Marasculio&McSweeney, 1977; Siegel&Castellan, 1988.)
По какому принципу осуществляется выбор между параметрическими и непараметрическими характеристиками? Как только что отмечалось, в ряде случаев выбора просто нет, поскольку единственный вариант — это непараметрический
Формулу, представленную на, рисунке, называют«определительной формулой* хи-квадрат. Есть также «калькуляционная формула»: равноценная в математическом смысле, но более удобная для проведения расчетов. Формулы многих статистических показателей также разделяются на определительные и калькуляционные.
критерий. В других случаях необходимо принять решение, и здесь приобретает значение несколько понятий. Рассмотрим два из них: мощность и устойчивость.
Термин мощность означает вероятность того, что определенный логический критерий исключит нуль-гипотезу тогда, когда ее действительно нужно исключить. Чем мощнее критерий, тем лучше он выявляет истинные различия и поэтому позволяет безошибочно отвергнуть нуль-гипотезу. Это понятие, вероятно, кажется знакомым, поскольку мощность — это еще один способ охарактеризовать ошибку второго рода. Чем мощнее критерий, тем меньше вероятность ошибки второго рода.
В некоторых случаях параметрические критерии мощнее аналогичных непараметрических критериев. По сути, это объясняется тем, что при расчете параметрического критерия используется больше информации о данных. Многие непараметрические критерии, например, ограничены порядковыми характеристиками данных, в частности, рангом показателей в сравниваемых выборках. При расчете f-критерия, напротив, задействуются фактические показатели и абсолютная разница между ними; поэтому иногда с его помощью выявляются различия, которые не смогли выявить непараметрические критерии. Следует добавить, что разница в мощности, как правило, невелика и обнаруживается преимущественно при изучений больших выборок. Кроме того, она не является чем-то неизбежным. Во многих ситуациях параметрические и непараметрические критерии обладают одинаковой мощностью. Если предположения, лежащие в основе параметрического критерия, серьезно нарушаются, непараметрические аналоги могут оказаться более мощными (см. Blair & Higgins, 1980).
Сказанное о параметрических предположениях подводит нас к понятию устойчивости. Устойчивость характеризует безопасность отклонений от допущений, лежащих в основе некоего критерия. Устойчивый критерий сравнительно нечувствителен к таким нарушениям, то есть, как правило, он позволяет сделать точные выводы о значимости даже тогда, когда допущения не соответствуют действительности. И t и f-критерии достаточно устойчивы. Именно поэтому в литературе можно часто встретить указание на их использование даже для данных, не отвечающих рассмотренным выше требованиям — данным рейтинговых шкал, к примеру, или данных, распределение которых заметно отличается от нормального, или при наличии неравной дисперсии у сравниваемых групп. Устойчивость не означает, что исследователь может, не задумываясь, применять параметрические критерии к любому типу данных; однако не следует и слишком поспешно отказываться от параметрических критериев лишь потому, что некое допущение, лежащее в их основе, нарушается. Возможно, стоит посоветоваться со специалистом: применим ли выбранный параметрический показатель к имеющимся данным?
План исследования
Мы рассмотрели две детерминанты выбора статистического показателя: уровень измерения и распределение данных. Третий фактор, который следует учитывать, — это план исследования.
Имеют значение разные аспекты плана. Один из аспектов — количество уровней независимой переменной. В нашем примере с агрессией детей дошкольного возраста этот фактор довольно прост: две возрастные группы и два пола. Поэтому здесь достаточно легко при сравнении двух уровней каждой переменной можно
применить f-критерий. Предположим, однако, что мы усложняем ситуацию, добавляя дополнительные уровни. Поскольку с полом представить это себе довольно трудно, включим новые возрастные группы. Допустим, вместо двух у нас их шесть. Что происходит тогда с нашим /-критерием?
Наиболее очевидным следствием является то, что возникает необходимость подсчитать значительно большее количество критериев. При наличии шести возрастных групп возможно 15 парных сравнений. Поэтому, чтобы что-то обнаружить, придется подсчитать значение 15 t-критериев. Рассчитывать 15 показателей и указать их все в отчете, естественно, довольно неудобно. Однако более серьезный довод против этого имеет отношение к уровню вероятности. Нам нужно, чтобы этот уровень оставался неизменным, какой бы рубеж для значимости мы ни выбрали — к примеру, традиционные 0,05. Однако наличие множества Сделает интерпретацию уровня вероятности весьма затруднительной. Получив 15 значений, каждое из которых находится на уровне 0,05, мы получаем вероятность того, что значимость по крайней мере одного из этих показателей носит случайный характер, равную 0,54.' Как же тогда интерпретировать любой статистически значимый результат?
Проблема, в действительности, даже еще сложнее. Вероятность 0,54 основывается на предположении, что все 15 показателей независимы друг от друга. Однако, как правило, это не так; они взаимосвязаны в том смысле, что одни и те же данные используются для разных сравнений. Это, фактически, относится к описанному выше случаю сравнения между возрастными группами: каждая из шести возрастных групп вносит свои данные — одни и те же — в расчеты 5 из 15 критериев. При наличии такого рода взаимозависимости критериев определить точный уровень вероятности для каждого критерия невозможно. Исследователь может подсчитать значение какого-то t и выявить значимость на уровне 0,05; однако вполне может оказаться, что истинный уровень значимости совершенно иной.
Есть и еще одна проблема, связанная с множественностью t. Допустим, что мы усложнили наше исследование не добавлением уровнейяезависимой переменной, а введением дополнительных независимых переменных. Помимо возраста и пола как детерминант агрессии мы могли бы изучать эффект обстановки игровой комнаты, разницу между поведением в группе и на улице, влияние показа половине детей агрессивного мультика и т. д. Ясно, что чем больше независимых переменных, тем большее количество t нужно подсчитать. Но проблема состоит не только в избытке показателей L При изучении множественных переменных всегда существует вероятность зависимости эффекта одной переменной от уровня другой. Иными словами, возможно взаимодействие переменных. Эффекты взаимодействия необходимо выявить, но это довольно трудно сделать, используя только г-критерий.
Чаще всего в качестве альтернативы использования t-критерия проводят дисперсионный анализ (ДА). По существу, ДА расширяет возможности г-критерия на те случаи, когда имеется более двух средних. Метод расчета здесь иной и более
Возможно, проще всего увидеть то, откуда появляется такая вероятность, это задаться вопросом, ка-коны шансы не получить случпнный результат. При применении олной статистической проверки вероятность избежать такой ошибки составляет 0,95. При проведении диух отдельных проверок вероятность избежать ошибки определяется значением двух значений вероятности, то есть 0,952. При проведении 15 проверок эта вероятность составит 0,9515 или 0T4G. Поэтомукероятность того, что мы получим хотя бы один случайный значимый результат, равна 1 - 0,46.
сложный, чем метод расчета t, и в этой книге мы даже не будем пытаться его описать. Однако логика, лежащая в основе обоих приемов, одинакова: мы проверяем значимость, определяя, насколько первичная дисперсия, связанная со сравниваемыми группами, превышает вторичную дисперсию или дисперсию ошибки. Статистический показатель, являющийся результатом этой проверки, обозначается буквой F, и значимость его, как и значимость t, устанавливается по стандартным таблицам, которые можно найти в любом учебнике по статистике.
Рассмотрим, как можно было бы применить ДА в исследовании агрессии. У нас две независимые переменные: возраст и пол. Чтобы более наглядно продемонстрировать преимущества ДА перед использованием t, предположим, что в действительности, переменная возраста имеет б уровней, а не 2, как указанно в табл. 7.1. Применение ДА дает показатель F д.ля каждой из независимых переменных, или значения главных эффектов. Если для пола F значим, тогда в отношении этой переменной наши действия завершены; поскольку переменная пола имеет только два уровня, мы можем просто посмотреть на средние значения, чтобы определить, в чем состоит эффект. Значимый главный эффект для возраста — более сложный случай. Здесь показатель F основан на одновременном сравнении всех шести возрастных групп, а установление значимости подразумевает, что значим результат, по меньшей мере, одного парного сравнения. Тогда нам нужно использовать дополнительные критерии с тем, чтобы определить, результат какого из сравнений (или результаты каких сравнений) обладает значимостью. Эти дополнительные критерии сходны с f-критерием, однако их подсчет несколько проще и производится, только если общий показатель Освидетельствует о наличии значимого эффекта.
Результатом ДА является также третий показатель F — для взаимодействия между возрастом и иолом. В целом, ДА дает столько F, сколько в исследовании существует возможных комбинаций независимых переменных. Если, к примеру, в исследовании 3 независимые переменные, результатом ДА будет четыре F, указывающих на взаимодействие: по одному на каждое парное сочетание и одно для тройного сочетания. Как и в случае со значимым главным эффектом, значимость Взаимодействий можно проверять при помощи специальных критериев для выяснения основы эффекта взаимодействия.
Для выбора статистического показателя важен еще один аспект исследовательского плана. До этого момента мы говорили в основном о межсубъектных планах — то есть случаях, когда данные каждого испытуемого попадают только в одну категорию сравниваемых условии или групп. Но, как мы знаем из главы 3, многие независимые переменные изучаются при помощи внутрисубъектных планов, в которых данные каждого испытуемого попадают в категорию данных по каждому из экспериментальных условий. Что происходит со статистическими показателями, когда каждый испытуемый представлен в каждом из условий?
Ответ довольно прост: мы переходим от межсубъектных критериев, которые рассматривались до этого момента, к соответствующим внутрисубъектным критериям. В действительности, для каждого межсубъектного критерия, о которых мы говорили выше, существует свой внутрисубьектный аналог. К примеру, есть внут-рисубъектньш f-критерий, а также внутрисубъектный дисперсионный анализ или дисперсионный анализ с повторными измерениями.
Таблица 7.3 IQ и результаты по тесту достижения в выборке 5-классников
Испытуемый
| Щ
| Тест достижений
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 60 .
| Кроме того, существуют непараметрические критерии, подходящие для виутрисубъектных данных (например, критерий изменения Макнемара, использование которого заключается в измерении нескольких хи-квадратов). Логика этих статистических процедур сходна с логикой использования межсубъектных критериев; однако в большинстве внут-рисубъектных проверок анализируется действительная разница между показателями (например, результаты некоего испытуемого в условиях 1 минус его же результаты в условиях 2). Поскольку в центре вниманий находятся показатели различия, данные критерии применимы не только для исследовательских планов с реальными повторными измерениями, но и для случаев, когда для каждого испытуемого в одних условиях подбирается соответствующий испытуемый в других условиях.
Следует сделать еще одно замечание, касающееся внутрисубъектных показателей, Оно повторяет то, что было сказано в главе 3 при обсуждении относительных преимуществ внутри- и межсубъектных планов. Тогда мы отметили, что внутри-субъектные критерии, как правило, обладают большей мощностью, чем аналогичные межсубъектные критерии.
Рис. 7.3. Диаграммы рассеяния, иллюстрирующие корреляции разного уровня
Это обусловлено уменьшением вторичной дисперсии, связанной с индивидуальными различиями испытуемых. Если в каждое из экспериментальных условий ставятся одни и те же испытуемые, вероятность внесения нежелательной дисперсии в результаты группового сравнения, обусловленные индивидуальными различиями, снижается. Большая мощность — одно из оснований для выбора между внутрисубъектными и межсубъектными подходами.
Меры связи
До этого момента основное внимание уделялось процедуре выявления различий между группами. Однако это не единственная область применения статистических процедур. Возьмем, к примеру, исследование, в котором были получены данные, представленные в табл. 7.3. Нас интересует вопрос, есть ли связь между IQ и успешностью выполнения стандартного теста достижения. Что нам нужно сделать?
Для данных из табл. 7.3 подходит корреляционный статистический показатель. Корреляция — это мера связи между двумя переменными. Как мы узнали из главы 3, значение корреляционного показателя находится в пределах от +1 до -1. Коэффициент корреляции равный +1 свидетельствует о наличии абсолютно положительной связи между переменными, коэффициент корреляции равный 0 свидетельствует о полном отсутствии связи, а коэффициент корреляции равный -1 указывает на наличие абсолютно отрицательной связи. Эти варианты иллюстрируют графические изображения на рис. 7.3. Корреляционный показатель отличный от нуля свидетельствует о положительной или отрицательной связи, при этом сила связи увеличивается с приближением значения к + 1 или -1.
О чем же говорят данные, представленные в табл. 7.3? Для определения меры связи мы должны сначала выбрать соответствующий корреляционный показатель, поскольку для вычисления корреляции существует множество разных методов. Как и в случае с логическими критериями, выбор метода зависит от наших предположений относительно характера данных. Чаще всего используются два показателя: коэффициент корреляции произведения моментов Пирсона и коэффициент корреляции рангов Спирмена. Статистический показатель Пирсона — это параметрический критерий, использование которого основано на тех же допущениях, что и использование остальных параметрических критериев — а именно на допущении, что измерение происходило по шкале интервалов или отношений, а данные распределены по закону нормального распределения1. Корреляционный показатель Спирмена — непараметрический критерий, основанный исключительно на порядковых характеристиках данных, и поэтому применяется чаще, чем критерий Пирсона. Оба показателя, надо заметить, зависят от другого важного предположения: что связь между переменными линейная. Если связь иного рода (к примеру, криволинейная, то есть при изменении значения одной переменной значение другой переменной сначала увеличивается, а затем уменьшается), стандартный корреляционный критерий неприменим.
В действительности гсам по себе, как дескриптивный показатель, является непараметрическим, нако определение его статистической значимости зависит от параметрических предположений.
Порядок рангов
|
IQ | Тест достижений
| IQ
| Тест достижений
|
|
| 9
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 8
|
|
| \6
|
Поскольку использование критерия Спирмена проиллюстрировать легче, применим его для данных табл. 7.3. Формула коэффициента Спирмена, а также применение ее к нашим данным представлены на рис. 7.4. Проанализировав формулу, можно заметить, что коэффициент Спирмена — это мера общности рангового порядка пар показателей двух распределений. Если согласованность рангов полная, тогда, при отсутствии показателей отклонения, вычитаемое будет равно нулю, а коэффициент корреляции +1. Чем чаще и сильнее показатели отличаются по рангу, тем дальше от единицы будет корреляционный показатель. В нашей выборке данных коэффициент корреляции между IQ и результатами теста достижений равен 0,7, что свидетельствует о достаточно тесной, но не абсолютной связи. Стоит отметить, что применение к этим данным корреляционного анализа Пирсона даст очень близкое значение: 0,71. Фактически для большинства данных значения коэффициентов Спирмена и Пирсона очень близки.
О чем говорит наличие корреляции между двумя переменными? Корреляция, как и среднее арифметическое или медиана, — дескриптивный статистический показатель, характеризующий, однако, не центральную тенденцию, а связь между переменными. Прежде чем интерпретировать значение коэффициента корреляции, необходимо проверить его статистическую значимость. Нуль-гипотеза при такой проверке заключается в том, что коэффициент корреляции между двумя переменными равен нулю; вопрос состоит тогда в том, есть ли значимое отклонение полученного коэффициента корреляции от нуля. Ответить на этот вопрос достаточно просто, поскольку в учебниках по статистике содержатся таблицы, по
которым непосредственно можно установить уровень вероятности для любых коэффициентов корреляции (многие компьютерные программы также осуществляют подсчет уровня вероятности). На значимость влияют и величина коэффициента корреляции, и объем выборки; с их повышением растет вероятность значимости. Из таблицы явствует, что коэффициент корреляции равный 0,7 в выборке объемом 16 (то есть при наличии 16 пар показателей) значим на уровне 0,01; таким образом, между IQ и уровнем достижений действительно имеется связь.
Значимость важна, но это лишь половина дела. Вспомним, что нас интересует не только существование связи, но и ее сила. Как правило, силу корреляционной связи интерпретируют с точки зрения точности прогноза; зная результаты испытуемого по одной переменной, насколько точно мы сможем предугадать его результаты по другой переменной? При корреляционном показателе, равном пулю, отношения между переменными носят случайный характер, и знание одного показателя не дает нам возможности предсказать другой показатель. По мере отклонения коэффициента корреляции от нуля его прогностическая способность возрастает, достигая максимума при коэффициенте корреляции равном ±1.
Другой (равноценный) способ рассмотрения корреляции — с точки зрения доли объясняемой дисперсии. Используя показатели по одной переменной для прогноза показателей по второй переменной, мы «объясняем», в статистически-прогностическом смысле, определенную долю дисперсии значения второй переменной. Чем выше коэффициент корреляции, тем большая доля дисперсии получает объяснение. Эту закономерность можно определить точнее. Если коэффициент корреляции — пйреоновский г, доля объясняемой дисперсии составляет/3. Таким образом, коэффициент корреляции между IQ и уровнем достижений равный 0,71 означает, что вариации одного показателя объясняют 50 % вариаций другого.
Последнее из утверждений ограничивает нас в наших интерпретациях. Коэффициент корреляции равный 0,71 довольно высок, однако даже при таком значении половина дисперсии все еще не получает объяснения. С приближением коэффициента корреляции к нулю доля объясняемой корреляции уменьшается, и довольно стремительно. Коэффициент корреляции равный 0,5 объясняет 25% дисперсии, а коэффициент корреляции равный 0,3 — лишь 9% дисперсии.
Сказанное выше напоминает нам о разнице между значимостью и ценностью. Коэффициент корреляции может быть статистически значим, но в то же время столь мал, что его теоретическая или практическая ценность будет минимальна. Вероятность таких статистически значимых, но в действительности незначительных статистических показателей особенно велика при изучении больших выборок. В выборке объемом 50 коэффициент корреляции 0,27 достигает значимости на уровне 0,05. В выборке объемом 100 единиц значимостью обладает уже коэффициент корреляции 0,19.
Помимо объема выборки при оценке коэффициента корреляции важно учитывать диапазон значения переменных. Здесь могут возникнуть две проблемы. Чаще всего, это проблема, о которой говорилось в главе 46, сужение диапазона, которое происходит тогда, когда значения одной переменной так близки друг к другу, что разница между ними не связана с дисперсией значений других переменных. Предположим, сравнивая IQ и уровень достижений, мы решили ограничить выборку
детьми из классов для «одаренных». Как правило, отбор в эти классы производится по критерию IQ, в нашем случае он соответствует, скажем, 130 пунктам и выше. Решение сосредоточиться исключительно на очень высоких IQ означает, что мы резко сужаем диапазон дисперсии значений одной из наших переменных; вместо 60-70 пунктов диапазон IQ будет составлять лишь около 20. При такой скученности показателей IQ разница между ними вряд ли обнаружит существенную связь с любым параметром, включая разницу в уровне достижений.
Возможно также, что диапазон значений переменной будет слишком широк. Допустим, от одного испытуемого к другому IQ изменяется на 20 пунктов: начиная с ребенка, имеющего IQ = 40, следующего ребенка с показателем IQ = 60 и т. д. до восьмого ребенка, обладающего IQ= 180. При столь большом разбросе велика вероятность того, что IQ будет значимо и существенно коррелировать практически со всеми показателями, которые мы измерим в нашей выборке. Сомнительно, однако, что величина таких коэффициентов корреляции будет иметь для нас большой смысл.
Слишком узок или слишком широк диапазон значений, в основе проблемы лежит недостаточная внешняя валидность. Для того чтобы коэффициент корреляции был для нас интересен, он должен характеризовать не только выборку, для которой был подсчитан, но и всю популяцию, которую представляет эта выборка. Поэтому выборка должна быть репрезентативна — как по параметрам центральной тенденции, так и по параметру диапазона дисперсии — в отношении популяции, частью которой она является, Если выборка будет нерепрезентативна, полученные при ее изучении коэффициенты корреляции не будут обладать достаточной внешней валидностью.
Альтернативы и более сложные варианты дисперсионного анализа
В этом разделе мы вернемся к вопросу сравнения групп. Не будет преувеличением сказать, что, по крайней мере последние 50 лет, дисперсионный анализ является самым распространенным методом такого сравнения. Однако, несмотря на свою популярность, ДА — не всегда предпочтительный вариант статистического анализа, даже в случаях, когда предположения, лежащие в его основе, справедливы. Есть ситуации, в которых более полное представление о полученных результатах дают другие формы анализа. В этом разделе мы кратко рассмотрим ряд таких ситуаций и соответствующие статистические процедуры. Еще менее чем в предыдущих разделах изложение претендует на полноту; цель заключается лишь в том, чтобы дать читателю возможность понять или переосмыслить разнообразные варианты более глубокого анализа и основания для его использования.
Плановые сравнения
Ранее мы отметили проблемы, возникающие при множественности значений t- критерия, следствием которых является необходимость использования дисперсионного анализа, позволяющего осуществить обобщенную проверку на наличие или отсутствие значимых-эффектов. Однако обобщенные проверки не всегда облада-
ют преимуществом. ДА более всего подходит для тех случаев, когда у исследователя нет четких гипотез и ему скорее хочется выявить любые интересные результаты, которые может дать исследование. В подобных случаях такая комплексная проверка, как ДА, предпочтительнее множества одиночных проверок. Однако в некоторых исследованиях имеются четкие гипотезы, и основная цель проведения статистической проверки состоит в получении ясного ответа в отношении каждой из гипотез. В таких случаях ДА малоэффективен, поскольку эта форма анализа включает сравнения, которые могут и не интересовать исследователя, тем самым снижая эффективность сравнения того, что действительно интересно.
Рассмотрим пример (взятый из работы Hays, 1981). Нас интересует влияние обучения детей на их ответы при использовании нравственных дилемм Колберга (см. главу 12). Мы используем две формы обучения детей: наблюдение за взрослым, дающим ответы, которые соответствуют более высокому нравственному уровню, и обсуждение вопросов нравственности в группе сверстников. Нам также интересен возможный эффект сочетания двух типов обучения, поэтому мы включаем третье экспериментальное условие, при котором дети и наблюдают за отвечающим взрослым, и проводят обсуждение в группе. Мы знаем, что для оценки эффекта обучения необходима контрольная группа; поэтому четвертое условие состоит исключительно в претесте и посттесте, без каких-либо экспериментальных вмешательств. Однако нас беспокоит, что наблюдение образца поведения или внутри-групповое взаимодействие могут сами по себе повлиять на ответы, вне зависимости от нравственного развития, которое мы изучаем. Поэтому мы включаем еще два контрольных условия; одно — при котором дети наблюдают взрослого, рассуждающего о чем угодно, кроме нравственных проблем; и второе — при котором дети обсуждают любую тему, не касающуюся нравственности.
В таком исследовании нас в действительности не интересует главный эффект каждого из условий, эффект, который может быть обусловлен значимой разницей ■ между любыми из возможных пар средних значений. Наш интерес более специфичен и ограничен сравнениями между средними значениями, которые важны для исследования. Мы, к примеру, захотим выяснить, отличается ли на уровне значимости каждое из экспериментальных условий от соответствующего ему контрольного, а также, различаются ли между собой три экспериментальных условия. Эти сравнения действительно имеют смысл. В других сравнениях гораздо меньше смысла — к примеру, бессмысленно сравнивать экспериментальное условие группового обсуждения и контрольное условие наблюдения поведения взрослого. Обобщенный дисперсионный анализ объединяет все эти сравнения. Конечно, можно начать с проверки f-критерия, а затем использовать отдельные дополнительные критерии для интересующих нас сравнений-. Однако существует риск, что главный эффект F не будет обладать значимостью, и в этом случае у нас не будет реальных оснований для дополнительных проверок. Кроме того, критерии, используемые после получения значимого результата при дисперсионном анализе, обладают меньшей мощностью, что означает риск упустить из вида действительно важный эффект.
Альтернативой ДА в таких случаях служат плановые сравнения, когда мы заранее определяем, какие из средних значений будем сравнивать, и производим толь-
|
|