Проверка статистических гипотез Статистической гипотезой H называется предположение относительно параметра или вида распределения случайной величины.
Нулевой гипотезой H0 называют выдвигаемую гипотезу. Обычно считают, что H0 – гипотеза об отсутствии различий.
Конкурирующей гипотезой H1называют гипотезу, которая противоречит нулевой. Гипотеза H1 – гипотеза о значимостиразличий.
Проверку статистической гипотезы выполняют на основании результатов выборки. Поскольку выборка производится случайным образом и ограничена, то появляется возможность принятия ошибочного решения.
Статистическим критерием называют случайную величину, которая служит для проверки нулевой гипотезы. В качестве статистического критерия выбирается такая случайная величина, например t, точное или приближенное распределение которой известно.
Наблюдаемым значением t. называют значение критерия, вычисленное по данным выборки.
Уровнем значимости aназывается вероятность того, что будет отвергнута правильная нулевая гипотеза, т.е. .
Уровень значимости aустанавливается заранее. Выбор, например 5%-го уровня значимости означает, что в пяти случаях применения критерия из ста верная гипотеза будет отвергнута. Стремление к уменьшению aведет к одновременному уменьшению вероятности отвергнуть гипотезу, когда она является ложной.
В экономических исследованиях проверку гипотез осуществляют при 5%-ном и 1%-ом уровнях значимости, которые называются стандартными уровнями значимости.
Замечание.Между переменнымиt и αустановлено взаимно однозначное соответствие.
Проверку статистических гипотез можно произвести двумя способами.
Способ 1.Стандартным уровням значимости α соответствуют определенные значения tкр= t(α), называемые критическими точками.
Практически, значения критических точек tкр.1 для α = 0,05 и tкр.2 для α = 0,01 определяются по таблицам известного распределения выбранного критерия. Также соответствующие значения можно вычислить с помощью функций Excel.
Для наглядности процесса принятия решения на координатной оси t указывают эти критические точки, рис. 4
Рис. 4
Критические точки разбивают множество значений критерия tна три непересекающиеся области.
Область левее критической точки tкр.1называется зоной незначимости. Если t <tкр.1 ,то H0 принимается на уровне значимости 0,05, и тем более на уровне 0,01.
Область правее критической точки tкр.2называется зоной значимости. Если t > tкр.2,тоH0 отвергается на уровне значимости 0,01, и тем более отвергается на уровне 0,05.
Область между двумя критическими точкаминазывается зоной неопределенности.Если tкр.1 < t .< tкр.2 ,то H0 отвергается на уровне 0,05, но принимается на уровне 0,01.
Таким образом, если наблюдаемое значение критерия t больше критического значения tкр для заданного стандартного уровня значимости, то гипотеза H0 отвергается и исследуемый показатель является статистически значимым.
Способ 2. Наблюдаемому значению критерия t соответствует определенное значение уровня значимости α(t), которое в дальнейшем будем обозначать как значимость t = α (наблюдаемое значение t). Практически, значимость t можно определить с помощью функции Excel.
Для наглядности процесса принятия решения на координатной оси a указывают его стандартные значения 0,01 и 0,05, рис. 5.
Рис.5
Стандартные значения 0,01 и 0,05 разбивают множество значений α на три непересекающиеся области.
Область левее стандартной точки 0,01 является зоной значимости.
Если значимость t < 0,01, то Н0 отвергается на уровне 0,01, и тем более отвергается на уровне 0,05.
Область правее стандартной точки 0,05 является зоной незначимости.
Если значимость t > 0,05, то H0 принимается на уровне 0,05, и тем более принимается на уровне 0,01.
Область между двумя стандартными точкамиявляется зоной неопределенности. Если 0,01 < значимость t .< 0,05, то H0 принимается на уровне 0,01, но отвергается на уровне 0,05.
Таким образом, если значимостьtменьше заданного стандартного уровня, то гипотеза H0 отвергается и исследуемый показатель является статистически значимым.
Такая проверка осуществляется в современных статистических пакетах на компьютере, в которых значимость критерия подсчитывается непосредственно в процессе работы.
Если в качестве критерия проверки нулевой гипотезы используется случайная величина, подчиненная распределению Стьюдента, то ее обозначают через t (t-статистика), а подчиненная распределению Фишера – через F (F-статистика).
t-статистика часто используется для проверки гипотезы о значимости выборочной оценки исследуемого параметра и нахождения интервальных оценок параметра. В качестве критерия t принимается отношение выборочной оценки параметра к ее стандартной ошибке: .
F-статистика используется для проверки гипотезы о равенстве дисперсий. В качестве критерия Fпринимают отношение исправленных выборочных дисперсий: .
В дальнейшем для проверки статистических гипотез будем использовать в основном способ 2.
Ковариация и корреляция
Различают выборочную и теоретическую ковариацию.
Выборочной ковариацией двух переменных x, y называется средняя величина произведения отклонений этих переменных от своих средних, т.е.
, или
где – выборочные средние переменных x, y.
Выборочная ковариация является мерой взаимосвязи между двумя переменными.
Пусть данные наблюдений переменных x, y представлены в виде точечного графика – диаграммы рассеяния наблюдения, рис. 6.
Рис. 6
Точка ( ) на диаграмме является центром рассеяния переменных x, y.
Вертикальная и горизонтальная прямые, проведенные через точку разделяют диаграмму рассеяния на четыре области.
Наблюдения в областяхI, III, в которых , дают положительный вклад в ковариацию, а в областях II, IV, в которых – отрицательный вклад.
Если положительные вклады преобладают над отрицательными, то ковариация будет положительной, иначе – отрицательной.
Положительной ковариации отвечает положительная связь, а отрицательной – отрицательная связь.
При положительной (прямой) связи с увеличением одной переменной другая переменная в среднем также увеличивается, и, наоборот, при отрицательной (обратной) связи.
Заметим, что: .
Правила расчета ковариации (a,b – const):
Доказательство вытекает из определения ковариации. Например:
2) .
5) var(u + v) = cov(u + v, u + v) = cov(u,u) + cov(v,v) + 2cov(u,v) = var(u) + var(v) + 2cov(u,v).
Теоретической ковариацией случайных величин X, Y называется математическое ожидание произведения отклонений этих величин от своих средних значений, т.е.
Cov(X, Y) = M [(X – mX) (Y – mY)], где mX = M(X), mY = M(Y).
Запись Cov(X, Y) указывает на то, что ковариация рассматривается по генеральной совокупности.
Заметим, что Сov(X,X) = M(X–mX)2 =sX2.
Свойство.Если случайные величины X,Y независимы, то теоретическая ковариация равна нулю, т.е. Сov(X,Y) = 0.
Более точной мерой зависимости между величинами является коэффициент корреляции. Различают теоретический и выборочный коэффициенты корреляции.
Теоретический коэффициент корреляции определяется выражением:
,
где sX, sY – стандартные отклонения случайных величин X, Y.
Коэффициент корреляции является безмерной величиной, изменяющейся в пределах –1 r 1.
Коэффициент корреляции показывает степень (тесноту) линейной связи двух случайных величин, причем:
· r > 0 при положительной связи и r = 1 при строгой положительной линейной связи;
· r < 0 при отрицательной связи и r = –1 при строгой отрицательной линейной связи;
· r = 0 при отсутствии линейной связи.
Определение. Случайные величины X, Y называются некоррелированными, если r = 0, и коррелированными, если r 0.
Независимость случайных величин X, Y означает отсутствие любой связи между ними (линейной и нелинейной), а некоррелированность – отсутствие только линейной связи.
Если случайные величины X, Y независимы, то они некоррелированы (r = 0), но из некоррелированности не следует их независимость, т.е. равенство r = 0 указывает на отсутствие линейной связи между величинами, но не на отсутствие связи между ними вообще.
Выборочный коэффициент корреляции определяется выражением:
.
При каждом конкретном значении rxy выборочный коэффициент корреляции является случайной величиной, изменяющийся в пределах –1 r 1.
На рис. 7 отражен геометрический смысл коэффициента корреляции.
Рис. 7
Если r = 0 для генеральной совокупности, то это необязательно означает, что r = 0 для выборочной совокупности.
|