Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

3.10. f-тест на качество оценивания

Даже если между у и х отсутствует зависимость, по любой данной выборке наблюдений может показаться, что такая зависимость существует, возможно и слабая. Только по случайному стечению обстоятельств выборочная ковариация будет в точности равна нулю. Следовательно, только чисто случайно коэффициент корреляции и коэффициент R2 будут в точности равны нулю.

Это представляет для нас проблему. Как узнать, действительно ли полученное при оценке регрессии значение коэффициента R2 отражает истинную зависимость или оно появилось случайно?

В принципе можно было бы принять следующую процедуру. Сформулируем в качестве нулевой гипотезы утверждение, что связь между у и х отсутствует, и найдем значение коэффициента, которое может быть превышено в 5\% случаев. Затем используем эту цифру в качестве критического значения для проверки гипотезы при 5-процентном уровне значимости. Если этот уровень превышается, то мы отклоняем нулевую гипотезу. Если он не превышен, то эта гипотеза принимается.

Такая проверка, подобно /-тесту для коэффициента регрессии, не служит доказательством. Действительно, при 5-процентном уровне значимости имеется риск допущения ошибки I рода (отклонения нулевой гипотезы, когда она истинна) в 5\% случаев, но можно, конечно, снизить этот риск за счет использования более высокого уровня значимости, например в 1\%. Тогда критическое значение может быть случайно превышено только в 1 \% случаев, поэтому оно выше критического значения для проверки гипотезы при 5-процентном уровне значимости.

Каким образом можно определить критическое значение коэффициента R2 при любом уровне значимости? Здесь возникает небольшая проблема. У нас нет таблицы критических значений коэффициента Л2. Традиционная процедура состоит в использовании косвенного подхода и выполнения так называемого ^-теста, основанного на анализе дисперсии (теория, лежащая в основе этого подхода, описывается в работе А. Муда и Ф. Грейбилла [Mood, Graybill, 1963]).

Предположим, что, как и прежде, можно разложить дисперсию зависимой переменной на «объясненную» и «необъясненную» составляющие, воспользовавшись уравнением (2.45):

Var (у) = Var (у) + Var (е). (3.56)

Используя определение выборочной дисперсии и умножив на п обе части уравнения (3.56), можно представить его следующим образом:

 

Ї(у-У)2 = ї(у-У)2 + І,е2. (3.57)

 

(Напомним, что е = 0 и выборочное среднее значение у равняется выборочному среднему у.)

Левая часть уравнения представляет собой общую сумму квадратов отклонений (TSS) зависимой переменной от ее выборочного среднего значения. Первый член в правой части уравнения является объясненной суммой квадратов (ESS), а второй член — необъясненной суммой квадратов отклонений (RSS), который может быть просто назван S:

TSS = ESS + RSS. (3.58)

F-статистика для проверки качества оценивания регрессии записывается как отношение объясненной суммы квадратов (в расчете на одну независимую переменную к остаточной сумме квадратов) в расчете на одну степень свободы:

ESS

F =

RSS   9 (3.59)

n-k-l

где k — число независимых переменных.

После деления на TSS числителя и знаменателя соотношения (3.59) /^статистика может быть эквивалентно выражена на основе коэффициента Л2:

F =      (ESS/TSS)/k      = R2/k

(RSS /TSS)/(n-k-l)   (1-Я2)/(я-*-1)" (3-60)

В данном контексте k= 1 и, таким образом, уравнение (3.60) принимает вид:

F =

R2

(1-Д2)/("-2)' (161)

После вычисления критерия F по значению коэффициента R2 вы отыскиваете величину FKpum — критическое значение Ев соответствующей таблице. Если F > F т, то вы отклоняете нулевую гипотезу и делаете вывод о том, что имеющееся «объяснение» поведения величины у лучше, чем можно было бы получить чисто^ случайно.

В табл. А.З представлены критические значения ^при уровнях значимости в 5 и 1\%. В каждом случае критическое значение зависит от числа независимых переменных к, которое находится в верхней строке таблицы, и от числа степеней свободы (п — к — 1), которое включено в ее крайний левый столбец. В данном контексте рассматривается случай парной регрессии, когда к = 1, и мы должны использовать первую колонку таблицы.

В примере с расходами на питание коэффициент R2 составил 0,9775. Поскольку было 25 наблюдений, /^статистика равняется:

R2 /{(-R2)/ 23} = 0,9775 / (0,0225 / 23) = 999,2.

При однопроцентном уровне значимости критическое значение критерия F (первая колонка, ряд 23) составляет 7,88. Поэтому в данном конкретном примере у нас не остается никаких сомнений относительно того, что нулевую гипотезу следует отклонить. Другими словами, полученное значение коэффициента R2 столь высоко, что мы отклоняем предположение о том, что оно могло появиться случайно. На практике /^статистика всегда вычисляется вместе с коэффициентом R2, поэтому нет необходимости использовать уравнение (3.60).

Какие же проблемы возникают при использовании этого косвенного подхода? Почему бы не иметь таблицу критических значений коэффициента Л2? Ответ заключается в том, что таблица значений критерия /'является полезной для многих способов проверки дисперсии, одним из которых выступает расчет коэффициента R2. Вместо специализированной таблицы для каждого конкретного случая намного удобнее (или, по меньшей мере, экономнее) иметь одну обобщенную таблицу, делая при необходимости преобразования типа (3.60).

Конечно, при необходимости можно вывести и критические значения R2. Критическое значение Л2 связано с критическим значением F следующим уравнением:

F       = R2Kpum I к   

Крит   (l-R2Kpum)/(n-k-y (3'62)

из которого следует, что

г) 2 — крит

RKpum = kFKpum + {n-k-iy (3.63)

В примере с расходами на питание критическое значение Fnpn уровне значимости в 1\% составило 7,88. Следовательно, в этом случае при к= 1

 

В нашем примере величина R2 намного выше 0,26, поэтому непосредственное сравнение величины Л2 с его критическим значением подтверждает вывод о том, что в результате F-тестг мы должны отклонить нулевую гипотезу.

 

Упражнения

В упражнении 3.12 значение коэффициента/?2 в модели регрессии между расходами на коммунальные услуги и располагаемым личным доходом составило (с точностью до четырех десятичных разрядов) 0,9875. Вычислите соответствующую /^-статистику и проверьте, что она равна 1814,7, т. е. результату, выданному компьютером. Выполните /^-тест при уровнях значимости в 5 и 1\%. Есть ли необходимость представлять результаты проверки на обоих уровнях?

Аналогичным образом, используя результат упражнения 2.4, вычислите /^-статистику на основе значения коэффициента R2 и проверьте, что она не противоречит расчетам, выполненным на компьютере. Проведите соответствующий /'-тест.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |