Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

5.6. качество оценивания: коэффициент я2

Как и в парном регрессионном анализе, коэффициент детерминации К1 определяет долю дисперсии у, объясненную регрессией, и эквивалентно определяется как величина Var (у)/ Var (у), как {1 — Var (е)/Var (у)} или как квадрат коэффициента корреляции между у и у. Этот коэффициент никогда не уменьшается (а обычно он увеличивается) при добавлении еще одной переменной в уравнение регрессии, если все ранее включенные объясняющие переменные сохраняются. Для иллюстрации этого предположим, что вы оцениваете регрессионную зависимость у от х{ и х2 и получаете уравнение вида:

>> = a + bxxx +Ь^с2. (5.52)

Далее, предположим, что вы оцениваете регрессионную зависимость у только от х,, в результате получив следующее:

$=а* + Ьх. (5.53)

Это уравнение можно переписать в виде:

у = а + А,Х| + 0*2- (5.54)

Если сравнить уравнения (5.52) и (5.54), то коэффициенты в первом из них свободно определялись с помощью метода наименьших квадратов на основе данных для у, х{ и х2 при обеспечении наилучшего качества оценки. Однако в уравнении (5.54) коэффициент при х2 был произвольно установлен равным нулю, и оценивание не будет оптимальным, если только по случайному совпадению величина 62 не окажется равной нулю, когда оценки будут такими же. (В этом случае величина а* будет равна д, а величина Ь{* будет равна bv) Следовательно, обычно коэффициент R2 будет выше в уравнении (5.52), чем в уравнении (5.54), и он никогда не станет ниже. Конечно, если новая переменная на самом деле не относится к этому уравнению, то увеличение коэффициента R2 будет, вероятно, незначительным.

Вы можете решить, что поскольку коэффициент R2 измеряет долю дисперсии, совместно объясненной независимыми переменными, то можно определить отдельный вклад каждой независимой переменной и таким образом получить меру ее относительной важности. Было бы очень удобно, если бы это стало возможным. К сожалению, такое разложение невозможно, если независимые переменные коррелированы, поскольку их объясняющая способность будет перекрываться. Эта проблема рассматривается в разделе 6.2.

 

F-тесты

 

В разделе 3.10 F-тест использовался для анализа дисперсии. Теперь, когда мы используем регрессионный анализ для деления дисперсии зависимой переменной на «объясненную» и «необъясненную» составляющие, можно построить F-статистику:

ESS /к

RSS /(п-к-іУ <5'55)

где ESS— объясненная сумма квадратов отклонений; RSS— остаточная (необъяс-ненная) сумма квадратов; к — число степеней свободы, использованное на объяснение. С помощью этой статистики можно выполнить .F-тест для определения того, действительно ли объясненная сумма квадратов больше той, которая может иметь место случайно. Для этого нужно найти критический уровень F в колонке, соответствующей к степеням свободы, и в ряду, соответствующем (п — к— 1) степеням свободы, в той или иной части табл. А.З.

Чаще всего ^-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом. Кроме того, с помощью F-статистик можно выполнить ряд дополнительных тестов, что также будет рассмотрено ниже.

 

Уравнение в целом

При осуществлении .Г-теста для уравнения в целом проверяется, превышает ли коэффициент Л2 то значение, которое может быть получено случайно. Проверим, является ли значимой совместная объясняющая способность к независимых переменных; тест для этого может быть описан как проверка нулевой гипотезы:

#^=^ = ... = (^ = 0. (5.56)

В определенном смысле этот тест дополняет /-тесты, которые используются для проверки значимости вклада отдельных случайных переменных, когда проверяется каждая из гипотез Р, = 0,рЛ= 0.

При расчете ^-статистики для уравнения в целом, возможно, было бы удобно разделить числитель и знаменатель уравнения (5.55) на TSS (общую сумму квадратов), заметив, что ESS/TSSравняется Л2, a RSS/TSSравняется (1 — R2). В результате можно записать:

F__ R2/k

(-R2)/(n-k-)' (5'57)

В табл. 5.6 показан анализ дисперсии, иллюстрирующий F-статистику для регрессионной зависимости дохода от образования, стажа работы и возраста, представленной уравнением (5.43).

Таблица 5.6

 

Сумма квадратов

Число степеней

С.к.о.,

 

 

отклонений (с. ко.)

свободы

деленная

F-статистика

 

(млн.)

(с. с.)

на с. с.

 

Объяснено S, X и А

207,49

3

69,16

 

 

 

 

 

69,16/5,70=12,1

Остаток

91,18

16

5,70

 

 

 

Критический уровень F с 3 и 16 степенями свободы при уровне значимости в 1\% составляет 5,27; таким образом, ^-статистика, равная 12,1, указывает на значимый уровень объяснения.

 

Дальнейший анализ дисперсии

 

Помимо проверки уравнения в целом /'-тест можно использовать для определения значимости совместного предельного вклада группы переменных. Предположим, что вы сначала оцениваете регрессию с к независимыми переменными и объясненная сумма квадратов составляет ESSk. Затем вы добавляете еще несколько переменных, доведя их общее число до т, и объясненная сумма квадратов возрастает до ESSm. Таким образом, вы объяснили дополнительную величину (ESSm — ESSk), использовав для этого дополнительные (т -к) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.

Вновь используется F-тест, и соответствующая ^-статистика может быть описана следующим образом:

            Улучшение качества уравненияI Число использованных степеней свободы  

F ~~     Необъясненная сумма квадратов отклонений/ Оставшееся число степеней свободы (5.58)

Поскольку RSSm — необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется (TSS — ESSm) и RSSk — необъясненная сумма квадратов отклонений в уравнении с к переменными — равняется (TSS — -ESSk), улучшение качества уравнения при добавлении (т — к) переменных, представленное как разность (ESSm — ESSk), записывается в виде выражения (RSSk — RSSm), Следовательно, соответствующая /^статистика равна:

 

(RSSK-RSSm)/(m-k)

RSSm/{n-m-)    ' У*-**)

 

и в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (т — к) и -k-1) степенями свободы. В табл. 5.7 дается анализ таблицы дисперсий для совместного предельного вклада новых переменных.

Например, вернемся к эксперименту по методу Монте-Карло, в котором доход зависит от продолжительности обучения, стажа работы и возраста. Оценка

 

 

 

Таблица 5.7

 

Сумма квадрате отклонений

Число степеней свободы

C.K.O., деленная на c.c.

F- статистика

 

(с. к.о.)

(c.c.J

 

Объяснено исходным набором переменных

ESSk

k

ESSJk

ESSk Ik RSSk /(n-k-1)

Остаток

RSS=TSS-ESSk

n-k-1

RSSJ(n-k^)

 

Объяснено новыми

ESS-ESS=RSS-RSSm

m           k           к m

m-k

RSS k — RSS ft)

 

переменными

m-k

(RSSk - RSSm)/(m-k)

Остаток

RSSm-TSS-ESSm

n-m-A

RSSJ(n-m-l)

RSSm/(n-m-)

 

 

парной регрессионной зависимости дохода от продолжительности обучения дает ESS, равную 90 020 ООО, ^составила 298 680 ООО, a RSS= 208 650 000 (табл. 5.8).

Критическое значение F с 1 и 18 степенями свободы при уровне значимости в 5\% равно 4,41, а при уровне значимости в 1\% составляет 8,29. Таким образом, модель, включающая только продолжительность обучения, обеспечивает значимое объяснение при уровне значимости в 5\%, но не в 1\%.

Если теперь рассмотреть регрессию, включающую также X и А, то можно проверить значимость их совместного предельного вклада. Мы имеем k = 1, m = 3, и RSSm= 91 180 000 (см. табл. 5.8). Следовательно, (RSSk-RSSJ составляет 117 470 000. Число степеней свободы после добавления Хи А равняется 16.

Значение ^-статистики равно 10,31, а критическое значение Fc 2 и 16 степенями свободы при уровне значимости в 1\% составляет 6,23. Таким образом, при добавлении X и А наблюдается значительное улучшение в объяснении дисперсии у.

Зависимость между F- и t-статистиками

 

Предположим, что вы оцениваете регрессию с несколькими объясняющими переменными, а затем повторяете расчет, отбросив одну из них. Используя разницу в объясненной сумме квадратов, можно выполнить /^тест для предельного вклада независимой переменной, которая была отброшена. Можно показать, что такой тест эквивалентен двустороннему /-тесту для гипотезы о том, что для этой переменной в первоначальной регрессии р = 0.

Другими словами, /-тесты обеспечивают эффективную проверку предельного вклада каждой переменной при допущении, что все другие переменные уже включены в уравнение.

Если объясняющие способности независимых переменных перекрываются, то предельный вклад в объяснение при добавлении каждой из них может оказаться совсем небольшим. Отсюда вполне возможно, что /-тест для каждой переменной окажется незначимым, в то время как .F-тест для уравнения в целом вполне значим.

Например, рассмотрим вновь эксперимент по методу Монте-Карло (уравнение 5.44), где оценивается регрессионная зависимость дохода (у) от продолжительности обучения (5), стажа работы (X) и возраста (А):

у= -7524 +7815-207Г + 664Л;        Л2 = 0,84. (5.44) (со.)  (4202)  (529)  (538) (476)

При 16 степенях свободы /-тесты показывают, что ни один из коэффициентов не отличается значимо от нуля при уровне значимости в 5\%. Тем не менее коэффициент/?2равен 0,84, и соответствующий F-тест значим при уровне значимости в 1\%. Результаты оценки регрессии показывают, что совместная объясняющая способность независимых переменных высока, несмотря на тот факт, что не представляется возможным выделить влияние каждой из них. Это неудивительно, поскольку в рассматриваемой модели наблюдалась высокая степень мультиколлинеарности, вызванной почти строгой линейной зависимостью между S, Х'и А, а дисперсия случайного члена была большой.

 

Скорректированный коэффициент R 2

Если вы посмотрите на распечатку уравнений регрессии, то почти наверняка найдете рядом с коэффициентом R2 показатель, который называют скорректированным коэффициентом R2 (adjusted /?2). Иногда его также называют «исправленным» коэффициентом R2, хотя это определение не означает, по мнению многих, что такой коэффициент улучшен по сравнению с обычным.

Как отмечалось в разделе 5.2, при добавлении объясняющей переменной к уравнению регрессии коэффициент R2 никогда не уменьшается, а обычно увеличивается. Скорректированный коэффициент Л2, который обычно обозначают 7?2, обеспечивает компенсацию для такого автоматического сдвига вверх путем наложения «штрафа» за увеличение числа независимых переменных. Этот коэффициент определяется следующим образом:

 

R2 = I - (1 - *2)~Vt = -Vt*2  т-г = *2           |-t(1" *2>- (56°)

л - A: - 1    л - к - 1       я - к - 1          n-k -

где — число независимых переменных. По мере роста к увеличивается отношение к/(п — к — 1) и, следовательно, возрастает размер корректировки коэффициента R2 в сторону уменьшения.

Можно показать, что добавление новой переменной к регрессии приведет

—2

к увеличению R , если и только если соответствующая r-статистика больше

единицы (или меньше —1). Следовательно, увеличение R   при добавлении

новой переменной необязательно означает, что ее коэффициент значимо отличается от нуля. Поэтому отнюдь не следует, как можно было бы предположить, что увеличение R означает улучшение спецификации уравнения.

Это является одной из причин того, почему R2 не стал широко использоваться в качестве диагностической величины. Другая причина состоит в уменьшении внимания к самому коэффициенту/?2. Ранее среди экономистов наблюдалась тенденция рассматривать коэффициент R2 в качестве основного индикатора успеха в спецификации модели. Однако на практике, как будет показано в следующих главах, даже плохо определенная модель регрессии может дать высокий коэффициент Л2, и признание этого факта привело к снижению значимости R2. Теперь он рассматривается в качестве одного из целого ряда диагностических показателей, которые должны быть проверены при построении модели регрессии, и, вероятно, как один из менее важных. Следовательно, и корректировка этого коэффициента мало что дает.

 

Упражнения

Величина коэффициента R2 в логарифмической регрессии между расходами на продукты питания, располагаемым личным доходом и относительной ценой продовольствия (см. уравнение 5.26) составила 0,9867. Проверьте, что критерий Показался приблизительно равным 820,1 и оцените его значимость (820,1 является фактическим значением критерия F; число, которое вы вычислите на основе коэффициента R2, будет несколько отличаться от этой величины из-за ошибки округления).

Проверьте, что критерий Fb соответствующей регрессии для выбранного вами товара (см. упражнение 5.6) был правильно вычислен на основе коэффициента Л2, и проверьте его значимость.

Сумма квадратов отклонений в регрессии в упражнении 5.6 оказалась меньше той, которая была получена в оценке регрессионной зависимости расходов на выбранный вами товар от располагаемого личного дохода в упражнении 4.2. Используйте /"-тест для оценки значимости уменьшения указанной суммы. Этот тест эквивалентен некоторому тесту, который вы уже выполняли; объясните, о каком тесте идет речь, и проверьте идентичность сделанных выводов.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |