Имя материала: Институт экономики переходного периода

Автор: Носко Владимир Петрович

2.9. проверка значимости и подбор модели с использованием коэффициентов детерминации. информационные критерии

Ранее мы неоднократно задавались вопросом о том, как следует интерпретировать значения коэффициента детерминации R2 с точки зрения их близости к нулю или, напротив, их близости к единице.

Естественным было бы построение статистической процедуры проверки значимости линейной связи между переменными, основанной на значениях коэффициента детерминации R2 — ведь R2 является статистикой, поскольку значения этой случайной величины вычисляются по данным наблюдений. Теперь мы в состоянии построить такую статистическую процедуру.

Представим F - статистику критерия проверки значимости регрессии в целом в виде

_ ESS/(p - 1) _ ESS/TSS n - p _   R2

RSS/[n - p)    RSS/TSS p - 1    1 - R2  p - 1

Отсюда находим:

(p - 1)F • (1 - R1 ) = (n - p)R2 , (p - 1)F = ((p - 1)F + (n - p))R

R2 =

 

1

(p - 1)F

(p - 1)F + (n - p)    1 | (n - p)

(p - 1)f

Большим значениям статистики F соответствуют и боль-

шие значения

H0 :  ^2 ="

статистики 0   = 0 ,

R ,    так что отвергаемая

гипотеза при

F > Fcrit = F1a(p - 1, n - p), должна отвергаться при выполне-

нии неравенства R2 > R).rU, где

R 2 -

Rcrit

 

 

1 +

1

(n - р)

{p - 1)F„

При этом, вероятность ошибочного отклонения гипотезы H0 по-прежнему равна а .

R2

при

Интересно вычислить критические значения а - 0.05 для различного количества наблюдений.

Ограничимся здесь простой линейной регрессией (p = 2) так что

R =

Rcrit

1

- F

crit

F0.95 і1, n ~ 2) .

1 +

В зависимости от количества наблюдений следующие критические значения RCrrit:

n

получаем

 

n

3

4

10

20

30

40

60

120

500

R crit

0.910

0.720

0.383

0.200

0.130

0.097

0.065

0.032

0.008

Иначе говоря, при большом количестве наблюдений даже весьма малые отклонения наблюдаемого значения R2 от нуля оказываются достаточными для того, чтобы признать значимость регрессии, т. е. статистическую значимость коэффициента при содержательной объясняющей переменной.

Поскольку же значение R2 равно при р = 2 квадрату выборочного коэффициента корреляции между объясняемой и (нетривиальной) объясняющей переменными, то аналогичный вывод справедлив и в отношении величины этого коэффициента корреляции, только получаемые результаты еще более впечатляющи:

n

3

4

10

20

30

40

60

120

500

fxvcrit

0.953

0.848

0.618

0.447

0.360

0.311

0.254

0.179

0.089

Если сравнивать модели по величине коэффициента детерминации R2, то с этой точки зрения полная модель всегда лучше (точнее, не хуже) редуцированной — значение R2 в полной модели всегда не меньше, чем в редуцированной, просто потому, что в полной модели остаточная сумма квадратов не может быть больше, чем в редуцированной.

Действительно, в полной модели с р объясняющими переменными минимизируется сумма

n 2

Y,{yt ~в1 xt 1 -----в рхір )

по всем возможным значениям коэффициентов 6      ,6 .

Если мы рассмотрим редуцированную модель, например, без р -ой объясняющей переменной, то в этом случае минимизируется сумма

n2

І=1

по всем возможным значениям коэффициентов в 1,..., в _х,

что равносильно минимизации первой суммы по всем возможным значениям   в 1,..., в _х  при фиксированном значении

в p = 0. Но получаемый при этом минимум не может быть

больше чем минимум, получаемый при минимизации первой суммы по всем возможным значениям в 1,..., вp, включая и все

возможные значения в . Последнее означает, что RSS в полной модели не может быть меньше, чем в редуцированной модели. Поскольку же полная сумма квадратов в обеих моделях одна и та же, отсюда и вытекает заявленное выше свойство коэффициента R2.

Чтобы сделать процедуру выбора модели с использованием R2 более приемлемой, было предложено использовать вместо R2 его скорректированный (adjusted) вариант

R 2   — 1

Radj 1

RSS/(n - p) TSS/(n -1)

в который по-существу вводится штраф за увеличение количества объясняющих переменных. При этом,

Подпись: 1
Подпись: V n - pJ)R 2

adj

TSS

1

R2

 

n

TSS

RSS

1

 

+

RSS Л TSS J

 

R2

RSS RSS

TSS TSS

(p -1) RSS (n - p) TSS ,

n -1

так что

 

при n > p и p > 1.

При использовании коэффициента Rla(lj для выбора между

конкурирующими моделями, лучшей признается та, для которой этот коэффициент принимает максимальное значение.

Замечание. Если при сравнении полной и редуцированных моделей оценивание каждой из альтернативных моделей производится с использованием одного и того же количества наблюдений, то тогда, как следует из формулы, определяющей R2a(jj, сравнение моделей по величине Rla(lj равносильно сравнению этих моделей по величине S2 - RSS / (n - p) или по величине S - ^RSS/(n - p). Только в последних двух случаях

выбирается модель с миниималъным значением S2 (или S ).

Пример. Продолжая последний пример, находим значения коэффициента R2adj при подборе моделей Мj, М2, М3:

 

Для

м j

             r2

adj

= 0.9889,

Для

м2

             r2

adj

= 0.9902,

Для

м 3

             R 2

adj

= 0.9911.

Таким образом, выбирая модель по максимуму R2dj, мы выберем из этих трех моделей именно модель м 3, к которой мы уже пришли до этого, пользуясь t - и F -критериями.

В этом конкретном случае сравнение всех трех моделей по величине R2a(jj не равносильно сравнению их по величине S2 (или S ), если модели м2, м3 оцениваются по всем 11 наблюдениям, представленным в таблице данных, тогда как модель м1 оценивается только по 10 наблюдениям (одно наблюдение теряется из-за отсутствия в таблице запаздывающего значения DPI0, соответствующего 1965 году).

Наряду со скорректированным коэффициентом детерминации, для выбора между несколькими альтернативными моделями часто используют так называемые информационные критерии: критерий Акаике и критерий Шварца, также «штрафующие» за увеличение количества объясняющих переменных в модели, но несколько отличными способами.

Критерий Акаике (Akaike's information criterion — AIC). При использовании этого критерия, линейной модели с р объясняющими переменными, оцененной по n наблюдениям, сопоставляется значение

RSS

AIC = In

+ — + 1 + 1п2л-

V   n J

n

где RSSp - остаточная сумма квадратов, полученная при

оценивании коэффициентов модели методом наименьших квадратов. При увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением AIC, в которой достигается определенный компромисс между величиной остаточной суммы квадратов и количеством объясняющих переменных.

Критерий Шварца (Schwarz's information criterion — SC, SIC). При использовании этого критерия, линейной модели с р объясняющими переменными, оцененной по n наблюдениям, сопоставляется значение рое увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением SC.

Пример. В последнем примере получаем для полной модели Mj и редуцированных моделей M2 и M3 следующие

Замечание. В рассмотренном примере все три критерия , AIC и SC выбирают одну и ту же модель. В общем случае подобное совпадение результатов выбора вовсе не обязательно.

Включение в модель большого количества объясняющих переменных часто приводит к ситуации, которую называют мулътиколлинеарностъю.

Мы обещали ранее коснуться проблемы мультиколлине-арности и сейчас выполним это обещание. Прежде всего напомним наше предположение

(4) матрица XTX невырождена, т. е. ее определитель отличен от нуля:

которое можно заменить условием

(4) столбцы матрицы Xлинейно независимы.

Полная мультиколлинеарность соответствует случаю,

когда предположение (4) нарушается, т. е. когда столбцы мат-

рицы X линейно зависимы, например,     

Xip = 7l Xi1 + 72 Xi 2 + ~- + Гр-1 Xi ,p-l,   i = jv , n

det XTX ф 0 ,

(р -й столбец является линейной комбинацией остальных столбцов матрицы X). При наличии чистой мультиколлине-арности система нормальных уравнений не имеет единственного решения, так что оценка наименьших квадратов для вектора параметров (коэффициентов) попросту не определена однозначным образом.

На практике, указывая на наличие мультиколлинеарно-

сти, имеют в виду осложнения со статистическими выводами

в ситуациях, когда формально условие (4) выполняется, но при

этом определитель матрицы XTX близок к нулю. Указанием на

то, что р -я объясняющая переменная «почти является» ли-

нейной комбинацией остальных объясняющих переменных,

служит большое значение коэффициента возрастания

дисперсии     

(VIF)

оценки коэффициента при этой переменной вследствие на-

личия такой «почти линейной» зависимости между этой и ос-

тальными объясняющими переменными. Здесь Rp - коэффици-

ент детерминации при оценивании методом наименьших

квадратов модели    

xip = Ї1 xi1 + Г2xi2 +---+fp-1 xi,p-1 + Vj,   i = 1v ,n.

Если Rp = 0, то (VIF)p = 1, и это соответствует некоррелированности р -ой переменной с остальными переменными. Если же Rp ф 0, то тогда {VVIF~)  > 1, и чем больше корреляция

р -ой переменной с остальными переменными, тем в большей мере возрастает дисперсия оценки коэффициента при р -ой переменной по сравнению с минимально возможной величиной этой оценки.

Мы можем аналогично определить коэффициент возрастания дисперсии (VIF^j оценки коэффициента при j -ой объясняющей переменной для каждого j = 1,..., p :

(VIF)j 1

1 - Rj

Здесь Rj — коэффициент детерминации при оценивании

методом наименьших квадратов модели линейной регрессии j -ой объясняющей переменной на остальные объясняющие переменные. Слишком большие значения коэффицентов возрастания дисперсии указывают на то, что статистические выводы для соответствующих объясняющих переменных могут быть весьма неопределенными: доверительные интервалы для коэффициентов могут быть слишком широкими и включать в себя как положительные, так и отрицательные значения, что ведет в конечном счете к признанию коэффициентов при этих переменных статистически незначимыми при использовании t - критериев.

= 109.89

Пример. Обращаясь опять к данным об импорте товаров и услуг во Францию, находим:

1

(Ш )2 =(Ш )з = j

0.9909

Коэффициенты возрастания дисперсии для переменных X2 и X3 совпадают вследствие совпадения коэффициентов детерминации регрессии переменной X2 на переменные X1 и X3 и регресии переменной X3 на переменные X1 и X2 (взаимно обратные регрессии).

Полученные значения коэффициентов возрастания дисперсий отражают очень сильную коррелированность переменных

X2 и X3. (Выборочный коэффициент корреляции между этими переменными равен Corr(X2, X3) - 0.995.)

При наличии мультиколлинеарности может оказаться невозможным правильное разделение влияния отдельных объясняющих переменных. Удаление одной из переменных может привести к хорошо оцениваемой модели. Однако оставшиеся переменные примут на себя дополнительную нагрузку, так что коэффициент при каждой из этих переменных измеряет уже не собственно влияние этой переменной на объясняемую переменную, а учитывает также и часть влияния исключенных переменных, коррелированных с данной переменной.

Пример. Продолжая последний пример, рассмотрим редуцированные модели, получамые исключением из числа объясняющих переменных переменной X2 или переменной X3.

Оценивание этих моделей приводит к следующим результатам:

=-6.507 + 0.146X 2

c R2 = 0.9504 и P - value = 0.0000 для коэффициента при

X 2;

=-9.030 + 0.222X 3

c R2 = 0.9556 и P - value = 0.0000 для коэффициента при

X3.

В каждой из этих двух моделей коэффициенты при X2 и X3 имеют очень высокую статистическую значимость. Впервой модели изменчивость переменной X2 объясняет 95.04\% изменчивости переменной Y; во второй модели изменчивость переменной X3 объясняет 95.56\% изменчивости переменной Y. С этой точки зрения, переменные X2 и X3 вполне заменяют друг друга, так что дополнение каждой из редуцированных моделей недостающей объясняющей переменной практически ничего не добавляя к объяснению изменчивости Y (в полной модели объясняется 95.60\% изменчивости переменной Y), в то же время приводит к неопределенности в оценивании коэффициентов при X2 и X3.

Но коэффициент при X2 в полной модели соответствует связи между переменными X2 и Y, очищенными от влияния переменной X3, тогда как коэффициент при X3 в полной модели соответствует связи между переменными X3 и Y, очищенными от влияния переменной X2. Поэтому неопределенность в оценивании коэффициентов при X2 и X3 в полной модели по-существу означает невозможность разделения эффектов влияния переменных X2 и X3 на переменную Y.

Приведем значения R^dj, S, AIC и SC для всех трех моде-

 

 

R 2

adj

S

AIC

SC

Полная

0.9702

1.1324

3.274

3.411

Без X3

0.9704

1.1286

3.211

3.303

Без X2

0.9719

1.0991

3.158

3.250

Все четыре критерия выбирают в качестве наилучшей модель с исключенной переменной X2.

Мы не будем далее углубляться в проблему мультиколли-неарности, обсуждать другие ее последствия и возможные способы преодоления затруднений, связанных с мультиколли-неарностью. Заинтересованный читатель может обратиться по этому вопросу к более полным руководствам по эконометрике.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 |