Имя материала: Эконометрика Книга первая Часть 1

Автор: Носко Владимир Петрович

Тема 3.3 сравнение альтернативных моделей. мультиколлинеарность. прогнозирование по оцененной модели

Мы неоднократно задавались вопросом: как следует интерпретировать значения коэффициента детерминации R2 с точки зрения их близости к 0 или, напротив, их близости к 1?

Естественным было бы построение статистической процедуры проверки значимости линейной связи между переменными, основанной на значениях коэффициента детерминации R2, ведь R2 является статистикой, поскольку значения этой случайной величины вычисляются по данным наблюдений. Теперь можно построить такую статистическую процедуру.

Представим F-статистику критерия проверки значимости регрессии в целом в виде

F =

ESS 1{р -1) _ ESS/TSS (n-p)_  R2   (n - p)

RSS/(n-p)   RSS/TSS (p-l)   1-й2 (p-l)' Отсюда находим:

{p-X)F(-R2) = {n-p)R2,   (p-)F = ((p-l)F + (n-p))R2,

R2_      (P-W      ^ 1 {p-)F + {n-p)   u n-p (p-l)F

Большим значениям статистики F соответствуют и большие значения статистики Л2, так что гипотеза Я0 : в2 = 9Ъ = ... = в = 0, отвергаемая при F > Fcrit = Fx_a(p - I, п-р), должна отвергаться при выполнении неравенства

/г2>Л2т„где

п-р

 

1

1+-

Rcrit = •

(p-mri,

При этом вероятность ошибочного отклонения гипотезы #0 по-прежнему равна а.

Интересно вычислить критические значения R2crit при а = 0.05 для различного количества наблюдений.

Ограничимся здесь парной линейной регрессией (р = 2), так что

1

#2 =

crit   Л п-2 1 +

F •

В зависимости от количества наблюдений п получаем следующие критические значения R2crit (табл. 3.12).

Таблица 3.12

Иначе говоря, при большом количестве наблюдений даже весьма малые отклонения наблюдаемого значения R2 от 0 оказываются достаточными для того, чтобы признать значимость регрессии, т.е. статистическую значимость оценки коэффициента при содержательной объясняющей переменной.

Поскольку же значение R2 при р = 2 равно квадрату выборочного коэффициента корреляции между объясняемой и (нетривиальной) объясняющей переменными, аналогичный вывод справедлив и в отношении величины этого коэффициента корреляции (табл. 3.13).

В конце разд. 2 мы обещали уделить некоторое внимание вопросу о выборе «наилучшей» модели из нескольких возможных вариантов. В рамках линейных моделей это может быть выбор между моделями с большим или с меньшим количеством объясняющих переменных в правой части.

Пусть имеются К переменных, которые, по нашему мнению, могут объяснять изменчивость переменной Y в рамках линейной модели наблюдений, а в действительности п наблюдений порождаются линейной моделью, в которую входят только р < К из этих К переменных. Пусть это будут переменные Хи Хр9 где, как обычно, Хх = 1. Соответственно процесс порождения данных имеет вид:

DGP : у = Хв + є,

где матрица Xимеет размер п х р, s~N(0, <J2In).

Не зная этого, (ошибочно) оцениваем линейную статистическую (эконо-метрическую) модель с К переменными, в которую в качестве объясняющих в дополнение к Х{9 Хр включены еще и «лишние» переменные Zj, Zq9 q = K-p:

SM: у = W/3 + v = X0 + Zy + v, здесь матрица W имеет размер пхК, матрица Z — размер п х q,

W = [XZ],   J3 =

У)

и предполагается, что матрица W имеет полный столбцовый ранг К.

В действительности в рассматриваемой статистической модели у = 0, так что v = є, а значит, v ~ N(0, сг21п). Оценивая статистическую модель методом наименьших квадратов, получаем оценку для /? в виде:

Р = (WTWyl WTy = {WTWyx WT{Wp + є).

При этом имеем:

так что Е(в)= в9и в— несмещенная оценка для в. Полученная при оценивании статистической модели статистика S2K = RSSK/(n - К) (здесь индекс К указывает на модель с К объясняющими переменными) является несмещенной оценкой для а2. Однако

D(ej)>c71(XTXy^   j = l,...,p.

Доказательство этих фактов можно найти в учебнике (Магнус, Катышев, Пересецкий, 2005).

Рассмотрим теперь обратную ситуацию:

DGP:y = W/3 + s = Xe + Zy + s9   у*0, s~N(0,a2In),

SM : у = Хв + 7 («пропуск существенных переменных»).

Оценив статистическую модель, получим только оценку для в:

в = (ХТХУ1 Хту = (ХТХУ1 Хт (Хв + 7]) = в + (ХТХУ1 Хтг].

Поскольку в такой ситуации rj = Zy+s, Cov(rj) = <j2In, E(rj) = Zy то

E(e) = 6 + (XTXyxXTZy.

Последнее означает, что оценка для полученная по указанной статистической модели, оказывается смещенной, за исключением случая, когда выполнено условие:

XTZ- 0 (столбцы матрицы Xортогональны столбцам матрицы Z).

При выполнении последнего условия справедливо также следующее (см. (Магнус, Катышев, Пересецкий, 2005)): оценки для полученные по указанной статистической модели и по статистической модели у - Хв + Zy + є, совпадают между собой.

Что касается дисперсий оценок коэффициентов и статистики S2 в обратной ситуации, то (см. (Магнус, Катышев, Пересецкий, 2005)):

дисперсии оценок коэффициентов в19 вр, полученных по статистической модели у = Хв + 7, не больше дисперсий оценок тех же коэффициентов, полученных по статистической модели у = Хв + Zy + є;

полученная при оценивании статистической модели у = Хв + г] статистика S2 = RSSpl(n - р) является, вообще говоря, смещенной оценкой для а2: E(S2p) > а2.

Таким образом, введение в модель «лишних» переменных не приводит к смещению оценок коэффициентов, но может приводить к неоправданному возрастанию длин доверительных интервалов для коэффициентов при остальных переменных. В то же время использование модели, в которой пропущены существенные объясняющие переменные, ведет к смещению оценок коэффициентов, что может перекрывать положительный эффект от уменьшения их дисперсий. Поскольку при анализе реальных статистических данных обычно нет никаких гарантий того, что верна именно полная или именно редуциро

ванная модель, встает задача выбора «наилучшей» модели, обеспечивающей определенный компромисс между двумя указанными опасностями.

Если сравнивать модели по величине коэффициента детерминации R29 то с этой точки зрения полная модель всегда лучше (точнее, не хуже) редуцированной — значение R2 в полной модели всегда не меньше, чем в редуцированной, просто потому, что в полной модели остаточная сумма квадратов не может быть большей, чем в редуцированной.

Действительно, в полной модели с р объясняющими переменными минимизируется сумма

)2

i = l

по всем возможным значениям коэффициентов вХ9 0р. В случае редуцированной модели, например, без /7-й объясняющей переменной, минимизируется сумма

 

по всем возможным значениям коэффициентов вХ9 вр_Х9 что равносильно минимизации первой суммы по всем возможным значениям вХ9 вр_х при фиксированном значении вр = 0. Но получаемый при этом минимум не может быть меньше, чем минимум, получаемый при минимизации первой суммы по всем возможным значениям в19 вр9 включая все возможные значения вр. Последнее означает, что RSS в полной модели не может быть большей, чем в редуцированной модели. Из того, что полная сумма квадратов в обеих моделях одна и та же, вытекает заявленное выше свойство коэффициента R2.

Чтобы сделать процедуру выбора «наилучшей» модели более приемлемой, было предложено использовать вместо R2 скорректированный вариант — скорректированный R2 (adjusted R-squared, adjusted R2):

RSS І (п-р)

TSS/(n-l) 9

в котором, по существу, вводится штраф (penalty) за увеличение количества объясняющих переменных. При этом

Подпись: = 1-
Подпись: n-l n-p
Подпись: = R2

RSS

TSS

n-l п-р

= R2-RSS

TSS

так что при n > p и p > 1

n-l n-p

RadJ<R2-

Заметим, что в отличие от самого R2 скорректированный коэффициент может принимать и отрицательные значения. Это происходит, когда

TSS

RSSf п-Л

п-р

>1,

а для выполнения последнего неравенства достаточно, например, чтобы

 

R <—   и   р>  .

2 2

При использовании коэффициента R2adj для выбора между конкурирующими моделями «налучшей» признается та, для которой этот коэффициент принимает максимальное значение.

у/ Замечание 3.3.1. Если при сравнении полной и редуцированных моделей оценивание каждой из альтернативных моделей производится с использованием одного и того же количества наблюдений, то, как следует из формулы, определяющей R2adj9 сравнение моделей по величине R2adJ равносильно сравнению их по величине S2 = RSS/(n - р) или по величине S = yJRSS/(n- р). Только в последних двух случаях выбирается модель с минимальным значением S2 (или S).

 

ПРИМЕР 3.3.1

Продолжая пример 3.2.5, находим значения коэффициента R2adj при подборе моделей Ml9 М2, М3:

Щ Rladj =0.9889, М2 <=> R2adj =0.9902,

М3 0*^=0.9911.

По максимуму R2adj из этих трех моделей выберем именно модель М3, к которой уже пришли до этого, пользуясь t- и F-критериями.И

 

Информационные критерии

Для выбора между альтернативными моделями наряду со скорректированным коэффициентом детерминации часто используют так называемые информационные критерии (information criteria), также штрафующие за увеличение количества объясняющих переменных в модели, но несколько отличными способами.

Критерий Акаике (Akaike 's information criterion — AIC). При использовании этого критерия нормальной линейной модели с р объясняющими переменными, оцененной по п наблюдениям, сопоставляется значение

 

AIC = In

RSS„

 

j

+ — + 1 + 1п2;г, п

где RSSp — остаточная сумма квадратов, полученная при оценивании коэффициентов модели методом наименьших квадратов.

При увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе — увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением AIC, в которой достигается определенный компромисс между величиной остаточной суммы квадратов и количеством объясняющих переменных.

Критерий Шварца (Schwarz's information criterion — SC, SIC). При использовании этого критерия нормальной линейной модели с р объясняющими переменными, оцененной по п наблюдениям, сопоставляется значение

SC = ln

RSS Л

рпп

+ -        + 1 + 1п2л

 

И здесь при увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе — увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением SC.

 

ПРИМЕР 3.3.2

В последнем примере для полной модели М, и редуцированных моделей М2 и М3 получаем следующие значения AIC и SC (табл. 3.14).

Таблица 3.14

Предпочтительной по обоим критериям опять оказывается модель М3.И

 

Замечание 3.3.2. В рассмотренном примере все три критерия — R2adJ, AIC и SC — выбирают одну и ту же модель. В общем случае подобное совпадение результатов выбора вовсе не обязательно. Критерий Шварца является состоятельным в следующем смысле: если среди альтернативных моделей есть модель, соответствующая истинному процессу порождения данных, то при неограниченном увеличении количества наблюдений использование критерия Шварца выводит именно на эту модель. Критерий Акаике в такой ситуации может с положительной вероятностью вывести на более полную модель. Исходя из принципа экономичности (парсимонии), предпочтительнее использовать критерий Шварца. Однако в некоторых ситуациях, когда критерий Акаике останавливается на более полной модели по сравнению с моделью, выбранной критерием Шварца, исследователи все же оставляют для дальнейшего рассмотрения и модель, выбранную критерием Акаике.

Замечание 3.3.3. Существует одна очень серьезная проблема, связанная с предварительным отбором модели. Когда в результате такого отбора останавливаются на некоторой модели, то далее действуют так, как будто этого отбора не было вовсе, сосредоточившись на интерпретации результатов оценивания отобранной модели и на получении на ее основе стандартных статистических выводов. Дело, однако, в том, что эти выводы, вообще говоря, являются условными и связаны именно с тем, как прошел отбор модели. Наличие предварительного тестирования влияет на свойства получаемых в результате оценок коэффициентов отобранной модели. Мы лишь обозначим здесь существование такой проблемы (более подробно с ней можно ознакомиться, например, в учебнике {Магнус, Катышев, Пересецкий, 2005), гл. 14, с. 351—382).

 

Проблема мультиколлинеарности

Важность выбора среди нескольких альтернативных моделей «наиболее подходящей», в которой правая часть уравнения не перегружена «лишними» переменными, объясняется, в частности, тем, что включение в модель большого количества объясняющих переменных часто приводит к ситуации, которую называют мультиколлинеарностью.

Мы обещали ранее коснуться проблемы мультиколлинеарности и сейчас выполним это обещание. Прежде всего напомним наше предположение:

4) определитель матрицы ХТХ отличен от 0:

detXrX*0,

которое можно заменить условием: столбцы матрицы X линейно независимы.

Полная мультиколлинеарность соответствует случаю, когда это предположение нарушается, т.е. когда столбцы матрицы X линейно зависимы, например:

хір ~Уха + • • • + Ур-хі,Р- •>   / = 19..., w,

(р-й столбец является линейной комбинацией остальных столбцов матрицы X). При наличии полной мультиколлинеарности оценка наименьших квадратов для вектора параметров (коэффициентов) не определена однозначным образом.

Простейшей иллюстрацией такого положения является ситуация, когда в модели

yt =а + /3х(+8п   / = 1,..., л,

все п наблюдений значений переменной у произведены при одном и том же значении xt = х*. В этом случае оценкой для параметра а является а = у, и в качестве подобранной может быть взята любая (кроме вертикальной) прямая, проходящая через точку (х*9у).

На практике, говоря о наличии мультиколлинеарности (multicollinearity), обычно имеют в виду осложнения со статистическими выводами в ситуациях, когда формально условие 4 выполняется, но при этом определитель матрицы ХТX близок к 0, так что существует высокая степень линейной корреляции между двумя или более объясняющими переменными. На наличие мультиколлинеарности указывают:

большие изменения оценок коэффициентов при удалении или добавлении объясняющих переменных;

большие изменения оценок коэффициентов при изменении или удалении наблюдения;

несоответствие знаков оцененных коэффициентов априорным ожиданиям, вытекающим из экономической теории;

большие стандартные ошибки оценок коэффициентов при переменных, которые априори ожидались существенными для объяснения.

Указанием на то, что р-я объясняющая переменная «почти является» линейной комбинацией остальных объясняющих переменных, может служить большое значение коэффициента возрастания дисперсии (variance inflation factor) оценки коэффициента при этой переменной

 

вследствие наличия такой «почти линейной» зависимости между этой и остальными объясняющими переменными. Здесь R2 — коэффициент детерминации при оценивании методом наименьших квадратов модели

хір = їх хп + • • • + Гр-хир- +уі>   / = І • •л.

Если R2p = О, то (VIF)p = 1, это соответствует некоррелированностир-й переменной с остальными переменными. Если же R2 Ф О, то (VIF)p > 1, и чем больше корреляция р-й переменной с остальными переменными, тем в большей мере возрастает дисперсия оценки коэффициента при р-й переменной по сравнению с минимально возможной величиной этой оценки.

Аналогично можно определить коэффициент возрастания дисперсии (VIF)j оценки коэффициента приу-й объясняющей переменной для каждого

7=1, ...9р:

 

здесь Rj — коэффициент детерминации при оценивании методом наименьших квадратов модели линейной регрессии у-й объясняющей переменной на остальные объясняющие переменные.

Слишком большие значения коэффициентов возрастания дисперсии указывают на то, что статистические выводы для соответствующих объясняющих переменных могут быть весьма неопределенными: доверительные интервалы для коэффициентов могут быть слишком широкими и включать как положительные, так и отрицательные значения, что ведет, в конечном счете, к признанию коэффициентов при этих переменных статистически незначимыми при использовании ^-критериев. (Однако это вовсе не обязательно — см. пример 3.3.5.)

 

ПРИМЕР 3.3.3

Обратившись опять к данным об импорте товаров и услуг во Францию, найдем:

(VIF)2 = (VIF)3 =      і           = 109.89.

п        /3 1-0.9909

(Коэффициенты возрастания дисперсии для переменных Х2 и Х3 совпадают вследствие совпадения коэффициентов детерминации при оценивании регрессии переменной Х2 на переменные Хх иХ3 и регрессии переменной Х3 на переменныеХх иХ2.)

Полученные значения коэффициентов возрастания дисперсий отражают очень сильную коррелированность переменных Х2 и Х3 (выборочный коэффициент корреляции между этими переменными равен Согг(Хъ Х3) = 0.995).И

 

При наличии мультиколлинеарности может оказаться невозможным разделение влияния отдельных объясняющих переменных, включенных в модель согласно соответствующей экономической теории.

Удаление одной из переменных может привести к хорошо оцениваемой модели. Однако оставшиеся переменные примут на себя дополнительную нагрузку, так что коэффициент при каждой из этих переменных не измеряет уже собственно влияние одной этой переменной на объясняемую переменную, а учитывает также часть влияния исключенных переменных, коррелированных с данной переменной. Возникает смещение, связанное с пропуском существенной объясняющей переменной.

Конечно, согласно экономической теории можно говорить о том, что некоторые объясняющие переменные могут заменять друг друга в cootветствующем уравнении, но тогда включение сразу двух таких переменных в уравнение в качестве объясняющих приводит фактически к избыточной модели.

 

ПРИМЕР 3.3.4

Продолжая пример с импортом товаров и услуг во Францию, рассмотрим редуцированные модели, получаемые исключением из числа объясняющих переменных переменной Х2 или Х3. Оценивание этих моделей приводит к следующим результатам:

У= -6.507+ 0.146Х, с R2 = 0.9504 и Р-значение = 0.0000 для коэффициента при Х2

У = -9.030 + 0.222Хз

с R2 = 0.9556 и Р-значение = 0.0000 для коэффициента приХ3.

В каждой из этих двух моделей коэффициенты при Х2 и Х3 имеют очень высокую статистическую значимость. В первой модели изменчивость переменной Х2 объясняет 95.04\% изменчивости переменной У, во второй модели изменчивость переменной Х3 объясняет 95.56\% изменчивости переменной Y. С этой точки зрения переменные Х2 и Х3 вполне заменяют друг друга, так что дополнение каждой из редуцированных моделей недостающей объясняющей переменной, практически ничего не добавляя к объяснению изменчивости Y (в полной модели объясняется 95.60\% изменчивости переменной У), приводит к неопределенности в оценивании коэффициентов при Х2 иХ3.

Но коэффициент при Х2 в полной модели соответствует связи между переменными Х2 и У, очищенными от влияния переменной Х39 тогда как коэффициент при Х3 в полной модели соответствует связи между переменными Х3 и У, очищенными от влияния переменной Х2. Поэтому неопределенность в оценивании коэффициентов при Х2 и Х3 в полной модели, по существу, означает невозможность разделения эффектов влияния переменных Х2 и Х3 на переменную У.

Все четыре критерия выбирают в качестве наилучшей модель без переменной Х2М

В табл. 3.15 приведены значения R2adj9 S, AIC и SC для всех трех моделей.

Не будем далее углубляться в проблему мультиколлинеарности, обсуждать другие ее последствия и возможные способы преодоления затруднений, связанных с мультиколлинеарностью (использование гребневых оценок, ортогонализация используемого набора объясняющих переменных и оценивание модели, в которой объясняющими являются лишь наиболее существенные из полученных переменных, — регрессия на главные компоненты и другие методы). По этому вопросу можно обратиться к соответствующей литературе. Некоторые примеры рассматриваются на практических занятиях, а здесь приведем только один пример, показывающий, что большая величина коэффициента возрастания дисперсии вовсе не обязательно приводит к большим значениям оцененной дисперсии оценки соответствующего коэффициента.

 

ПРИМЕР 3.3.5

На рис. 3.1 показаны графики изменений в 500 наблюдениях,переменных У, Xl9 ХЪ9 Х4. Истинная модель порождения данных имеет вид:

Уі = 1 + 5хі2+хІЗ+0.5хІЛ+єі9

гдех/2 = 1 + 0.1/ + 0.І£/2, ха =2+ 0.5/+ 0.1\%, хі4 =3 + / + 0.1бгм, єі9 єа, €Q, єі49 ~ i.i.d. N(09 1), і = 1,500.

Здесь значения коэффициентов возрастания дисперсии чрезвычайно высоки: (VIF)2 = 21 747.73, (VIF)3 = 441 819.28, (VIF)4 = 444 750.88. Однако результаты регрессионного анализа показывают, что в данном случае это не так страшно (табл. 3.16).

Оцененные значения коэффициентов достаточно близки к их истинным значениям, а оцененные стандартные ошибки достаточно малы.

Для объяснения этих результатов обратимся к формуле для дисперсии оценки коэффициента при у-й объясняющей переменной, которую можно представить в виде (см. (Gujarati, 2003)):

 

=          (VIF)j

 

(доказательство приведено, например, в (Wooldridge, 2000)).

Из этой формулы вытекает, что большое значение (VIF)j может компенсироваться:

малым значением сг2;

п

большим значением суммы ^- Xj)2.

 

В нашем примере как раз имеет место последнее обстоятельство.

Заметим, наконец: тот факт, что здесь значение ^-статистики для коэффициента при переменной Х2 более чем в 5 раз превосходит значение ^-статистики для коэффициента при переменной Х3, объясняется тем, что в истинной модели в2 = 5в3.Ш

 

Использование статистических критериев для выбора между двумя негнездовыми моделями

До сих пор мы применяли F-критерии в ситуациях, когда проверяемая гипотеза Н0 представляла собой линейную гипотезу относительно коэффициентов исходной линейной эконометрической модели М. В таких случаях получаемая при выполнении гипотезы #0 модель М0 «вложена» в модель М (nested within model М) — говорят, что это случай проверки гипотез для гнездовых моделей (nested models). При этом сама исходная модель М «охватывает» модель М0 (encompasses model М0).

Рассмотрим две конкурирующие модели Mi и М2 с одной и той же объясняемой переменной у, но с разными наборами объясняющих переменных — такими, что в каждой модели хотя бы одна из объясняющих переменных не является объясняющей переменной в конкурирующей модели. Для простоты пусть это будут модели парной регрессии:

Mj : yt=ax+ pxxt+£i9   i = l,...fл,

М2 : yi=a1+p1zi+vi,   і = 1,...,л,

и при этом х( * zt хотя бы для одного наблюдения. В этом случае модели М х и М2 не являются гнездовыми — это негнездовые модели {nonnested models): ни одна из них не «вложена» в другую, не является частным случаем другой модели. Для выбора между такими моделями мы использовали скорректированный коэффициент детерминации и информационные критерии. Но можно поступить иначе — свести дело к проверке некоторой гипотезы с помощью статистического критерия.

В качестве исходной можно взять гибридную модель М в которой набор объясняющих переменных исчерпывает все объясняющие переменные, задействованные в конкурирующих моделях. Если Мг и М2 — модели парной регрессии, то это будет модель

М*: Уі=ві+в2 хі + @згі +єі>   / = 1,..л.

Гибридная модель М* охватывает обе модели М{ и М2: они являются частными случаями гибридной модели.

Если наблюдения порождаются моделью М {, то въ = О, если же наблюдения порождаются моделью М2, то в2 = 0. Отсюда напрашивается простое решение проблемы выбора между моделями М! и М2: поочередно проверить в рамках гибридной модели гипотезы значимости для коэффициентов в2 и въ, применяя ^-критерий. Если Mj и М2 являются моделями не парной, а множественной регрессии, то в соответствующей гибридной модели может быть использован F-критерий (такой подход называется использованием негнездовых F-критериев {nonnested F-tests)).

Однако не все так просто. Рассмотрим возможные результаты применения изложенного подхода к указанным выше моделям парной регрессии, предполагая, что в каждой из этих регрессий оцененные коэффициенты статистически значимы (табл. 3.17).

В случае исхода А решить, какую из двух конкурирующих моделей считать правильной, не представляется возможным. Но такой исход вполне возможен, если векторы значений переменных х, и Z; близки к коллинеарным. Тогда при оценивании гибридной модели оцененные коэффициенты при обеих этих переменных оказываются статистически незначимыми, хотя тест на одновременное зануление коэффициентов при этих переменных отклоняет соответствующую гипотезу.

Исход В приводит к выводу о правильности модели М х, исход С — к выводу о правильности модели М2. Но здесь возникает уже известная нам ситуация конфликта критериев: вывод зависит от того, какая гипотеза выбрана в качестве нулевой гипотезы. Наконец, в случае исхода D ни одна из моделей Mj и М2 не годится для описания изменчивости переменной >

 

Выбор между моделью связи, линейной в уровнях переменных, и моделью связи, линейной в логарифмах уровней

Выбор между двумя негнездовыми моделями приходится делать, в частности, в ситуации, когда решается вопрос о том, какая из двух моделей связи верна: модель, линейная в уровнях переменных, или модель, линейная в логарифмах уровней (log-log model). Снова обратимся для простоты к моделям парной регрессии и рассмотрим задачу выбора между моделями:

М! : у. = а{ + Д X; + et, і = 1,..., п, (линейная в уровнях переменных) М2 : yt = а2 + /?2 In*/ + v,-, / = 1,..л, (линейная в логарифмах уровней).

Простая процедура, опять же основанная на идее построения охватывающей модели, была предложена МакКинноном, Уайтом и Дэвидсоном (MacKinnon, White, Davidson, 1983) и состоит в следующем.

Методом наименьших квадратов оцениваем Мх и М2, при этом для объясняющих переменных получаем прогнозные значения у{ и lnyi соответственно. Если за основную берется модель, линейная в уровнях, a log-log модель рассматривается как альтернативная, то производится проверка гипотезы уш = О в рамках расширенной модели:

М*:у. =ах+рх xt + Гш(іпУі -lnV/) + Ь>   / = 1, -.л•

Если же за основную берется log-log модель, то производится проверка гипотезы yLOG = 0 в рамках расширенной модели:

 

М2 : М2:1пу;=а2+Р21пх(+у10С у{-exp(ln^) +v/f   і = 1,...,л.

V )

В обоих случаях используются критерии, основанные на /-статистиках, имеющих при нулевых гипотезах распределение, которое при достаточно

большом количестве наблюдений близко к стандартному нормальному. И опять здесь возможны 4 исхода с интерпретацией, аналогичной ситуации с применением негнездовых F-критериев (табл. 3.18). Примеры использования этого подхода оставляем для практических занятий.

Заметим, что существуют и другие статистические критерии для различения моделей, линейных в уровнях или в логарифмах уровней, — например, критерий Бокса—Кокса (Айвазян, 2001), критерий Зарембки (Доугерти, 2004).

 

Использование оцененной модели для прогнозирования

Пусть имеем нормальную линейную модель наблюдений у = Хв + є с р объясняющими переменными, Е(є) = 0, Соу(є) = cr2In9 известны значения объясняемой и объясняющих переменных в п наблюдениях и необходимо дать прогноз, каким будет значение объясняемой переменной^ в (п + 1)-м наблюдении при условии, что вектор (вектор-строка) значений объясняющих переменных хп+1 задан. Будем считать при этом, что коэффициенты модели не

изменяются при переходе к (п + 1)-му наблюдению и модель для п + 1 наблюдений удовлетворяет всем стандартным предположениям, так что

р

Уі = И°іхи +єі>   *' = 1,...,л + 1,   єІ9...,єп+1 -Lid. N(0,a2).

7 = 1

P

Обозначим для краткости: g(i9ff) =            ' так что

 

р

Уп + 1=^в1 Xn+lJ + Єп+1 = S(n + 1, в) + єп + і ,

7 = 1

g(n + ,e) = fjejxn+XJ=E(yn + x).

7=1

Можно оценить коэффициенты модели по имеющимся п наблюдениям, получить для них оценки наименьших квадратов в{, вр и предложить в качестве прогнозного значения для g(n + 1, в): g(n + ,в) = g{n + ,9) = f. 4 Vi. j■ = x„♦1 & ■

7 = 1

При этом

£(i(/l + l,^)) = X„ + 16> = g(/I + l,^),

 

так что g(n + ,0) = 2_l Qjx„+, j является несмещенной оценкой для Е(у„+,), и

7=1

D(g(w +1,60) - Cov(#(« +1,60) = Cov(xn+1 в) = xn+1 Cov{9) xT„+l = = a2xn+1(XTXylxTn+l=a2v,

где обозначено:

v = xn+l (XT X)~x xTn+x (v — скалярная величина). p *

Заметим, что 2^ @jxn+,j является несмещенной оценкой и для самого уп+ {.

 

Рассмотрим теперь разность уп+х -g(/f+ 1, #). Поскольку предполагается,

что ошибки распределены нормально, то эта разность — ошибка прогноза (forecast error) имеет нормальное распределение. При этом имеем:

Е(Уп+і ~g(n +1,0)) = E(yn+l)-E(g(n +1,в)) = g(n + ,Є)-g{n + 1,0) = О,

 

D(y„+, - g(n +1,60) = Z)((g(« +1,60 + єn+,) - g{n +1,60) =

= D(s„+i -g(n +1, в)) = D(en+1) +      +1,60) = <t2 + <r2v = <rV,

где обозначено:

v'= + v = l + xn+i(XTX)-lxTn+l.

Отсюда вытекает

y„+l-g(n + l,e)~N(0,a2v), crVv*

Замена неизвестного значения а2 на S2 = RSS/(n -p) приводит к статистике

y»^^e)~t(n-py Sjv

на основе которой можно построить доверительный интервал для^„+1 с заданным уровнем доверия у. Если у= 1- or, то 100/\%-й доверительный интервал лляуп+1 (интервальный прогноз — forecast interval) имеет вид: g(n + l,0)-t An-p)s47<y„+l <g(n + l,e) + t An-p)s47.

2 2

Средняя точка этого интервала g(п + 1, в) = хп+1 в соответствует точечному прогнозу (forecast) значения уп+1.

В некоторых экономических задачах более интересно не само значение уп+и соответствующее фиксированному набору значений объясняющих переменных хп+1, а математическое ожидание этого значения Е(уп+1 хп+1). В этом случае точечный прогноз для Е(уп+1хп+1) определяется по той же формуле

Е(Уп+11      ) = £(" +1, в) = *„+А

но дисперсия прогноза равна не cr2v*, a a2v. Соответственно интервальный прогноз для Е(уп+1хп+1) с уровнем доверия (1 - а) имеет вид:

g(n + l0)-t K(n-p)Syfr<E(yn+lxn+l)<g(n + ie) + t An-p)Syfr.

2 2

Для модели парной регрессии (р = 2):

У;=а + 0х{+8;9   / = 1,...,и, в качестве точечного прогнозауп+1 при заданном хп+1 берется значение

 

где d yl (З — оценки наименьших квадратов, полученные по имеющимся п наблюдениям.

Это же значение служит точечным прогнозом и для Е(уп+1хп+1).

Интервальные прогнозы для^„+1 и для Е(уп+1хп+1) можно построить, используя ранее полученные выражения для соответствующих доверительных интервалов. При этом формула для вычисления значения v принимает вид:

v= 1 , (**+i-*)2

 

X*/

где, как обычно, х -

 

Заметим, что при заданных значениях (yi9 xt), і = 1, п, (по которым строится прогноз) доверительный интервал для уп+1 будет тем шире, чем

больше v*. Последнее же равно

при хп+1 = х и возрастает с ростом

п

(хп+ - *)2- Это означает, что ширина доверительного интервала возрастает при удалении значения хп+1 = х*9 при котором строится прогноз, от среднего арифметического значений хх,хп.

Таким образом, прогнозы для значений хп+1 = х*9 далеко отстоящих от х9 становятся менее определенными, поскольку ширина соответствующих доверительных интервалов для значений объясняемой переменной возрастает.

 

ПРИМЕР 3.3.6

Для данных о размерах совокупного располагаемого дохода и совокупных расходах на личное потребление в США в период с 1970 по 1979 г. (млрд долл., в ценах 1972 г.) оцененная модель линейной связи имеет вид:

С = -67.555 + 0.979DPI. Представим, что мы находимся в 1979 г. и ожидаем увеличения в 1980 г. совокупного располагаемого дохода (в тех же ценах) до DPI* = 1030 млрд долл. Тогда прогнозируемый по подобранной модели объем совокупных расходов на личное потребление в 1980 г. равен:

С*ш = -67.555 + 0.979 -1030 = 940.815.

При этом

S2 =66.46,   DPI = 879.16,   £(xf. -х)2 =68015.18,

 

S2v = 95.340,   sJ7 = 9.7642. Если выбрать уровень доверия 0.95, то

М5(«-2) = /0>975(8) = 2.306,

2

и доверительный интервал для соответствующего DPI* = 1030 значения С*1980 имеет вид:

940.815 - 2.306 • 9.7642 < С*то < 940.815 + 2.306 • 9.7642,

т.е.

940.815-22.516 < С*то < 940.815 + 22.516,

или

918.299 < С*то < 963.331.

Заметим, что этот интервал достаточно широк и его нижняя граница допускает даже возможность некоторого снижения уровня потребления по сравнению с предыдущим годом.

В действительности, в 1980 г. совокупный располагаемый доход достиг 1021 млрд долл., а совокупное потребление — 931.8 млрд долл. Тем самым ошибка прогноза составила

1940.815-931.81 931.8

 

■100 = 0.97\%.

Если бы исходили при прогнозе из действительного значения DPIl9S0 = 1021, а не из DPI* = 1030, то прогнозируемое значение для С1980 равнялось бы 932.0 и ошибка прогноза составила всего лишь

1932.0-931.81

931.8

•100 = 0.021\%.

Проиллюстрируем, как изменяется в этом примере ширина 95\%-х доверительных интервалов в интервале наблюдаемых значений объясняющей переменной DPI. На рис. 3.2 приведены отклонения нижней и верхней границ таких интервалов от центра интервала.

Заметим, что S^ = 5 .374, таким образом, 95\%-й доверительный интервал для Е(С*9\%0 DPI* = 1030)

 

940.815 -2.306- 5.374 <Е(С[Ш DPI

имеет вид:

1030) < 940.815 + 2.306 • 5.374,

т.е.

940.815-12.392 < Е(С*то {DPI* =1030) < 940.815 +12.392,

или

928.423 <ВД*980 DPf =1030) < 953.207.

Конечно, этот интервал существенно уже доверительного интервала, полученного ранее для С*980.И

 

КОНТРОЛЬНЫЕ ВОПРОСЫ

Как можно проверить гипотезу значимости регрессии в целом на основе одного только коэффициента детерминации?

Каковы последствия неправильной спецификации линейной эконометрической модели в отношении выбора объясняющих переменных: включения в модель переменных, которые не участвуют в процессе порождения данных; невключения в модель переменных, которые участвуют в процессе порождения данных?

В чем заключается задача выбора «наилучшей» модели среди некоторого количества конкурирующих моделей?

Почему не имеет смысла выбор «наилучшей» модели на основании коэффициента детерминации?

Как определяется скорректированный коэффициент детерминации? Какова цель его введения?

Какова суть критерия Акаике для выбора между конкурирующими моделями?

Какова суть критерия Шварца для выбора между конкурирующими моделями?

Какой из двух информационных критериев — Шварца или Акаике — предпочтительнее?

В чем состоит проблема мультиколлинеарности? Какие признаки могут указывать на наличие мультиколлинеарности? Каковы последствия мультиколлинеарности?

Как определяется коэффициент возрастания дисперсии?

Всегда ли большая величина коэффициента возрастания дисперсии приводит к большим значениям оценки дисперсии оценки соответствующего коэффициента?

Что такое гнездовые и негнездовые модели? Какие статистические критерии используются для выбора между двумя негнездовыми моделями?

Как используются результаты оценивания линейной эконометрической модели для целей прогнозирования? Что такое точечный прогноз?

Что такое интервальный прогноз? Каким образом он строится?

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |