Имя материала: Эконометрика Книга первая Часть 1

Автор: Носко Владимир Петрович

Раздел 2 линейная модель наблюдений. регрессионный анализ тема 2.1 линейные модели с несколькими объясняющими переменными. оценивание и интерпретация коэффициентов

Говоря о линейных эконометрических моделях с несколькими объясняющими переменными, мы фактически исходим из предположения о существовании усредненного (теоретического) соотношения

у = в1х1+... + врхр

между переменными у и jtj, хр9 которые являются или непосредственно уровнями тех либо иных экономических факторов, или функциями от уровней этих факторов (например, степенями или логарифмами уровней этих факторов). Иными словами, «в среднем» значения переменной у являются линейной комбинацией значений переменных xl9 хр9 а ви вр суть коэффициенты этой линейной комбинации. Если в правую часть такого соотношения включается константа — постоянная составляющая {intercept), то в качестве хх берется «переменная», тождественно равная 1, тогда соответствующая

константа равна вх.

Рассмотрим, например, модель производственной функции Кобба — Дугласа

Q{K9L)=AKal/*9

где Q — объем выпуска; К — затраты капитала; L — затраты рабочей силы,

которая линеаризуется переходом к логарифмам уровней:

XogQ = ogA + aogK + /3ogL.

Заметим, что в этой модели параметр а выражает эластичность выпуска по капиталу, а параметр /?— эластичность выпуска по затратам труда. Такую модель связи можно записать следующим образом:

 

где у = logg, х] = ,х2 = logK, х3 = logL, вх = logA, в2 = a, Q = /3.

Обращенная к статистическим данным линейная эконометрическая модель с р объясняющими переменными (модель наблюдений), соответствующая модели связи у = вххх + ... + врхр, имеет вид

Уі=в[хІІ+... + Єрхір + єі9   1 = 1,...,/!, п>р,

где yt — значение объясняемой переменной в 1-м наблюдении; 0j — коэффициент приу'-й объясняющей переменной; Ху — значениеу'-й объясняющей переменной в /-м наблюдении; €j — случайная составляющая (ошибка) в /-м наблюдении; п — количество наблюдений.

Значения jc/1? хір, і - 1,п, наблюдаются — это и есть статистические данные (statistical data), или наблюдения (observations). На основании этих данных производится оценивание неизвестных параметров ви вр. Заметим: поскольку эти коэффициенты ненаблюдаемы, ненаблюдаемы и значения єІ9єп.

Следует особо остановиться на интерпретации коэффициентов. Выше уже говорилось о том, что интерпретация усредненных моделей связи становится более определенной, если предполагается, что условные математические ожидания случайных ошибок при известных значениях объясняющих переменных в эконометрической модели равны 0. Будем предполагать, что это так, т.е. что

Е(є^Ха,...,Хір) = 0,    / = 1,...,/!.

Если имеем дело с эконометрической моделью парной линейной связи у і = а + ftXj + є,, то при указанном условии

Е(уіхі) = а + Рхі,

и тогда коэффициент /? равен изменению ожидаемого значения yt при увеличении xt на 1.

Пусть, однако, в линейную эконометрическую модель помимо постоянной составляющей (которой, впрочем, может и не быть) включается более одной объясняющей переменной. В этом случае увеличение значения переменной xj на 1 уже не обязательно приводит к изменению ожидаемого значения переменной у на величину 6j. Дело в том, что переменная х- может быть связана с другими объясняющими переменными, включенными в модель, так что при ее изменении одновременно изменяются и значения других объясняющих переменных. Соответственно 6j представляет ожидаемое изменение у при увеличении Xj на 1, только если значения всех других объясняющих переменных остаются неизменными (правило «при прочих равных» — ceteris paribus).

Вернемся к примеру с производственной функцией Кобба — Дугласа и используем модель наблюдений в логарифмах уровней:

log Qi = log А + a log К t +ро\%Ц+е(,   і = 1,..., п,

предполагая, что Е(єіКІ,Ц) = 0,  і = 1,..., п. Тогда

EQogQKi9Lt) = ogA + aogKt + ftlogL,,

при этом:

коэффициент а равен изменению ожидаемого значения ogQt при увеличении log^ на 1 при неизменном значении logL, и интерпретируется как эластичность выпуска по затратам капитала при сохранении затрат труда на постоянном уровне;

коэффициент р равен изменению ожидаемого значения ogQt при увеличении logZ,, на 1 при неизменном значении log^ и интерпретируется как эластичность выпуска по затратам труда при сохранении затрат капитала на постоянном уровне.

Оценивание неизвестных коэффициентов модели методом наименьших квадратов {least squares) состоит в минимизации по всем возможным значениям в19вп суммы квадратов

 

Q{e,,...,ep)=YSy-exxiX-...-epxip)

/=1

Минимум этой суммы достигается при некотором наборе значений коэффициентов

0х=6Х9...96р =вр9

так что

Q0x,..Jp)= min Q{ex,...,ep).

V,...,Vp

Это минимальное значение опять обозначим RSS, так что

RSS = fe{yi-eixn-...-epxlp)

/ = 1

и назовем остаточной суммой квадратов.

Коэффициент детерминации R2 определяется как

,2 . RSS

TSS где

TSS = £,(yi-y)2.

i = l

Обозначив

уі=в1хп+... + врхір9   / = 1,...,л,

(подобранные — fitted, или прогнозные значения объясняющей переменной по оцененной линейной модели связи) и определив остаток (residual) в 1-м наблюдении как

*і=Уі-Уі>

получим:

RSS = fl(yl-y,)2=fief.

/=1 1=1

Обозначив

ESS = fj(yi-y)2

1 = 1

— сумму квадратов, объясненную моделью (explained sum of squares), как и в случае линейной модели ср = 2, имеем разложение

TSS = RSS + ESS,

так что

R2 = ESS TSS '

Опять же это разложение справедливо только при наличии постоянной составляющей в модели линейной связи. При этом

R2  — Ууу 5

т.е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции гу^ между переменными >> и у. Последний называется множественным коэффициентом корреляции (multiple-R), поскольку является выборочным коэффициентом корреляции между переменной>> и переменной^, являющейся, так сказать, «представителем» всего множества объясняющих переменных, включенных в правую часть оцениваемой модели. Для поиска значений вх,...,вр, минимизирующих сумму

д(вх,...,вр) = ^(Уі-ЄххІХ-...-врхір)2,

i = l

следует приравнять нулю частные производные этой суммы (как функции от 0l9в) по каждому из аргументов в196р.

В результате получаем систему нормальных уравнений:

^2(Уі-віХп-...-врхір)(-хп) = 0,

і = 1

fj2(yi-e]xn-...-epx!p)(-xi2) = 0, fj2(yl-eixn-...-epxlp)(-xip) = 0

или

02+...+

Это системар линейных уравнений ср неизвестными вІ96р. Ее можно решать или методом подстановки, или по правилу Крамера с использованием соответствующих определителей. В векторно-матричной форме эта система имеет вид

ХТХв = ХТу,

где X — матрица значений р объясняющих переменных в п наблюдениях

 

 

Х =

хи хп х2Х х22

 

 

*2р

 

Хп Хп2

"р j

Хт — транспонированная матрица

хт =

Xj 2 Х22

кп2

 

уХр Х2р

"р j

у и в — соответственно вектор-столбец значений объясняемой переменной в п наблюдениях и вектор-столбец оценок р неизвестных коэффициентов

 

 

V

 

 

У =

Уг

,     0 =

вг

 

<Уп)

 

Л,

Система нормальных уравнений имеет единственное решение (которое указывает именно точку минимума), если выполнено условие:

матрицах7^ невырожденна, т.е. ее определитель отличен от 0:

detXrX*0, которое можно заменить условием:

столбцы матрицы X линейно независимы.

При выполнении этого условия матрица ХТХ (размера р х р) имеет обратную к ней матрицу (ХТХ)~К Умножая в таком случае обе части уравнения XіХв = Xіу слева на матрицу (ХТХ)~ находим искомое решение системы нормальных уравнений:

е=(хтху1хту.

Введем дополнительные обозначения:

 

Тогда модель наблюдений

 

У = Х0,

вектор остатков равен

е-у-у-у-Хв.

Как и для модели линейной связи между двумя переменными, указанные выше алгебраические соотношения имеют простую геометрическую интерпретацию.

Система нормальных уравнений попросту выражает тот факт, что вектор остатков е ортогонален векторам значений объясняющих переменных

 

 

 

fx

 

fx Л

х1р

Х2

,   х2 —

Х22

9*"9 Хр

Х2р

Хп )

 

Xn2j

 

КХ»р )

т.е. ортогонален линейному подпространству L(X) = L(xl9x29хр) евклидова пространства R", содержащему векторы х19 х29 хр и все их линейные комбинации.

Вектор у = Хв можно записать следующим образом:

 

у = вххх+--- + врхр9

т.е. этот вектор является линейной комбинацией векторов xl9 xl9    хр9 а значит, принадлежит подпространству Ь(Х) и ортогонален вектору остатков е. Поскольку же из соотношения е = у - у следует, что

у = у + е9

это означает, что:

вектор у является ортогональной проекцией вектора yuaL (X);

вектор е является ортогональной проекцией вектора у на подпространство, являющееся ортогональным дополнением к подпространству       в R".

Заметив, что

у = Хв = Х(ХТХУ1 Хту9   е = у-у = у-Хв = (1п-Х(ХТХУХ Хт)у9

и обозначив Н = X(XTX)~lXT9 получим:

у = Ну,   е = (1п-Н)у,

так что Н = Х(ХТХ)~ХХТ — матрица ортогонального проектирования из R" на L(X) (/„-//) — матрица ортогонального проектирования из Rn на LL(X) — ортогональное дополнение к Ь(Х).

При этом для остаточной суммы квадратов получаем:

RSS = е2 = ете = (у- у)т(у -у) = (у- Хв)т(у - Хв) = = уту - втХту - утХв + втХтХв.

Поскольку здесь утХв— скаляр, то у1Хв - (утХв)т = вт Xту, так что

RSS = уту - втХту + втХтХв - втХту = уту - в7Xіу + вт(ХтХв - Xі у).

Но из соотношения XтХв = Xіу (система нормальных уравнений) вытекает тогда, что

ш=уту-ётхтхё,

что можно записать также в виде:

RSS = y2 -Хв2.

Это равносильно соотношению | у |2 = | у |2 +1 е |2, выражающему теорему Пифагора в R".

Рассмотрим статистические данные о потреблении текстиля (текстильных изделий) в Голландии в период между двумя мировыми войнами с 1923 по 1939 г., приведенные в табл. 2.1. В этой таблице Т— реальное потребление текстиля на душу населения; DPI — реальный располагаемый доход на душу населения; Р — относительная цена текстиля. Все показатели выражены в индексной форме.

Для объяснения изменчивости потребления текстиля в указанном периоде в качестве объясняющей переменной можно привлечь как располагаемый доход DPI, так и относительную цену на текстильные изделия Р. Если исходить из предположения о постоянстве эластичностей потребления текстиля по доходу и цене, следует подбирать линейные модели для логарифмов индексов, а не для самих индексов.

Рассмотрим сначала модели парной связи между логарифмами рассматриваемых переменных

IgT = ах + A IgDPI,    gT = a2+p2 lg/>.

Здесь для разнообразия использованы десятичные логарифмы, хотя можно использовать логарифмы по любому другому основанию (обычно применяют натуральные логарифмы) — при переходе в обеих частях уравнения к логарифмам по другому (но одинаковому) основанию значения интересующих нас в первую очередь коэффициентов Д и /?2 не изменяются.

Пусть Ti9 DPIi9 Pt — значения переменных Г, DPI, Р в і-м по порядку году на периоде наблюдений, так что / = 1, 17 и, например, /' = 3 соответствует базовому 1925 г.

Сначала рассмотрим эконометрические модели парной линейной связи между логарифмами переменных:

IgT^at+ftlgDPIt+eu,   lg7;.=a2+/?2lg/>+£2,.,   / = 1,...,17.

Оценивание этих моделей методом наименьших квадратов приводит к следующим результатам:

для первой модели: ах = 1.442, Д = 0.348, что соответствует оцененной модели связи gT= 1.442 + 0.348gDPI, при этом

£55 = 0.000959, RSS = 0.099185, 755=0.100144, Л2 = 0.0096;

для второй модели: а2 = 3.564, Д = -0.770, что соответствует оцененной модели связи gT= 3.564 - 0.7701gP, при этом

£55=0.087729, RSS = 0.012415, 755 = 0.100144, Л2 = 0.8760.

Вторая модель имеет более высокую объясняющую способность. Однако, естественно, возникают вопросы: нельзя ли для объяснения изменчивости переменной Т использовать одновременно и располагаемый доход, и относительную цену текстиля? Улучшит ли это объяснение изменчивости потребления текстиля?

Чтобы привлечь для объяснения изменчивости потребления текстиля обе переменные — DPI и Г, рассмотрим расширенную модель связи:

lgr = а + pigDPI + ygP.

Коэффициент Р интерпретируется здесь как эластичность спроса на текстиль по доходу при неизменном значении относительной цены Р на текстиль, а коэффициент у— как эластичность спроса на текстиль по цене при неизменном уровне располагаемого дохода.

Расширенной модели связи соответствует расширенная эконометрическая модель

\%Тъ=а + pXgDPIi+YW+s^   / = 1,...,и.

Оценивание методом наименьших квадратов расширенной модели приводит к следующим результатам:

а = 1.374,   Р = 1.143,   f =-0.829,

что соответствует оцененной модели связи

lgТ = 1.374 +1.143 lgDPI - 0.829 lgР,

при этом

ESS =0.097577, RSS= 0.02567, R2 = 0.9744.

Заметим: полная сумма квадратов TSS = 0.100144 одна и та же во всех трех случаях, поскольку во всех трех моделях объясняемая переменная была одной и той же.

Как видим, в результате привлечения для объяснения изменчивости потребления текстиля сразу двух показателей — DPI и Р произошло заметное увеличение коэффициента детерминации по сравнению с лучшей из двух моделей, использовавших только один показатель — от значения 0.8760 до значения 0.97441. Заметим для дальнейшего, что значение коэффициента детерминации в расширенной модели 0.9744 не равно сумме коэффициентов детерминации 0.8760 и 0.0096 в моделях с включением только одного из двух показателей — DPI или Р.

Коэффициент 1.143 в подобранной модели связи интерпретируется как оценка эластичности спроса на текстиль по доходу при неизменном значении относительной цены Р на текстиль, а коэффициент -0.829 — как оценка эластичности спроса на текстиль по относительным ценам при неизменном уровне располагаемого дохода. Такие значения оцененных коэффициентов формально говорят в пользу того, что спрос на текстиль эластичен по доходам и неэластичен по ценам. Вопрос о том, в какой степени можно доверять подобным заключениям, будет рассмотрен далее в контексте вероятностных моделей.

Еще одну интерпретацию оценок коэффициентов линейных моделей с несколькими объясняющими переменными дает теорема Фриша—Во— Ловелла (Frisch-Waugh-Lovell theorem). На нее часто ссылаются как на FWL-теорему. (Один из вариантов доказательства этой теоремы приведен в книге (Davidson, MacKinnon, 1993).)

Пусть в модели у = Хв + є с р объясняющими переменными и п наблюдениями объясняющие переменные разбиты на две группы, так что

где Хх — матрица размера п х (р - 1); Х2 — (их 1)-вектор; Рх — (р - 1) х 1-вектор; /?2 — число (скаляр);

 

Как увидим в дальнейшем, при введении в правую часть модели дополнительных объясняющих переменных коэффициент детерминации практически всегда возрастает. Однако это еще не означает, что надо обязательно использовать более полную модель. Этот вопрос будет рассмотрен в разд. 3.

у = Ххрх+Х2Р2+є9 (2.1) где Х2 — вектор значений выделенной объясняющей переменной.

Поскольку нумерация переменных, включаемых в модель, произвольна, пусть выделенной переменной будет хр.

Пусть Рх — оператор проектирования из R" на линейное подпространство L(XX)9 порожденное векторами-столбцами матрицы Xl9 а Мх — оператор проектирования из R" на ортогональное дополнение к L(XX). Оценивание линейной модели регрессии переменной у на первую группу переменных, т.е. на переменные хх,хр_Х9 приводит к представлению

у = Рху + Мху9

при этом вектор остатков Мху - у - Рху является результатом очистки переменной у от влияния переменных хх,хр_ х.

Аналогично оценивание линейной модели регрессии переменной хр на переменные xl9хр_ х приводит к представлению

хр=Р1хр+М1хр9

при этом вектор остатков Мххр = хр- Рххр является результатом очистки объясняющей переменнойхр от влияния переменныххх,хр_х.

Рассмотрим теперь модель наблюдений, в которой объясняемой переменной является очищенная переменная у9 а объясняющей — очищенная переменная хр

Мху = р2Мххр+є. (2.2)

 

ТЕОРЕМА Фриша — Во — Ловелла. Оценки наименьших квадратов коэффициентов р1 в моделях (2.1) и (2.2) численно совпадают.

 

J Замечание 2.1.1. Очистка переменных у и хр от влияния остальных переменных является, по существу, удалением оцененных линейных составляющих связей уихрс остальными переменными.

Вернемся к примеру со спросом на текстильные изделия, где оценивалась эконометрическая модель lgTt = а + pgDPIt + ygPt + єі9 і = 1,     17 и были

получены оценки наименьших квадратов а = 1.374, Д = 1.143, у = -0.829. В качестве переменной, выделяемой в FPTL-теореме, возьмем переменную 1пР.

Для очистки объясняемой переменной IgT следует оценить модель IgT; = = ах + PxlgDPIt + єХІ9 і = 1,     17, что уже сделано выше и получены оценки ах = 1.442, Д = 0.348. Следовательно, полученная в результате очистки переменная MxgТпринимает значения: MxgT = gTt - (1.442 + 0.348lgD/Y,).

Для очистки объясняющей переменной gP оцениваем модель gPt = а3 + + P3gDPIt + єЗІ9 і = 1, 17. При этом получаем оценки сс3 = -0.0586, Д = 0.960, и полученная в результате очистки переменная MxgP принимает значения: MxlgPt = lgPt - (-0.0586 + 0.960lgDP/,).

Остается оценить модель MxgTt = yMxlgPf + є4і9 і = 1,     17. Оценка

наименьших квадратов для коэффициента у принимает значение у = -0.829. Таким образом, оценка наименьших квадратов коэффициента при IgP в расширенной модели численно совпадает с оценкой наименьших квадратов в модели наблюдений, соответствующей модели пропорциональной связи между переменными IgTn IgP, очищенными от влияния переменной gDPL Рассмотрим теперь квадратичную модель связи между факторами ynz:

у = а + Pz + yz2.

Ей соответствует модель наблюдений:

yi =a + Pzt+yzf +єі9   / = 1,...,и. Перейдя к переменным х2 =z,x3 = z2, получим линейную модель наблюдений:

у і = а + Рхі2 + ухі3 + єі9   і = 1,..., п.

Следуя правилу «при прочих равных», в данном случае следовало бы интерпретировать коэффициент Р как ожидаемое изменение у{ при увеличении значения хі2 на 1 при сохранении неизменным значения хі3. Но последнее невозможно, так как хі3 = х)2. Увеличение значения хі2 на А приводит здесь к изменению ожидаемого значения объясняемой переменной в і-м наблюдении от значения yt = а + /?х/2 + ух2і2 до значения

Уі=а + 0 (хі2 + А) + у (хі2 +А)2 =(а + Pxi2 + yxf2) + Р А + 2 у хі2 А + у А2,

так что ожидаемое изменение^ при увеличении значения х/2на А равно

У?А + 2^х/2А + ^А2.

Если А мало (близко к 0), то

PA + 2yxi2A + yA2 *(р + 2ухі2)А,

так что предельный эффект переменной хі2 равен Р + 2ухі29 а не р.

Хотя правило «при прочих равных» оказывается здесь неприменимым, это никак не препятствует обращению к теореме Фриша — Во — Ловелла, в которой можно использовать поочередно в качестве выделенной переменной переменную х3 = z2 и переменную х2 = Z.

Пусть в качестве выделенной берется переменная х2 = z. Тогда методом наименьших квадратов оцениваем две модели наблюдений:

уt = ах+ух хі3 + єІХ — используется для очистки переменной у,

xi2 =а2+ fi2 хі3 + єі2 — используется для очистки переменной х2.

Получаем значения у. =dx+yxxi3, xi2 = d2+ /32xi3 и находим значения очищенных переменных у. = у і - у., хі2 = хі2 - хі2, т.е. остатки, полученные в результате оценивания этих двух моделей. Согласно F^L-теореме оценка наименьших квадратов коэффициента /? в исходной модели численно равна оценке наименьших квадратов в модели наблюдений, соответствующей пропорциональной связи между очищенными переменными у. = у і - у- и хі2 = хі2 - хі2.

 

Модель наблюдений с ортогональной структурой матрицы X

Вернемся к модели наблюдений^ = вххІХ + ... + врхір + єі9 і = 1, п. Как правило, оценка наименьших квадратов коэффициента вр в этом уравнении отличается от оценки наименьших квадратов коэффициента вр в модели, содержащей в правой части помимо хр лишь часть из переменных хх,хр_х.

Однако в некоторых моделях такое совпадение гарантируется, и это связано со специальными свойствами объясняющих переменных, включаемых в модель.

Рассмотрим случай, когда все столбцы Xl9 Хр матрицы X попарно ортогональны, так что XjXk = О для к    , k9j = 1.

 

(xlxx

о

■■    о Л

-1

 

в = (ХтХу1Хту =

О

X 2 X 2

о

 

Ху

 

О

о

 

 

*ТрУ.

Тогда оценка наименьших квадратов вектора в в полной модели равна:

хТхХхухХТху (Хт2Х2Г1Хт2у

 

(ХтрХр)Хтру ^ где О — матрица, все элементы которой равны нулю.

Но (XjX.)~lXjy есть оценка наименьших квадратов коэффициента 0j в модели

 

J Замечание 2.1.2. Если в правую часть модели включается также постоянная составляющая, так что xiX = 1, то соотношения ХтхХк = О,

п

к - 2,     п9 означают, что ^xik = 0 и хк = 0, т.е. в этом случае

/=і

переменные х29     х центрированы (centered variables). При этом

условия XTjXk - О для к Ф j, к, j = 2,     р, можно записать в виде

п п

]Г xtJxik =    (xtj - Xj) (xik -xk) = 0.   Но   последнее   означает, что

Cov(Xj, хк) = 0. Поскольку хп = 1, то хх = 1 и Cov(xX9 хк) = 0 для всех к = 2,п.

Иными словами, при попарной ортогональности всех столбцов матрицы X и наличии постоянной составляющей в правой части модели наблюдений переменные х19 х2, хр (выборочно) некоррелированны. При этом коэффициент детерминации R2, получаемый при оценивании модели, равен сумме квадратов выборочных коэффициентов корреляции между объясняемой переменной и каждой из объясняющих переменных. Но это означает, что этот коэффициент детерминации равен сумме коэффициентов детерминации, получаемых в моделях парной регрессии переменной у на константу и одну из остальных объясняющих переменных. Соответственно в такой ситуации каждый из суммируемых коэффициентов детерминации определяет вклад, который вносит соответствующая объясняющая переменная в объяснение изменчивости переменной у.

Выведем указанное свойство, полагая для простоты р = 3, т.е. рассмотрим три модели

М: у. = 0Х + 02xi2 + #3х/3 +єі9   і = 1,..., п (полная модель), М2: у1= 0х+02хі2+єі9 М3: уі=01+03хі3+єі,   / = 1,...,л. Остаточная сумма квадратов в полной модели равна:

RSS = е2= ете = (у- у)т (у-у) = (у- Хв)т(у - Хв) =

= уту - втХту - утХв + втХтХв. На основании этого представления ранее было получено выражение

RSS = yTy-eTXTxe. Теперь будет полезным другое выражение для RSS, которое выводится с учетом того, что Xі Хв = Xі у (нормальное уравнение):

RSS=yTy - втХту-утХв + втХту = уту-у1Хв = уту - (Хту)т в =

Л   п    А   п    А п

і =       і =       і =

п          п          п п

= (УТУ -пу2)-вг^хпу, - в3Хх*Уі = TSS ~ вг^хпУі " ^ІВД-

/=і        і=і        і=і і=і

Следует установить, что R2 = R + R, где R — коэффициент детерминации в модели М*, т.е.

1-

RSS TSS

1-

RSS2 TSS

+

1-

RSS3 TSS

где RSSk — остаточная сумма квадратов, получаемая при оценивании модели Мк.

Это равносильно соотношению

{RSS2 + RSS3)-RSS = TSS.

Проверим выполнение этого соотношения в модели с х2 _|_ хх, Х3 _L JC,, хъ -L х2. Имеем:

RSS = TSS - 92 £ хі2Уі - въ £ хаУі, і=і і=і

RSS2 =Ш-ё£хпУ!, Ш3=Ш-ё£х13у,

/=1

1=1

(значения оценок вк при оценивании полной модели и модели Мк совпадают при сделанных предположениях об ортогональности переменных), откуда и вытекает выполнение указанного соотношения.

 

Нормальная линейная модель с несколькими объясняющими переменными. Стандартные предположения о модели

Начиная с этого момента будем предполагать следующее:

модель наблюдений имеет вид

Уі=вхп +--- + врхіР+£і>   / = 1,...,и, п>р9

где у і — значение объясняемой переменной в 1-м наблюдении;

Хд — известное фиксированное значение у-й объясняющей переменной в 1-м наблюдении; Oj — неизвестный коэффициент приу-й объясняющей переменной; є{ — случайная составляющая (ошибка) в і-м наблюдении.

В матрично-векторной форме модель соответственно имеет вид:

у = Хв + є.

єІ9     єп — случайные величины, независимые в совокупности, имеющие одинаковое нормальное распределение N(09 а2) с нулевым математическим ожиданием и дисперсией а2 > 0. Для краткости обозначим это следующим образом:

sx,...,en~i.i.d. N(0, а2),

где i.i.d. —независимые, одинаково распределенные (аббревиатура от independent, identically distributed).

Иначе говоря, случайный вектор є = (єІ9 єп)т имеет «-мерное нормальное распределение1 с нулевым математическим ожиданием (точнее, с математическим ожиданием, равным нулевому вектору (0,О)7) и диагональной ковариационной матрицей Cov(s) = а21п9 где /„ — единичная матрица размера пх п;

если не оговорено противное, то в число объясняющих переменных включается переменная, тождественно равная 1, которая объявляется первой (по порядку) объясняющей переменной:

хп =1,   / = 1,..., и;

Определитель матрицы ХТХ отличен от нуля:

ЫХтХ*0,

что можно заменить условием: столбцы матрицы ^линейно независимы.

Для краткости будем ссылаться далее на предположения (2), как на стандартные предположения об ошибках в линейной модели наблюдений.

 

КОНТРОЛЬНЫЕ ВОПРОСЫ

Об определении многомерного нормального распределения и о некоторых его свойствах см. Приложение П-2а в конце раздела.

Что понимается под линейной эконометрической моделью с несколькими объясняющими переменными?

В чем состоит правило «при прочих равных», используемое для интерпретации коэффициентов линейной эконометрической моделью с несколькими объясняющими переменными?

Что такое множественный коэффициент корреляции и почему он так называется? Какова его связь с коэффициентом детерминации?

Какова геометрическая интерпретация системы нормальных уравнений, используемых для нахождения оценок наименьших квадратов? При каком условии эти система имеет единственное решение?

Как интерпретируются оценки наименьших квадратов коэффициентов линейных моделей с несколькими объясняющими переменными? Какие проблемы возникают при интерпретации таких оценок?

Какие преимущества дает ортогональная структура матрицы значений объясняющих переменных?

Что понимается под нормальной линейной моделью с несколькими объясняющими переменными? В чем состоят стандартные предположения о такой модели?

            Тема 2.2         

свойства оценок коэффициентов линейной модели при стандартных предположениях о вероятностной структуре ошибок. доверительные интервалы для коэффициентов

При сделанных выше предположениях о модели наблюдений yl9 уп являются наблюдаемыми значениями нормально распределенных случайных величин Yl9 Yn9 которые независимы в совокупности и для которых математические ожидания и дисперсии равны соответственно:

Е(¥і) = в1хп+... + врхір,   D(Yi) = <r2,

так что

Yt ~N(e{xn +... + врхір,а2\%   і = 1,..п.

Случайные величины Yl9 Yn в отличие от єІ9 єп имеют неодинаковые математические ожидания. В совокупности случайные величины Yl9 Yn образуют случайный вектор Y- (Yl9 Yn)T с независимыми компонентами, имеющий «-мерное нормальное распределение1. При этом

Y = Хв + є9   E{Y) = ХЄ + Е{є) = Хв9   Cov(y) = а21п.

Определяющим для всего последующего является то обстоятельство, что в нормальной линейной модели с несколькими объясняющими переменными

оценки в{9...9вр коэффициентов   #р как случайные величины имеют

нормальные распределения (хотя эти случайные величины уже не являются независимыми в совокупности).

Действительно, случайный вектор 0 = (XTX)~lXTY можно представить

в виде в = СУ9 где С = (ХТХ)~1ХТ — неслучайная матрица размера р х и,

так что в является линейным преобразованием нормально распределенного случайного вектора Y и, следовательно, имеет нормальное распределение.

Математическое ожидание этого случайного вектора равно: Е(в) = Е((ХТХУ1 XTY) = (ХТХУ1 XTE(Y) = (ХтХу1 XіЕ{Хв + є) =

= (хтху1хтхв = в9

См. Приложение П-2а в конце данного раздела.

так что в является несмещенной оценкой вектора коэффициентов в.

Для случайных величин вХ9 вр — компонент вектора в получаем соответственно:

E{9j) = ej,

так что Oj является несмещенной оценкой коэффициента ^ при у-й объясняющей переменной.

Найдем ковариационную матрицу случайного вектора в9 используя формулу для вычисления ковариационной матрицы случайного вектора, полученного линейным преобразованием другого случайного вектора с неслучайной матрицей преобразования:

Соуф) = Cov(CY) = CCov(Y)CT = ((XTX)~l XT)cov(Y) ((XTX)~lXTJ = = ((ХТХУ1ХТ )a2In ((XTXylXTJ = a2(XTXylXTX(XTXyl = = a2(XTXyl.

Здесь использованы правило транспонирования произведения матриц (АВ)Т = ВТАТ и тот факт, что матрица (ХТХ)~1 симметрична, как и матрица (ХТХ). Отсюда получаем, в частности, выражение для дисперсии Oj:

D(ej) = cr2(XTXyJ9

где (XіХ)~} —j-и диагональный элемент матрицы (ХТХ)~Х.

Рассматриваемая нами модель относится к классу так называемых регрессионных моделей (regression models), имеющих вид:

У, =/(*,,,...,^) + *,.,   / = 1,..., л,

где Хп,Хір9 і = 1,п9 как и Yx,У„, могут быть случайными величинами, и при этом условное математическое ожидание случайной величины Yt при заданных значениях Хп = xil9     Xip=xip равно:

E(YXiX=xiX9...9Xip=xip) = f(XiX9...9Xip)9   / = 1,...,л.

Последнее соотношение можно интерпретировать следующим образом: если мы наблюдаем (или, если это возможно, задаем) значения Хп = xil9 Хір = хір9 то ожидаемым значением для У, является значение f(Xn,Xip). Если имеется возможность многократно наблюдать значения Yt при одном и том же наборе значений Хп =хП9Xip =xip9 но с разными (независимыми) реализациями случайного вектора є = (єХ9...9єп)т9 то среднее значение наблюдаемых при этом значений У, будет близким к f(Xil9Xip).

Заметим, что, поскольку st = Yt -f(Xn, ..., Хір)9 і = 1, ..., n9 условие =xi9--->Xip =xiP) = f(Xn,...,Xip)9   і = 1,..., n9 равносильно условию

Е(єіхп=хП9...9Хір=хір) = 0.

В разд. 2—5 предполагается, чтоЛ^, Хір9 і = 1, п9 являются неслучайными величинами, а в разд. 6 обсуждаются проблемы, возникающие при рассмотрении моделей, в которых такое предположение не является оправданным.

Совокупность вероятностно-статистических методов исследования регрессионных моделей называется регрессионным анализом (regression analysis). О регрессионной модели У, = f(Xil9 Xip) + et с E(YXn = хп, Xip = xip) = =f(XiX9 Xip)9 і = 1, n9 часто говорят как о модели регрессии переменной Yt на переменные Х19 ...<>Хр.

Соотношение Yt = f(Xil9 Xip) + st в модели регрессии называют уравнением регрессии (regression equation), объясняющие переменные Х{9 Хр — регрессорами (regressors).

Функция / в этом контексте называется функцией регрессии (regression function). Эта функция может быть полностью произвольной (и тогда говорят о непараметрической регрессии — nonparametric regression) или параметрической, заданной с точностью до конечного числа неизвестных параметров (и тогда говорят о параметрической регрессии — parametric regression). В последнем случае различают линейные (linear) и нелинейные (nonlinear) регрессионные модели.

В линейной регрессионной модели функция регрессии линейна относительно неизвестных параметров, производные функции регрессии по неизвестным параметрам не зависят от этих параметров. В нелинейной модели хотя бы одна из таких производных зависит от неизвестных параметров.

Например, в регрессионной модели

Qt - AKfL? + st,   / = 1           л,

функция регрессии параметрическая: f(K9 L) = f(K9 L; А9 а9 J3) = AKalf она задана с точностью до неизвестных параметров A, a, J3. При этом

df(K9 L; А9 а9 0) =   df(K9 L; А9 а9 (3) = AaKa-Lp

дА       ' да

df(K9 L9 А9 а9 р) = AKanLp-

ер Р

так что производные функции регрессии по неизвестным параметрам зависят от неизвестных параметров. Следовательно, рассматриваемая регрессионная модель нелинейна.

Рассмотрим регрессионную модель для натуральных логарифмов уровней в виде:

ІпЦ. =пА + апКі + рпЦ + єг

Для нее функция регрессии имеет вид: f(K9 L) = ЫА + апК + fi L.

Если опять считать неизвестными параметрами А, а и Д то производная функции регрессии по параметру А зависит от этого параметра:

df(K9L;A9afi)_A_x

так что регрессионная модель нелинейна.

Если же считать неизвестными параметрами 1пА9 а и Д то производная функции регрессии по параметру пА не зависит от этого параметра:

df(K9L9A9a9(l) _х дпА

и регрессионная модель становится линейной.

Модель, удовлетворяющую предположениям (1) и (2) в конце темы 2.1, можно называть нормальной линейной моделью множественной регрессии переменной у на переменные ,хр. Термин «множественная» (multiple) указывает на использование в правой части модели наблюдений двух и более объясняющих переменных, отличных от постоянной. Термин «нормальная» (normal) — на предположение о нормальности распределения случайных ошибок. Если такое предположение отсутствует (т.е. допускаются и другие вероятностные распределения ошибок), то говорят просто о линейной модели множественной регрессии (или о множественной линейной регрессии — multiple linear regression). Термин «регрессия» (regression) имеет определенные исторические корни и используется лишь в силу традиции. Тем не менее приведем пример, в какой-то мере поясняющий это название.

 

ПРИМЕР 2.2.1

Некоторая дисциплина изучается в течение года. Пусть значения переменной х представляют оценки студентов на экзамене по этой дисциплине в первом семестре, а значения переменной у — оценки, полученные теми же студентами на экзамене во втором семестре (используется 100-балльная система оценок). По данным, относящимся к 38 студентам, методом наименьших квадратов была получена оцененная модель линейной связи между этими переменными в виде

= 17.5+ 0.789*

с достаточно высоким коэффициентом детерминации R2 = 0.823.

Прямая у = 17.5 + 0.789х пересекает прямую у = х при х = 82.94 и имеет меньший угловой коэффициент, чем прямая у = х. Следовательно, если студент получил на экзамене за первый семестр более 82 баллов, то ожидаемая для него оценка на экзамене за второй семестр будет меньшей, чем оценка, полученная им за первый семестр. В этом смысле можно говорить о «регрессе» студентов, имеющих достаточно высокие оценки. В то же время если студент получил на экзамене за первый семестр менее 83 баллов, то ожидаемая для него оценка на экзамене за второй семестр будет большей, чем оценка, полученная им за первый семестр. Но тогда следовало бы говорить о «прогрессе» студентов, имеющих достаточно низкие оценки. Поэтому термины «регрессия», «регрессионный» надо воспринимать просто как исторически укоренившиеся, не придавая им особой смысловой окраски. ■

Модель простой линейной регрессии (simple linear regression) yt=a + Pxt+8t,  / = 1,...,л,   с   E(st) = 0,  / = 1,...,л, вкладывается в модель множественной линейной регрессии ср = 2:

 

 

 

( хЛ

 

 

 

ґ*.ї

 

, х =

1 х2

, в=

 

,    £ =

 

 

• •

 

 

 

 

 

[} Хп)

 

 

 

6п )

Такую модель называют иначе парной линейной регрессией (two-variable linear regression), а также моделью прямолинейной регрессии (straight-line regression).

Матрица (ХТХ)~1 здесь имеет вид:

 

(хтху1=

 

/=1

(  п п

2><2 -5>,

/=і /=і

п

 

V '=1

Учитывая, что

 

п          I   п       п

 

1=1

/=1

находим:

 

ад=[0-2(Л)"1]„=^н!

«2>,-х)2

 

D(P) = [a2(XTXyx]22           

YSx-x)2

і =

 

Заметим еще, что

 

Cov(aJ) = [cr2(XTXyl]l2 =     „  /=1 _ ,

 

1 = 1

п

откуда следует, что Cov(d9/3) = 09 только если ]Г*. = 0. Иначе говоря, при

/=і

п

]Г   * 0 случайные величины а и /? коррелированы.

/=і

Использование метода наименьших квадратов для оценивания линейных эконометрических моделей оправдывается следующим важным результатом.

 

ТЕОРЕМА Гаусса — Маркова (Gauss-Markov theorem). Пусть модель наблюдений имеет вид:

+          1=1,..., Л, П>р9

где        xtj — фиксированные значения; 0l9вр— неизвестные коэффициенты;

єІ9єп — случайные ошибки, имеющие нулевые математические ожидания, одинаковые дисперсии а1 и попарно некоррелированные;

в матрично-векторной записи: Y- Х6+ є, Е(є) = 0, Соу(є) = cr2In.

Предполагается также, что столбцы матрицы X линейно независимы, так что эта матрица имеет полный столбцовый ранг, а определитель матрицы ХтX отличен от 0.

Тогда оценка наименьших квадратов в = (ХтХ)~1Хту неизвестного вектора коэффициентов в является наилучшей линейной несмещенной оценкой

(BLUE — best linear unbiased estimate) этого вектора в том смысле, что если

в — любая несмещенная оценка вектора в9 имеющая вид в = Су (С — матрица размера рхп)9 то разность Cov(O) - Cov(6) является неотрицательно определенной (положительно полуопределенной) матрицей.

Заметим, чтоу-й диагональный элемент матрицы Cov(6) - Cov(6) равен разности D(0j) - D(6j)9 так что при выполнении условий Гаусса — Маркова имеем:

D(ej)^D(ej).

Таким образом, оценка наименьших квадратов 0j коэффициента ^ имеет наименьшую возможную дисперсию в классе всех линейных несмещенных оценок этого коэффициента, т.е. является эффективной оценкой, и в этом смысле она является оптимальной оценкой этого коэффициента.

Доказательство теоремы Гаусса — Маркова. Если в - Су — несмещенная оценка вектора в, т.е. Е(в)- то

0= Е(в) = Е(Су) = СЕ(у) = СХв. Соотношение 0= СХв должно выполняться при всех в, поэтому СХ= 1р. Обозначив В = С- (ХТХ)~ХХТ (матрица размерар х и), получим:

Cov(6)-Cov(6) = Cov(Cy-(XTXylXTy) = Cov(By) =

= BCov(y)BT = cr2BBT = or2 A,

где A = BB 7 — симметричная матрица размера p x p.

Для любого ненулевого вектора z размерар х 1 имеем:

zTAz = zTBBTz = (BTz)TBTz = wTw > О,

где w = BTz — вектор размера рх I, так что разность Cov(O) - Cov(d) является неотрицательно определенной матрицей, что и требовалось доказать.

Условия, накладываемые на эконометрическую модель в теореме Гаусса — Маркова, называют условиями Гаусса — Маркова (Gauss-Markov conditions). Заметим, что эти условия отличаются от стандартных предположений о нормальной линейной модели с несколькими объясняющими переменными отсутствием предположения о нормальном распределении случайных ошибок.

Если к условиям Гаусса — Маркова добавить предположение о нормальном распределении случайных ошибок, то оценка в = (ХТХ)~хХТу является наилучшей (в том же смысле) в классе всех несмещенных оценок, а не только в классе линейных несмещенных оценок. (Доказательство этого утверждения можно найти в монографии (Рао, 1968).)

Итак, при выполнении условий Гаусса — Маркова оценка наименьших

квадратов #7 коэффициента является несмещенной и эффективной оценкой коэффициента вґ Однако, как известно из курса математической статистики, помимо свойств несмещенности и эффективности, желательно, чтобы оценка неизвестного параметра обладала еще и свойством состоятельности, т.е. чтобы при неограниченном увеличении количества наблюдений эта оценка сходилась по вероятности к истинному значению оцениваемого параметра.

Пусть Х(п) — матрица значений объясняющих переменных в п наблюдениях, так что Y = Х(п)в + є, и в(п) — оценка наименьших квадратов вектора в по п наблюдениям.

Утверждение. Пусть для модели Y = Х(п)в + є выполнены условия Гаусса — Маркова. Если tr[х{п) Х{п)^ —> 0 при п -> оо (здесь trA — след матрицы А), то     является состоятельной оценкой вектора в.

Доказательство. Поскольку матрица Х(п) Х(п) по предположению явля-

ется невырожденной, то таковой же является и матрица [х{п) Х^"^ . По

этому р х/7-матрица [х(п)Тположительно определена. Но тогда все ее

диагональные элементы положительны, и если их сумма, т.е. tr|x(w) Х(п)^ , стремится к 0, то и каждый из этих элементов стремится к 0 при п —> оо. В то же время для оценки      коэффициента ^ имеем:

D(fyn)) = a2(x(n)TXin)Y ->0, п

> со

при каждом j = 1, р. Поскольку при выполнении условий Гаусса — Маркова E{6{jl)) = 0j, можно использовать неравенство Чебышева, из которого

вытекает, что (0*.и) -0j)—^—>0, или 0*.и)—^->#/ для всех j = 1,    р. А это

и означает, что ——>в, т.е.      является состоятельной оценкой вектора в.

Заметим в связи с доказанным утверждением, что для состоятельности

т

отнюдь не достаточно, чтобы все диагональные элементы матрицы Х{п) Х{п) стремились к бесконечности (см. монографию (Amemiya, 1985)).

 

Нормальная линейная множественная регрессия: доверительные интервалы для коэффициентов

Рассматривая нормальную линейную модель множественной регрессии

У і = 0*п + •••+ врхіР +       / = 1,    л,

с st ~ lid. 7V(0, сг2), мы установили, что оценка наименьших квадратов ві неизвестного истинного значения коэффициента при у-й объясняющей переменной имеет нормальное распределение, причем

E(0J) = ej,   Щв.) = <т2(ХтХ)^,   у = 1,...,л.

Рассмотрим теперь случайную величину

ej-ej

 

получаемую путем вычитания из случайной величины 6j ее математического ожидания и деления полученной разности на корень из дисперсии 0. (т.е. путем центрирования и нормирования случайной величины 0.). При совершении этих двух действии мы не выходим за рамки семейства нормальных случайных величин и получаем опять нормальную случайную величину, но только уже с другими математическим ожиданием и дисперсией. Используя известные свойства математического ожидания и дисперсии, находим:

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |