Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

6.2. влияние отсутствия в уравнении переменной, которая должна быть включена

 

Проблема смещения

Предположим, что переменная у зависит от двух переменных х, и х2 в соответствии с соотношением:

у = а + р,х, + р2х2 + и, (6.1)

однако вы не уверены в значимости х2. Считая, что модель должна выглядеть как

y = a + p1x1+w„ (6.2)

вы оцениваете регрессию

y = a + Vi (6.3)

и вычисляете Ьх по формуле Cov (x,,.y)/Var (х,) вместо правильного выражения, данного в уравнении (5.12). По определению, Ьх является несмещенной оценкой величины Р,, если Е(Ь{) равняется Р,. Практически, если соотношение (6.1) верно, то

[Cov(xhy)l Cov(xux2)

 

Сначала мы дадим интуитивное объяснение этого, а затем — формальное доказательство.

В разделе 5.2 показано, что если опуститьх2 в регрессионном соотношении, то переменная х, будет играть двойную роль: отражать свое прямое влияние и

заменять переменную х2 в описании ее влияния. Данное кажущееся опосредованное влияние величины х, на у будет зависеть от двух факторов: от видимой способности х, имитировать поведение х2 и от влияния величины х2 на у.

Кажущаяся способность переменной х, объяснять поведение х2 определяется коэффициентом наклона h в псевдорегрессии:

x2=g + hx]. (6.5)

Величина Л, естественно, рассчитывается при помощи обычной формулы для парной регрессии, в данном случае Cov (х,, x2)/Var (х,). Влияние величиных2 на у определяется коэффициентом р2. Таким образом, эффект имитации посредством величины р2 может быть записан какР2Соу (х,, x2)/Var (х,). Прямое влияние величины х, на у описывается с помощью рг Таким образом, при оценивании регрессионной зависимости у от переменной Xj (без включения в нее переменной х2) коэффициент при Xj определяется формулой:

Р, + P2Cov (*,, jc2)/Var (х,) + Ошибка выборки. (6.6)

При условии, что величина х, не является стохастической, ожидаемым значением коэффициента будет сумма первых двух членов этой формулы. Присутствие второго слагаемого предполагает, что математическое ожидание коэффициента будет отличаться от истинной величины р,, другими словами, оценка будет смещенной.

Рис. 6.1

VarUO 1

Формальное доказательство соотношения (6.4) не представляет труда. Выполним ряд теоретических преобразований оценки Ь{.

Var(Xi) 1

Var(x,)

= Со(х1}у) = CovUjJa + PiXi +Р2*2 + "]) = 1     ~ '  v VarUi)

[Cov(xj, a) + Cov(x!, pjXj) + Cov^, p2x2) + Cov(xj, u) = [0 + Pi Var(x,) + p2Cov(x,, x2) + Cov(x, ,и)] =

« о Соу(хьх2) Cov(xbu) Pl   P2   Var(x,)       Var(x,) '

(6.7)

Если величины x, и x2 являются нестохастическими, то при вычислении математического ожидания величины Ьх первые два члена в уравнении (6.7) остаются неизменными, а третий будет равен нулю. Отсюда мы получаем формулу (6.4).

Этим подтверждается наш интуитивный вывод, что Ь{ смещена на величину, равную P2Cov (jc,, jc,)/Var (jc,). Направление смещения будет зависеть от знака величин Р2 и Cov(x,,x2). Например, если Р2 положительна, а также положительна ковариация, то смещение будет положительным, а Ьх будет в среднем давать завышенные оценки р,. Самостоятельно вы можете рассмотреть и другие случаи.

Есть, однако, один исключительный случай, когда оценка Ь{ остается несмещенной. Это случается, когда выборочная ковариация между х, и х2 в точности равняется нулю. Если Cov (х,, х2) = 0, то смещение исчезает. Действительно, коэффициент, полученный с использованием парной регрессии, будет точно таким же, как если бы вы оценили правильно специфицированную множественную регрессию. Конечно, величина смещения здесь равнялась бы нулю и при Р2 = 0, но в этом случае неправильной спецификации не возникает.

 

Неприменимость статистических тестов

Другим серьезным следствием невключения переменной, которая на самом деле должна присутствовать в регрессии, является то, что формулы для стандартных ошибок коэффициентов и тестовые статистики, вообще говоря, становятся неприменимыми. Это, разумеется, означает, что, основываясь на полученных результатах оценки регрессии, в принципе нельзя заниматься проверкой каких-либо гипотез.

 

Иллюстрация, основанная на методе Монте-Карло

Проведенный нами анализ проиллюстрируем при помощи эксперимента, являющегося одной из вариаций метода Монте-Карло, рассмотренного в разделе 5.4. Предположим, что доход в какой-то стране определяется продолжительностью обучения (5), индексом интеллекта (IQ) и степенью удачи. К основному доходу, составляющему 10 000, добавляется по 1500 за каждый год обучения сверх минимальных 10 лет и по 250 за каждый балл IQ свыше 85. Кроме того, имеется еще фактор удачи (и):

у = 10 000 + 1500 (S — 10) + 250 (IQ —85) + и. (6.8)

После упрощения это уравнение становится таким:

у = -26250+ 1500S + 250/G+ и. (6.9)

Первые три колонки в табл. 6.1 представляют данные для воображаемой выборки из 20 человек. Значения S и IQ выбраны произвольно, но они оказываются положительно коррелированными. Положительная корреляция этих величин наблюдается во многих странах, и одним из объяснений (но ни в коем случае не единственным) является то, что студенты с большими способностями чаще выдерживают конкурсные экзамены, определяющие рейтинг для допуска к продолжению образования. Значения величины и были определены путем получения выборки из 20 наблюдений нормально распределенной случайной величины с нулевой средней и единичной дисперсией и умножения каждого наблюдения на 2000. В табл. 6.1 показаны также итоговые значения величины^, полученные по формуле (6.9).

Исследователь изучает факторы, определяющие доход в данной стране, не подозревая важности величины IQ, и оценивает парную регрессионную зависимость дохода от продолжительности обучения в годах:

j> = a + A,S. (6.10)

Исследователь получает результат:

^ = -6418 + 19855;     Л2 = 0,78. (6.11) (со.) (3349) (248)

К несчастью для исследователя, величины SwIQ коррелированы. Для данной выборки выражение Cov (S, 7(?)/Var (5) равно 1,29. Таким образом,

 

Е{ЬХ) = р, + р2          = 1500 + 250 х 1,29 = 1823.  (6.12)

 

Поскольку исследователь не включил в уравнение величину IQ, то оценка коэффициента при S будет иметь положительное смещение на 323. Конечно, фактически полученная оценка может равняться 1823, но это будет просто совпадением, если только фактор удачи примет нулевое значение. Мы видим, что исследователь фактически получил несколько более высокую оценку, равную 1985. Различие объясняется влиянием остаточного члена в данной выборке.

Если бы исследователь включил в уравнение регрессии переменную IQ, то результат оценивания для той же выборки получился бы следующим:

р= -29 586+ 16405+268/Q;     Я2 = 0,93. (6.13) (со.)  (4155)    (151) (43)

Полученные исследователем оценки коэффициентов были бы несмещенными и, по крайней мере в данном случае, существенно более близкими к их истинным значениям.

Очевидно, что как полученное исследователем уравнение регрессии, так и уравнение, составленное с использованием правильной спецификации, зависят от фактических значений случайного члена в выборке, и было бы несправедливо придавать большой вес одному эксперименту, даже если он дает предсказуемые результаты. В соответствии с этим данный эксперимент был проведен еще 9 раз с использованием тех же значений величин S и IQ в каждом наблюдении и тех же значений величин ос, р, и р2, но с различными наборами случайных реализаций остаточного члена.

Результаты оценивания соответствующих регрессий даны в обобщенном виде в табл. 6.2. Из этой таблицы можно видеть, что полученные результаты подтверждают наши прежние выводы. Исследователь получает оценки коэффициентов при 5, которые произвольно разбросаны около смещенного числа 1823 (их среднее значение равно 1854). При правильной спецификации оценки разбросаны вокруг истинного значения, равного 1500. Такие же замечания могут быть сделаны относительно постоянного члена уравнения.

А что бы произошло, если бы исследователь вместо величины IQ не включил в уравнение регрессии переменную 5? В этом случае величина IQ частично действовала бы в качестве переменной сама по себе и отчасти в качестве заменителя отсутствующей переменной S. Повторением проведенного выше анализа, можно показать, что ее коэффициент был бы смещен на величину P,Cov (S, /0/Var (IQ). Поскольку Р, = 1500 и Cov (5, /0/Var (IQ) = 0,104, то коэффициент был бы смещен вверх на величину, равную 156, и его математическое ожидание составило бы 406. Такой вывод подкрепляется оцениванием регрессии с использованием данных из первой части табл. 6.1. В результате получим:

j> = -25488 + 438/Q;     Д2 = 0,47. (6.14) (со.)  (11362) (109)

Направление смещения

Возвращаясь к общему случаю, мы видим, что если истинная модель выражается формулой (6.1), где у — функция переменных х, и х2, и если в уравнении регрессии опустить х2, то коэффициент при х, смещается на величину, равную p2Cov (х,, x2)/Var (х,). Поскольку величина Var (х,) не может быть отрицательной, то направление смещения определяется знаками величин Р2 и Cov (xf, х2). В примере с экспериментом по методу Монте-Карло величина Р2 была положительной, а 5 и IQ имели положительную корреляцию, поэтому смещение оказалось положительным, а невключение переменной IQ привело к систематическому завышению коэффициента при S. Это, однако, не должно означать, что смещения обязательно являются положительными. Если Р2 отрицательна или же отрицательна ковариация между х, и х2, то смещение будет отрицательным. Естественно, что если обе эти величины отрицательны, то смещение в результате будет положительным.

Проиллюстрируем это при помощи следующего эксперимента по методу Монте-Карло, являющегося модификацией предыдущего эксперимента. Мы используем ту же модель определения размера дохода [уравнение (6.9)], те же данные для S и случайных реализаций и, но другие данные для IQ. Предположим теперь, что мы находимся в стране, где индивиды с наиболее низкими

В табл. 6.3 приведены результаты оценивания регрессий: множественной регрессии (правильно специфицированной) и двух парных регрессий (неправильно специфицированных). Коэффициенты при S и IQ'b парных регрессиях значительно ниже соответствующих значений коэффициентов множественной регрессии. Если опустить переменную IQ', то смещение коэффициента регрессии при S будет равным P2Cov (5, IQ^/Var (S) = 250*(-1,80) = -450. При невключении переменной S смещение коэффициента при IQ' составит P,Cov (£, /QVVar (IQ') = 1500х(-0,145) = -217. Очевидно, что результаты оценивания регрессии подтверждают наши выводы.

Интуитивное объяснение говорит, что в соответствии с данной моделью индивиды с длительными сроками обучения имеют за счет этого относительно высокий доход, но они в то же время обычно обладают более низким IQ, а это уменьшает их доход. Следовательно, в парной регрессионной зависимости дохода от фактора продолжительности обучения эффект последнего недооценивается. Точно так же индивиды с высоким IQ получают вследствие этого относительно высокие доходы, но они в то же время, как правило, имеют относительно короткий срок обучения, что сокращает их преимущества. Отсюда в парной регрессионной зависимости дохода от величины IQ влияние IQ недооценивается.

Иногда это смещение бывает достаточно сильным для того, чтобы заставить коэффициент регрессии сменить знак. Допустим, что в рассматриваемой модели истинный коэффициент при IQ' был равен 25 вместо 250. Используя те же, что и раньше, данные по S и IQ получим смещение коэффициента при IQ', равное —217, если переменная допущена. Отсюда математическое ожидание коэффициента при IQ равное 25 —217 = —192, вместо положительного станет отрицательным. В табл. 6.4 представлены результаты оценивания правильно и неправильно специфицированных регрессий. В третьей регрессии коэф-

способностями, определяемыми величиной IQ, проходят самое длительное обучение для достижения ими одинакового со всеми уровня образования. Новые данные по величине IQ, обозначенные как IQ даны во второй части табл. 6.1. Из таблицы видно, что величины S и IQ' отрицательно коррелиро-ваны.

фициент при IQ' действительно отрицателен (—171). (Это несколько больше, чем математическое ожидание, и расхождение здесь объясняется наличием в модели случайного члена.)

 

Поведение значения коэффициента R2 при невключении объясняющей переменной

Сначала мы рассмотрим данную проблему, используя эксперимент по методу Монте-Карло «доход—обучение—интеллект», где продолжительность обучения и величина IQ положительно коррелированы. Мы видели, что при оценивании регрессионной зависимости величины У только от величины S, значение коэффициента R2 было равно 0,78; при оценивании регрессионной зависимости К только от величины IQ значение коэффициента R2 равнялось 0,47. Означает ли это, что величина 5 объясняет 78\% дисперсии дохода, а величина IQ — 47\%? Конечно, нет, так как это подразумевало бы, что вместе они объясняли бы 125\% дисперсии, что невозможно. Практически их совместная объясняющая способность, выраженная коэффициентом Л2 во множественной регрессии [уравнение (6.13)], составляет 0,93.

Объяснение состоит в том, что в парной регрессии между доходом и продолжительностью обучения величина S играет собственную роль и отчасти роль заменителя отсутствующей переменной IQ (рис. 6.1). Следовательно, коэффициент Л2 для данной регрессии отражает общую объясняющую способность величины 5 в обеих этих ролях, а не непосредственную объясняющую способность переменной S. Отсюда число 0,78 является завышенной оценкой последней. Аналогично переменная IQ в парной регрессии между доходом и показателем уровня интеллекта IQ отчасти заменяет отсутствующую переменную 5, и уровень коэффициента R2 в этой регрессии отражает общую объясняющую способ-

В разделе 5.6 указывалось, что при анализе множественной регрессии невозможно определить вклад каждой объясняющей переменной в величину коэффициента Л2, и сейчас мы поясним, почему это так.

ность величины IQ в обеих указанных ролях, а не просто объясняющую способность самой величины IQ.

В данном эксперименте по методу Монте-Карло уровни коэффициента R2, наблюдавшиеся в простой регрессии, увеличиваются за счет эффекта замещения. В эксперименте по методу Монте-Карло, результаты которого приведены в табл. 6.3, происходит обратное. В этом эксперименте имела место отрицательная корреляция между величинами S и IQ'. В результате этого коэффициенты при переменных в парных регрессиях оказались смещенными в сторону занижения. Была подорвана также и их кажущаяся объясняющая способность. Переменная S объясняла только 55\% дисперсии дохода, a IQ' — только 1\%. Таким образом, вместе они объясняли только 56\% дисперсии. В то же время коэффициент R2 в правильно специфицированной множественной регрессии показывает, что их совместная объясняющая способность фактически составляла 89\%.

В парной регрессии между доходом и величиной /0'этот эффект был особенно резким. Разрушающий эффект отсутствия переменной S в функции почти уравновесил прямое влияние переменной IQ в результате чего коэффициент регрессии составил лишь малую часть истинной величины, а кажущаяся объясняющая способность, составившая ничтожный 1\%, здесь явно преуменьшена.

Таблица 6.4 иллюстрирует иной вариант исхода, который является вполне обычным. Здесь снова имеет место отрицательная корреляция между S и IQ однако истинный коэффициент при переменной IQ' равнялся всего лишь 25 вместо 250 прежде. В действительности величина S явилась «ответственной» за большую часть дисперсии дохода, а уровень коэффициента Л2 в парной регрессии между величиной^ и Sпочти также высок, как и коэффициента/?2 во множественной регрессии. В парной регрессии между доходом и величиной IQ 'разрушающий эффект отсутствия переменной S доминирует над прямым влиянием величины IQ'. Результатом этого является то, что последняя имеет отрицательный коэффициент при довольно высоком значении коэффициента R2, но данное значение R2 в основном можно объяснить тем, что переменная IQ' выполняет роль заменителя отсутствующей переменной S.

 

Упражнения

 

6.1. Предположив, что множественная регрессия [уравнение (5.3)] между расходами на питание (у), располагаемым личным доходом (х) и относительной ценой (р) правильно специфицирована, определите направление смещения коэффициента при другой переменной, если не включена: 1) переменная р и 2) переменная х. Воспользуйтесь тем, что относительная цена продовольствия в течение выборочного периода слегка возросла и, таким образом, р и х положительно коррелированы. В таблице приводятся результаты оценивания множественной и парной регрессий:

Проверьте, подтверждают ли эти результаты ваши выводы, и дайте комментарии относительно уровня коэффициента R2 в этих трех регрессиях.

6.2. В таблице приведены в обобщенном виде логарифмические аналоги указанных выше трех регрессий спроса:

Прокомментируйте различия в коэффициентах трех указанных уравнений.

В упражнении 2.4 вы построили парную регрессию между расходами на выбранный вами вид благ (у) и располагаемым личным доходом (х), а в упражнении 5.3 — множественную регрессию между величинами^, хир — ценой вашего блага относительно общего уровня инфляции. Постройте теперь парную регрессию только между величиной у и показателем р. Представьте результаты этих трех регрессий в форме, использованной в упражнении 6.1, и прокомментируйте вариации коэффициентов при х и р, а также уровней коэффициента Л2. Укажите, в частности, направление смещения, которое вы ожидали бы в этих же регрессиях при правильной множественной спецификации, принимая во внимание тенденцию (если таковая существует) в области относительных цен за тот же период, что и в упражнении 5.1, и используя уравнение (6.4).

Повторите упражнение 6.3, используя логарифмические функции спроса вместо линейных.

6.5. В таблице приведены данные (в млн. ф. ст. в постоянных ценах 1975 г.) по расходам на табак (у) и по располагаемым личным доходам (х) для Великобритании за период 1962—1981 гг. Переменная времени t определялась так: f = 1 в 1962 г.,Г=2в 1963 г. и т. д.

 

Год

t

У

x

Год

 

У

x

1962

1

2701

51484

1972

11

2747

70214

1963

2

2787

53684

1973

12

2918

75059

1964

3

2753

55754

1974

13

2885

74049

1965

4

2652

56970

1975

14

2748

74005

1966

5

2737

58278

1976

15

2653

73437

1967

6

2753

59226

1977

16

2523

72288

1968

7

2740

60367

1978

17

2746

78259

1969

8

2707

60576

1979

18

2731

83666

1970

9

2702

62485

1980

19

2685

84771

1971

10

2605

64544

1981

20

2492

82903

Следующие регрессии были построены с использованием данных из предыдущей таблицы:

Прокомментируйте вариации коэффициентов при хи/, а также уровней коэффициента R2, В какой степени данные из таблицы непосредственно подтверждают ваши выводы? (Тщательно рассмотрите отдельные наблюдения.)

6.6. В эксперименте по методу Монте-Карло, отраженном в табл. 6.4, истинное значение коэффициента при S было равным 1500. В парной регрессии между доходами и длительностью обучения коэффициент при переменной S должен быть смещенным вниз. Как бы вы отнеслись к фактической расчетной величине (1618), которая превышает истинное значение?

6.7. В эксперименте по методу Монте-Карло, описанном в разделе 5.4, доходы (У) определялись длительностью обучения (S), стажем работы (X) и возрастом (А). Величины X и А были положительно коррелированными, a S была коррелирована отрицательно с каждой из них. Левая часть приведенной ниже таблицы показывает уровни коэффициента Л2, когда была оценена зависимость: 1) только от величины S; 2) от величин S и X; 3) от величин S, Хн А. В правой части таблицы даны уровни коэффициента R2, когда была оценена регрессионная зависимость: 1) только от А 2) от А и X; 3) от А, Хи S.

 

S

0,301

А

0,189

S, X

0,688

А, X

0,213

S, X, А

0,695

А,Х, S

0,695

 

Объясните, почему видимая объясняющая способность переменной А, когда она в качестве дополнительной переменной была включена в уравнение последней, оказалась меньшей, чем при добавлении ее первой, в то время как соответствующая объясняющая способность переменной S больше, когда она включается в уравнение последней.

6.8. Допустим, что величина^ определяется величинами х, их2 в соответствии с уравнением (6.1) и что Cov(x,,x2) равна нулю. Используйте это для упрощения формулы (5.12) вычисления коэффициента множественной регрессии Ь{ и покажите, что она сводится к выражению для парной регрессии. Как бы вы выбрали здесь спецификацию уравнения регрессии и почему?

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |