Имя материала: Путеводитель по современной эконометрике

Автор: Вербик Марно

3.3. неправильно специфицированная функциональная форма

Хотя предположения, делаемые при интерпретации моделей, довольно слабые, есть одно важное предположение, при котором модели

 

См. также (Айвазян, 2001) (примеч. научн. ред. перевода).

Заметим, что при достаточно общих функциональных формах можно получить модели для у і и log у і , которые обе корректны в том смысле, что они представляют Е{уіхі} и E{ogyixi} соответственно. Однако невозможно, чтобы обе спецификации имели гомоскедастичный член ошибки (см. пример в разделе 3.5).

могут быть специфицированы неправильно. И это предположение состоит в линейности моделей. Интерпретация Е{уіхг} — х'ф, означает, что при объяснении математического ожидания уі никакие другие функции от вектора переменных Хі не относятся к делу Это предположение является ограничивающим, а главная мотивация линейных спецификаций заключается в их удобстве.

 

3.3.7. Нелинейные модели

Нелинейности могут возникать в двух разных отношениях. В первом случае модель по-прежнему линейна по параметрам, но не линейна по объясняющим переменным. Это означает, что в качестве дополнительных объясняющих переменных мы включаем нелинейные функции переменных вектора ж*, например, уравнение заработной платы может включать переменные (адег)2 и адегтаІЄі. Полученная в результате модель по-прежнему линейна по параметрам, и может оцениваться обычным методом наименьших квадратов. Во втором случае модель нелинейна по параметрам и ее оценивание менее легкое. В общем, это означает, что Е{уіхг} = g(xi,f3), где д(-) — функция регрессии, нелинейная по параметрам /3. Например, для единственной переменной в векторе Хі мы могли бы иметь функцию

g(xi,(3)=(3l+foxf3, (3.27)

а для двумерного вектора Хі функцию

д(хь0)=р1ХЬа\%, (3.28)

последняя функция соответствует производственной функции Коб-ба—Дугласа с двумя входами. Поскольку после взятия логарифма вторая функция линейна по параметрам (предполагая, что (3 > 0), то в этом случае общая методика состоит в том, чтобы моделировать logа не в то время как для первой функции эта методика не работает.

Нелинейные модели также можно оценить нелинейной версией метода наименьших квадратов с помощью минимизации целевой функции

n _

 

i=i

относительно (3. Такой метод называется нелинейным методом наименьших квадратов. В общем, в отличие от линейного случая получить аналитическое решение для значения /3, которое минимизирует S((3), невозможно, и чтобы получить МНК-оценку нам следует использовать численные процедуры. Необходимое условие состоятельности состоит в существовании единственного глобального минимума целевой функции £(/?), что означает идентифицируемость модели. Превосходный анализ таких нелинейных моделей описан Девидсоном и МакКинноном (Davidson, MacKinnon 1993) и здесь эти вопросы мы рассматривать не будем.

Неправильную спецификацию функциональной формы можно исключить полностью, говоря о заинтересованности в линейной функции от переменных вектора Хі , которая аппроксимирует переменную уі насколько возможно хорошо. Это возвращает к исходной интерпретации обычного метода наименьших квадратов в виде определения линейной комбинации переменных х, которая аппроксимирует переменную у і насколько возможно хорошо. Мы можем сделать то же самое в статистической постановке, ослабив предположение Е{єіхі} — О до предположения Е{єіХі} = 0. Вспомним, что предположение Е{єіхі} = 0. подразумевает предположение E{sig(xi)} = 0 для любой функции g (при условии существования математических ожиданий). Поэтому требование Е{єіХі} = 0 действительно является ослаблением предположений. В этом случае мы можем интерпретировать линейную модель регрессии как описание наилучшей линейной аппроксимации переменной у і по переменным вектора Хі . Во многих случаях мы могли бы интерпретировать линейную аппроксимацию как оценку параметра генеральной совокупности, а не просто как внутри выборочный результат. Заметим, что условие Е{єіХі} = 0 соответствует условию (А7) из главы 2 и необходимо для состоятельности МНК-оценки.

3.3.2. Тестирование функциональной формы

Простой способ тестировать функциональную форму

Е{Уіхі} = з?ф (3.30)

заключался бы в тестировании, являются ли дополнительные нелинейные члены в векторе Хг, значимыми. Такое тестирование можно проводить с помощью применения стандартных і-критериев, F-критериев, или, более обще, критериев Вальда. Эти критерии работают, если только можно специфицировать альтернативные ги-

потезы. Когда число переменных в векторе Хі большое, число возможных тестирований также является большим.

Рамсей (Ramsey, 1969) предложил тест, основанный на идее, что при нулевой гипотезе нелинейные функции от у і = хгЬ не должны помогать в объяснении уі. В частности тестируется, имеют ли степени уі ненулевые коэффициенты во вспомогательной регрессии

у. = х'ф + а2уг2 + а3уг3 + ... + аду? + щ. (3.31)

Вспомогательная регрессия, как мы увидим несколько ниже, обычно применяется только для вычисления тестовой статистики, а не предназначается для предоставления содержательной модели. В этом случае мы можем применить стандартный F-критерий для Q — 1 ограничений нулевой гипотезы Но : &2 — • • • — aQ — 0, или, более обще, тест Вальда (с асимптотическим \%2-распределением с Q — 1 степенями свободы). Эти тесты обычно называются тестами установки (тесты ошибки спецификации уравнения регрессии). Часто, тестирование выполняется только для Q = 2. Не маловероятно, что тест установки отклоняет нулевую гипотезу из-за пропуска существенных переменных в модели (в смысле, определенном ранее), а не только из-за неправильной спецификации функциональной формы. Таким образом, включение дополнительной переменной может уловить нелинейности, показываемые этим тестом.

 

3.4. Пример: объяснение цен на дома

В этом разделе мы рассмотрим эмпирический пример, касающийся соотношения между отпускными ценами на дома и характеристиками домов. Получающуюся ценовую функцию можно назвать гедонистической ценовой функцией, потому что она позволяет производить оценивание гедонистических цен (см. Rosen, 1974). Гедонистическая цена приписывается неявной цене определенного характерного признака дома (например, числу спален) и влияет на его продажную цену. В этом контексте дом рассматривается в свете набора таких признаков. Типичными товарами, для которых оцениваются гедонистические ценовые функции, являются компьютеры, автомобили и дома. Для нашей цели важный вывод состоит в том, что гедонистическая ценовая функция описывает ожидаемую цену (или логарифмическую цену) как функция множества характеристик. Берндт (Berndt, 1991, Chapter 4)*^ обсудил дополнительные экономические и эконометрические проблемы, связанные с применением, интерпретацией и оцениванием таких ценовых функций.

Данные, которыми мы воспользуемся 4 взяты из недавнего исследования Энглин и Генкей (Anglin, Gencay, 1996) и содержат отпускные цены на 546 домов, проданных в течение июля, августа и сентября 1987 в городе Виндзоре, Канада, наряду с их важными характерными особенностями. Имеются следующие характеристики: размер участка земли в собственности (в квадратных футах), число спален, число полностью оборудованных ванных комнат, число мест в гараже и число этажей. Кроме того, есть фиктивные переменные: наличие подъездной дороги, комнаты отдыха, обустроенного подвального помещения и наличие центрального кондиционирования воздуха, расположение в привилегированном районе и наличие водяного отопления на газе. Начнем наш анализ с оценивания объясняющей модели, описывающей зависимость логарифма отпускной цены дома от логарифма размера участка земли, числа спален, числа ванных комнат и наличия кондиционирования воздуха. МНК-оценивание приводит к результатам в таблице 3.1. Эти результаты показывают приемлемо высокий і?2, равный 0,57, и довольно высокие і-отношения для всех коэффициентов регрессии. Коэффициент при фиктивной переменной (манекене) кондиционирования воздуха показывает, что дом, который имеет центральное кондиционирование воздуха, продается по ожидаемой отпускной цене на 21\% выше, чем дом без центрального кондиционирования, при условии наличия одного и того же числа спален и ванных комнат и одинакового размера земельного участка. Увеличение земельного участка на 10\% при прочих равных условиях повышает ожидаемую отпускную цену дома примерно на 4\%, тогда как дополнительная спальня оценивается повышением цены почти на 8\%. Ожидаемую логарифмическую отпускную цену дома с четырьмя спальнями, одной оборудованной ванной комнатой, размером участка земли 5000 кв. футов и без кондиционирования воздуха можно вычислить как

См. русский перевод (Берндт, 2005) (примеч. научн. ред. перевода) 4) Данные доступны как HOUSING.

 

7,094 + 0,400 log (5000) + 0,079 х 4 + 0,216 = 11,028,

что соответствует ожидаемой цене, равной

ехр {11,028 + 0,5 х 0,24562} - 63 460

канадских долларов. Последний член в этом выражении соответствует половине оцененной дисперсии ошибки (s2) и основан на предположении, что член ошибки имеет нормальное распределение (см. выражение (3.10)). Исключение этого члена приводит к ожидаемой цене, равной только 61 575 долларов. Чтобы понять важность члена половины дисперсии, рассмотрим прогнозные значения нашей модели. Взятие экспоненты от прогнозных значений приводит к прогнозным ценам за дома в нашей выборке. Средняя прогнозная цена равна 66 679 долларов, в то время как выборочное среднее фактических цен равно 68 122. Это показывает, что без каких-либо коррекций мы систематически будем прогнозировать заниженные цены. При добавлении члена половины дисперсии средняя прогностическая цена на основе модели, объясняющей логарифмические цены, возрастает до 68 190 долларов и является достаточно близкой к фактическому среднему.

Чтобы протестировать функциональную форму этой простой спецификации, мы можем применить тест установки. Это означает, что мы получаем прогнозные значения из нашей модели, возводим их в выбранную нами степень, потом включаем в исходное уравнение, получая вспомогательные уравнения регрессии, а затем тестируем их значимость. Заметим, что эти вспомогательные регрессии строятся только для целей тестирования и не предназначаются для построения содержательной модели. Включение квадратного прогнозного члена приводит к значению і-статистики, равному 0,514 (р — 0,61), а включение квадратного и кубического прогнозного члена дает значение F-статистики, равное 0,56 (р = 0,57). Оба теста не указывают на заслуживающую внимание неправильную спецификацию нашей модели. Тем не менее, мы можем быть заинтересованы во включении дополнительных переменных в нашу модель, поскольку на отпускные цены также могут влиять такие характеристики домов, как число мест в гараже или его территориальное расположение. С этой целью мы включаем все остальные переменные в нашу модель и приходим к спецификации, представленной в таблице 3.2. Учитывая, что В2 возрос до значения 0,68 и все значения индивидуальных t-статистик больше 2, эта расширенная спецификация оказывается значимо лучше, чем предыдущая спецификация при объяснении ожидаемых цен на дома. Совместная проверка нулевой гипотезы, что все семь дополнительных переменных имеют нулевые коэффициенты, обеспечивается F-критерием, тестовая статистика которого вычисляется на основе соответствующих і?2-ов как

(0,6865 - 0,5674)/7 _ 1    (1 -0,6865)(546- 12)

которая является высоко значимой для F-распределения с 7 и 532 степенями свободы (р — 0,000). При взгляде на точечные оценки коэффициентов регрессии видно, что эффект повышения отпускной цены при увеличении земельного участка на 10\% теперь оценивается только 3\% при прочих равных условиях. Несомненно, что это обусловлено изменением условия ceteris paribus (при прочих равных условиях), например, тем, что дома с большими размерами участка земли имеют тенденцию наличия подъездной дороги относительно чаще 5). Точно так же оцененное влияние на отпускные цены домов других переменных меньше по сравнению с оценками в таблице 3.1. Как ожидалось, все оценки коэффициентов являются положительными и относительно прозрачными для интерпретации. При прочих

 

Выборочный коэффициент корреляции между логарифмом размера земельного участка и фиктивной переменной наличия подъездной дороги равен 0,29.

равных условиях дом в привилегированной окрестности города, как и ожидалось, должен продаваться на 13\% по более высокой цене, чем дом, расположенный в другом месте.

Как и прежде мы можем протестировать функциональную форму спецификации, выполняя один или более тестов установки. При і-значении, равном 0,06, для квадратных прогнозных значений и F-статистике, равной 0,04, для квадратных и кубических членов снова нет никакого свидетельства неправильной спецификации функциональной формы. Хотя возможно рассмотреть более специфические альтернативы, тестируя функциональную форму Например, можно было бы выдвинуть гипотезу, что дополнительная спальня подразумевает большее повышение цены, чем расположение дома в привилегированной окрестности. Если бы проверялась такая гипотеза, то в модель включался бы член взаимодействия между фиктивной переменной (манекеном) места расположения и переменной числа спален. Если бы модель расширялась включением такого члена взаимодействия, то і-критерий для новой переменной привел бы к высоко незначимому значению, равному —0,131. В целом же текущая модель кажется удивительно хорошо специфицированной.

Модель позволяет нам вычислять ожидаемую логарифмическую отпускную цену произвольного дома в Виндзоре. Если бы Вы имели собственный двухэтажный дом на земельном участке 10 ООО квадратных футов, расположенных в привилегированной окрестности города, с четырьмя спальнями, одной ванной, с двухместным гаражом, подъездной дорогой, с комнатой отдыха, кондиционированием воздуха и оборудованным подвальным помещением, с водяным отоплением на газе, то ожидаемая логарифмическая цена продажи вашего дома равнялась бы 11,87. Она указывает, что гипотетическая цена вашего дома, если дом продавался бы летом 1987 года, оценивалась бы в 179 ООО канадских долларов.

Вместо моделирования логарифмических цен мы могли также рассмотреть объясняемые натуральные цены. В таблице 3.3 представлены результаты модели регрессии, в которой цены объясняются линейной функцией от размера участка земли и всех других переменных. Теперь по сравнению с предыдущей моделью коэффициенты отображают абсолютные разности в ценах, а не относительные разности. Например, ожидается, что наличие подъездной дороги (при прочих равных условиях) увеличит цену продажи дома на 6688 долларов, в то время как в таблице 3.2 оцененное увеличение составляет 11\%. Из сравнения результатов в таблицах 3.2 и 3.3 непосредственно не ясно, какая из этих двух спецификаций является предпочтительной. Вспомним, что R2 не обеспечивает соответствующие критерии сравнения. Как обсуждалось в разделе 3.2.3, эти две невложенные модели можно протестировать друг против друга. Используя тест РЕ, мы можем протестировать две нулевые гипотезы, что истинна линейная модель, и что истинна логарифмически линейная модель. Тестируя линейную модель, мы получаем тестовую статистику равную —6,196.

Учитывая критические значения стандартного нормального распределения, приходим к результату, что спецификацию в таблице 3.3 следует отклонить. Автоматически это не подразумевает, что истинной является спецификация в таблице 3.2. Однако, тестируя логлинейную модель (где логарифмическими являются только цена и размер земельного участка), мы приходим к тестовой статистике, равной —0,569, так, что гипотеза истинности логлинейной модели не отклоняется.

3.5. Пример: объяснение индивидуальной заработной платы

Хорошо известен тот факт, что средние почасовые тарифные ставки заработной платы мужчин выше, чем женщин почти во всех про-мышленно развитых странах. В этом разделе мы проанализируем этот феномен для Бельгии. В частности мы хотим узнать, могут ли факторы, типа уровня образования и опыта работы объяснить разницу в заработной плате. С этой целью мы используем совокупность данных, состоящую из 1472 индивидуумов, случайно выбранных из совокупности работающих в Бельгии в 1994 году. Совокупность данных, взятая из бельгийской части панельных данных домашних хозяйств Европейского Экономического Сообщества, содержит 893 мужчины и 579 женщин 6 Анализ основан на следующих четырех переменных:

wage — почасовая тарифная ставка заработной платы до удержания налогов, в бельгийских франках в час; male — фиктивная переменная, равна 1, если работник — мужчина, и 0, если женщина;

educ — уровень образования, 1 = уровень начальной школы, 2 = низкое профессиональное обучение, 3 = средний уровень, 4 = высокое профессиональное обучение, 5 = университетский уровень;

ехрег — опыт работы в годах.

Некоторые итоговые статистики для этих переменных представлены в таблице 3.4. Мы видим, например, что средняя тарифная

ставка заработной платы для мужчин равна 466,42 бельгийских франка в час (11,56 евро7)), в то время как для женщин она равна только 413,95 бельгийских франка в час, что соответствует разности 52,47 бельгийских франка или почти 13\%. Поскольку средний опыт работы в годах в выборке ниже для женщин чем для мужчин, то это не обязательно подразумевает, что существует дискриминация женщин по заработной плате.

 

3.5.7. Линейные модели

Обменный курс: 40,3399 бельгийских франка = 1 евро.

Первая модель для оценивания эффекта пола на почасовую тарифную ставку заработной платы, скорректированная на разницу в опыте работы и уровне образования, получена построением регрессии переменной wage на объясняющие переменные male, exper и educ. Результаты построенной регрессии представлены в таблице 3.5. Если мы интерпретируем эту модель как описание ожидаемой заработной платы, при условии заданного пола, опыта работы и уровня образования, то есть при прочих равных условиях, то эффект пола фактически идентичен средней разности заработной платы. Очевидно, что корректировка на разницу в образовании и производственном опыте не изменяет ожидаемую разность заработной платы между мужчинами и женщинами. Заметим, что эта разность статистически высоко значима с ^-отношением, равным 6,984. Как и ожидалось, эффект опыта работы при фиксированном уровне образования является положительным: дополнительный год опыта работы увеличивает ожи-

даемую заработную плату несколько меньше, чем на 8 бельгийских франков в час. Точно так же более высокие уровни образования существенно увеличивают ожидаемую заработную плату. Если мы сравниваем двух работников с двумя соседними уровнями образования, но одного и того же пола и с одним и тем же опытом работы, то ожидаемая разность в заработной плате равна приблизительно 80 бельгийских франков в час. Учитывая высокие і-отношения, эффекты объясняющих переменных ехрег и educ статистически высоко значимы. Коэффициент R2 оцененной модели равен 0,3656 и это подразумевает, что более 36\% вариации заработной платы можно (линейно) приписать разнице в поле, опыте работы и уровне образовании.

Можно было бы утверждать, что опыт работы влияет на заработную плату работника нелинейно: после многих лет опыта работы эффект дополнительного года на заработную плату работника все более и более уменьшается. Чтобы смоделировать это, мы можем включить в модель квадратный член опыта работы, который, как нами ожидается, должен иметь коэффициент с отрицательным знаком. Результаты представлены в таблице 3.6. Дополнительная переменная (ехрег)2 имеет коэффициент, который при оценивании, как и ожидалось, получил отрицательный знак. С ^-отношением, равным —5,487, мы можем уверенно отклонить нулевую гипотезу, что квадратный член производственного опыта имеет нулевой коэффициент, и можем заключить, что включение (ехрег)2 значимо улучшает модель. Заметим, что скорректированный R2 увеличился с 0,3643 до 0,3766. Учитывая в спецификации наличие опыта работы и его квадрата, мы не можем интерпретировать их коэффициенты в изоляции. Один из способов описать эффект опыта работы состоит в том, чтобы сказать, что ожидаемая разность заработной платы при предельном возрастании опыта работы при прочих равных условиях (дифференцируя по опыту работы как в выражении (3.4)), задается в виде:

14,44 - 0,18 х 2 х exper і,

что показывает отличие эффекта опыта работы от его уровня. Сначала уровень влияния опыта работы является высоким, равным 14,44 бельгийских франка в час, но уменьшается до 3,87 бельгийских франка для работника с 30-летним опытом работы. Альтернативно мы можем просто сравнить предсказанную заработную плату для работника, например, с 30-летним опытом и работника с 31-летним опытом работы. Тогда оцененная разность заработной платы равна

14,44 - 0,18(312 - ЗО2) = 3,69,

что приводит к несколько более низкой оценке. Эта более низкая оценка разности вызвана тем фактом, что значение 14,44 представляет эффект «предельного» приращения опыта работы (он равняется производной), в то время как однолетнее приращение предельным фактически не является.

Перед тем как продолжить наш статистический анализ важно проанализировать, насколько в данном примере удовлетворяются предположения относительно регрессионных остатков. Вспомним, что для обоснованности правил вычисления стандартных ошибок и статистических тестов мы должны исключить автокорреляцию и гетероскедастичность. Учитывая, что в данном примере нет никакого естественного упорядочивания данных, и работники выбирались случайно, проблемы автокорреляции не существует, но возможно существование проблемы гетероскедастичности. Несмотря на то, что мы введем и обсудим некоторые формальные тесты на наличие гетероскедастичности только в главе 4, быстрый способ получить некоторое представление о правдоподобии выполнения предположения гомоскедастичности состоит в визуальном анализе построенного графика зависимости оцененных остатков модели от «подогнанных» значений заработной платы. Если гетероскедастичность отсутствует, то мы можем ожидать, что дисперсия остатков не изменяется при разных уровнях «подогнанных» значений. Для модели с результатами из таблицы 3.6 нами представлен такой график на рисунке 3.1.

1500 -

 

1000 -

I-ш

 

 

500

 

0 -

-500 -

            (           1         

200 400

подогнанные значения

600

800

Рисунок 3.1. График зависимости оцененных остатков от «подогнанных» значений, линейная модель

 

На рисунке 3.1 отчетливо видно возрастание вариации в остатках при возрастании прогнозных значений, и поэтому выполнение предположения гомоскедастичности вызывает серьезное сомнение. Это означает, что обычно вычисляемые стандартные ошибки и соответствующие i-критерии неприемлемы.

Один из способов устранить или уменьшить гетероскедастичность состоит в изменении функциональной формы уравнения и применении в качестве объясняемой переменной логарифма заработной платы, а не натуральной заработной платы. Что может помочь решению этой проблемы, можно увидеть из следующего. Обозначим данную модель как

Wi = g(xi) +Єі,

(3.32)

где g(xi) — функция от вектора объясняющих переменных Хі, которая прогнозирует заработную плату Wi (например х^/3), а є і — регрессионный остаток, который имеет нулевое среднее значение (условное по вектору Хі). Такая модель является аддитивной моделью в том смысле, что к прогнозному значению добавляется случайный остаток. Также можно рассмотреть мультипликативную модель вида

(3.33)

где тц является остатком, который имеет нулевое среднее значение (условное по объясняющим переменным вектора Х{). Легко проверить, что две модели эквивалентны, если

g(xi)[exp {гц} - 1] = Єі.

Если остаток ri является гомоскедастичным, то ясно, что остаток Si является гетероскедастичным с дисперсией, которая зависит от функции g(xi). Таким образом, если мы находим гетероскедастич-ность в аддитивной модели, то, возможно, что уместна мультипликативная модель с гомоскедастичным членом ошибки. Мультипликативную модель можно легко записать в виде аддитивной модели с аддитивным остаточным членом, логарифмируя обе части уравнения (3.33). В результате логарифмирования получим

log Wi = log g(xi) +гц = f(xi) + гц.

(3.34)

В нашем случае g(xi) = х'ф. Оценивание модели (3.34) становится простым, если мы предположим, что функция / такова, что o<gg(xi) является линейной функцией от параметров модели. Как правило, она включает логарифмы х-переменных (за исключением фиктивных переменных), таким образом, мы приходим к логлиней-ной модели (сравните с выражением (3.6)).

 

3.5.2. Логлинейные модели

В нашей следующей спецификации мы оцениваем логлинейную модель, которая объясняет логарифм почасовой тарифной ставки заработной платы от пола, логарифма опыта работы, квадрата логарифма опыта работы и логарифма уровня образования. (Заметим, если бы мы взяли логарифм от квадрата опыта работы, то он был бы полностью коллинеарен с логарифмом опыта работы.) Это приводит к результатам, представленным в таблице 3.7. Поскольку в этой модели эндогенная переменная отличается, то R2 в действительности не сопоставим с і?2-ми моделей, которые объясняют натуральную почасовую тарифную ставку заработной платы, но случается, что они почти совпадают. Интерпретация оценок коэффициентов модели также отличается от прежней интерпретации. Коэффициент при

переменной male теперь измеряет относительную разность в ожидаемой заработной плате для мужчин и женщин. В частности при прочих равных условиях разность ожидаемой логарифмической заработной платы между мужчинами и женщинами равна 0,118. Если женщина, как и ожидается, заработает величину и>*, то мужчина при прочих равных условиях, как и ожидается, заработает величину

exp {log     + 0,118} = w* ехр {0,118} - w*l,125,

что приблизительно соответствует разности равной 12\%. Поскольку ехр {a} ~ 1 + а, если а близко к нулю, то обычно в логарифмических линейных моделях следует делать прямое преобразование оцененных коэффициентов в процентное приращение. Таким образом, коэффициент 0,118 для мужчин интерпретируется как ожидаемая прибавка в заработной плате по сравнению с женщинами, приблизительно равная 11,8\%.

Перед тем как продолжить, опять рассмотрим проблему гетерос-кедастичности. График зависимости оцененных остатков логлиней-ной модели от «подогнанной» логарифмической заработной платы представлен на рисунке 3.2. Несмотря на то, что на этом графике все еще есть некоторые следы гетероскедастичности, она намного менее явная, чем на графике аддитивной модели. Поэтому мы продолжаем работать со спецификациями, которые объясняют логарифмическую заработную плату, а не натуральную заработную плату, и там, где необходимо, будем предполагать, что ошибки являются гомоскеда-стичными. В частности мы предположим, что стандартные ошибки

 

и обычно вычисленные t- и F-критерии являются приемлемыми. В главе 4 предоставляется некоторое дополнительное обсуждение критериев проверки наличия гетероскедастичности и как с этими критериями нужно обращаться.

Коэффициенты модели при логарифме опыта работы и его квадрате интерпретировать несколько затруднительно. Если бы log2 (exper) был исключен, тогда оцененный коэффициент для log (exper) означал бы просто, что ожидаемое приращение заработной платы равно приблизительно 0,11\% при увеличении производственного опыта на 1\%. В данном случае мы можем оценить эластичность как

0,110 + 2 х log (exper).

Удивительно видеть, что эта эластичность увеличивается с ростом продолжительности опыта работы. Однако это не противоречит нашим более ранним заключениям, которые предлагали, что эффект влияния опыта работы положителен, но уменьшается с ростом трудового стажа. Эффекты log (exper) и log2 (exper) по отдельности значимы на 5\%-ом уровне, но незначимы на 1\%-ом уровне. (Заметим, что при заданном большом числе наблюдений размер в 1\% можно считать более приемлемым.) Такой факт не обязательно означает, что производственный опыт не имеет никакого значимого влияния на заработную плату. С этой целью нам следует рассмотреть совместную проверку двух ограничений. Критическую статистику можно вычислить из і?2-ов вышеупомянутой модели и ограниченной модели, в которой исключены объясняющие переменные log (exper) и log2(exper). R2 ограниченной модели, равный только 0,1798, так, что F-статистику можно вычислить как

234,2.

(0,3783- 0,1798)/2

(3.35)

(1 - 0,3783)/(1472- 5)

F-статистика показывает поразительно явное отклонение нулевой гипотезы. Мы могли бы рассмотреть исключение одной из двух объясняющих переменных, которые отражают опыт работы. Если мы исключаем log2(exper), то получаем результаты, представленные в таблице 3.8, которые показывают, что такая модель соответствует данным, только несколько хуже.

Рассмотрим спецификацию с исключенной переменной log2 (exper) более подробно. Поскольку эффект образования ограничен линейным эффектом в логарифме уровня образования, то при прочих равных условиях разность в ожидаемом логарифме заработной платы между двумя работниками с уровнями образования educl и educ2 соответственно равна

0,437(log (educl) - log (educ2)). Таблица 3.8. Результаты применения МНК для спецификации 4

Так, по сравнению с самым низким уровнем образования равным 1, эффекты 2-5 уровней образования оцениваются как 0,30, 0,48, 0,61 и 0,70 соответственно. К тому же эти четыре эффекта можно оценить с помощью включения четырех фиктивных переменных (манекенов), соответствующих четырем уровням высшего образования. Результаты такой модели представлены в таблице 3.9. Заметим, что при пяти уровнях образования включение четырех манекенов достаточно, чтобы уловить все эффекты. Включив в модель пять манекенов, мы попали бы в так называемую ловушку фиктивных переменных, в ситуацию точной мультиколлинеарности. То, какая из пяти фиктивных переменных исключена, является несущественным, вопрос состоит только в экономической интерпретации коэффициентов для других манекенов. Исключенная категория играет роль категории отсчета (или «базовой категории») и все эффекты для этой группы относительные. В этом примере категория отсчета соответствует уровню образования, равному единице.

Посмотрев на результаты в таблице 3.9, мы увидим, что каждая из четырех фиктивных переменных по отдельности высоко значима с коэффициентами, которые немного отклоняются от эффектов, оцененных на основе модели со спецификацией 5. Фактически предыдущая модель вложена внутрь текущей модели, и налагаются три ограничения. Несмотря на то, что несколько сложно определить аналитические выражения для этих трех ограничений, мы можем легко их протестировать, используя R2 версию для F-критерия. Получаем

(0,3976 - 0,3761)/3 f - (1 - 0,3976)/(1472 - 7) ~ 17'358' (3-36)

Поскольку 1\%-ое критическое значение для F-распределения с 3 и 1465 степенями свободы равно 3,78, то нулевую гипотезу следует отклонить. Таким образом, модель со спецификацией 5 с манекенами уровней образования значимо лучше модели со спецификацией 4 с логарифмом уровня образования.

 

3.5.3. Гендерные эффекты

До сих пор эффект пола предполагался постоянным, независимо от опыта работника или уровня его образования. Поскольку возможно, например, что мужчины вознаграждаются по-другому, чем женщины, имеющие более высокое образование, то модель со спецификацией 5 может быть ограниченной. Такую разницу в вознаграждениях можно учесть с помощью введения взаимодействий каждой из объясняющих переменных с фиктивной переменной пола. Одним из способов решения в такой постановке является включение множества исходных регрессоров, а так же множества этих регрессоров, умноженных на мужскую фиктивную переменную male. Таким образом коэффициенты для последнего множества переменных измеряют, насколько отличается эффект для мужчин.

Включение взаимодействий для всех пяти переменных приводит к результатам в таблице 3.10. В точности эквивалентное множество результатов было бы получено, если бы мы оценивали модель отдельно для каждой из двух подвыборок мужчин и женщин. Единственное преимущество оценивания по подвыборкам состоит том, что при вычислении стандартных ошибок предполагается, что регрессионные остатки гомоскедастичны внутри каждой подвыборки, в то время как для объединенной модели, результаты которой представлены в таблице 3.10, предполагается, что условие гомоскедастичности накладывается на полную выборку. Это объясняет, почему оцененные стандартные ошибки будут отличаться. Большая разность соответствует высокой гетероскедастичности. Оценки коэффициентов в точности идентичны. Это следует непосредственно из определения МНК-оценки: минимизация суммы квадратов остатков с различными коэффициентами для двух подвыборок в точности эквивалентно минимизациям для каждой подвыборки в отдельности.

Результаты в таблице 3.10 не показывают важные значимые различия между мужчинами и женщинами в эффекте опыта работы. Однако есть некоторые признаки, что эффект образования ниже для мужчин чем для женщин, поскольку две из четырех фиктивных переменных уровней образования, взаимодействующих с манекеном male, значимы на 5\%-ом уровне, хотя и не на 1\%-ом уровне значимости. Заметим, что коэффициент для манекена male больше не отражает эффект пола, поскольку другие переменные также являются функциями от пола. Оцененную разность заработной платы между мужчиной и женщиной, например, с 20-ти летним опытом работы и уровнем образования, равным 2, можно вычислить как

0,154 + 0,041 log (20) - 0,097 = 0,180,

что слегка больше, чем 18\%. Чтобы статистически протестировать совместную нулевую гипотезу, что каждый из пяти коэффициентов

зования, и в то же самое время позволяет эффектам разных уровней образования изменяться с опытом работы. Чтобы сделать это, мы ввели взаимодействия переменной log (exper) с каждой из четырех манекенов образования. Результаты представлены в таблице 3.11. Коэффициент для взаимодействия переменной log (exper) с уровнем образования равным 2 измеряет, насколько эффект опыта работы отличается для уровня образования, равного 2, по сравнению с категорией отсчета, являющейся уровнем образования, равным 1. Результаты не показывают никаких важных эффектов взаимодействия между опытом работы и образованием. По отдельности каждый из этих четырех коэффициентов значимо не отличается от нуля, и совместно для всех коэффициентов F-критерий приводит к незначимому значению 2,196.

Очевидно, что последняя спецификация страдает из-за мульти-коллинеарности. Почти ни один из индивидуальных коэффициентов не значим, в то время как R2 является приемлемо большим. Заметим, что совместный тест равенства нулю всех коэффициентов, кроме свободного члена, приводит к высоко значимому значению, равному 97,90. И, наконец, мы выполнили тест установки Рамсея (с Q = 2) для этой модели и получили ^-значение, равное 2,13, которое незначимо на 1\%-ом уровне. Однако модель со спецификацией 6, результаты которой представлены в таблице 3.10, кажется более подходящей, чем текущая модель.

 

3.5.4. Некоторые предостерегающие замечания

Несмотря на наш относительно аккуратный статистический анализ мы все же должны быть осторожными в экономически обоснованной интерпретации получающихся оценок. Например, влияние уровня образования в большой степени будет зависеть от типа работы людей, работающих по найму. То есть, эффект образования, который измеряется коэффициентами моделей, будет, как правило, охватывать и разницу в неучтенных характеристиках типа работы человека. Так что «образовательный эффект» не может в полной мере интерпретироваться как таковой даже для людей, которые имеют одинаковую работу, и вдобавок, — один и тот же опыт работы и пол. Конечно, это является прямым следствием невключения «типа работы» в модель, без которого не улавливается наше условие ceteris paribus (при прочих равных условиях).

Другая проблема состоит в том, что модель оценивается только для субпопуляции работающих мужчин и женщин. Нет никакой причины, почему бы действительно не расширить результаты оценивания, чтобы также объяснить заработную плату не работающих, которые только обдумывают вхождение на рынок труда. Вполне возможно, что выбор на трудовом рынке неслучаен и зависит от потенциальной заработной платы, которая привела бы к так называемому выборочному смещению в МНК-оценках. Чтобы принять это во внимание, можно моделировать заработную плату совместно с решением присоединиться к трудовому рынку, и в главе 7 мы обсудим класс моделей для таких проблем.

Мы должны быть осторожны также в интерпретации коэффициента для образования как измерения причинного эффекта. То есть, если бы мы увеличили уровень образования любого человека в выборке, то ожидаемый эффект на его или ее заработную плату, может не соответствовать оцененному коэффициенту. Причина состоит в том, что образование, как правило, коррелировано с ненаблюдаемыми характеристиками (интеллектом, способностью), которые также определяют заработную плату человека. В этом смысле эффект образования, который оценивается с помощью МНК, частично обусловлен разницей в ненаблюдаемых характеристиках людей, достигших разных уровней образования. В главе 5 мы вернемся к этой проблеме.

 

Упражнения

 

Упражнение 3.1 (вопросы спецификации)

а.         Объясните, что означает «разработка данных» ("Data Mining") .

б.         Объясните, почему не следует исключать из модели две пере-

менные одновременно только на основании их і-отношений.

в.         Объясните полезность критериев Д2, АИК и БИК при сравнении

двух вложенных моделей.

г.          Рассмотрите две невложенные модели регрессии, объясняющие

одну и ту же переменную і/і. Как вы можете протестировать

одну модель против другой?

 

Следовало бы добавить: «в применении к задаче отбора существенных объясняющих переменных модели». Иначе, вопрос «неподъемный» для студента (примеч. научн. ред. перевода).

д. Объясните, почему тестирование функциональной формы (как, например, тест установки Рамсея) может указать на проблему не включенных переменных.

 

Упражнение 3.2 (регрессия — эмпирическая)

В совокупности данных CLOTHING содержится информация об объеме продаж, размере и других характеристиках 400 голландских магазинов мужской моды. Цель состоит в том, чтобы объяснить объемы продаж на квадратный метр площади торговых помещений (переменная sales) от характеристик магазина (числа владельцев, числа работников, занятых полный и не полный рабочий день, времени работы магазина в часах, размер магазина, и т. д.).

а.         Оцените линейную модель (модель А), которая объясняет пере-

менную sales суммарным временем работы в часах (hoursw),

размером магазина в квадратных метрах (ssize) и константой.

Интерпретируйте результаты.

б.         Выполните тест установки Рамсея с Q = 2.

в.         Протестируйте, влияет ли число владельцев (nown) на объемы

продаж магазина при условии заданных объясняющих перемен-

ных hoursw и ssize.

г.          Также протестируйте, улучшает ли модель включение числа

работников, занятых неполный рабочий день (npart).

д.         Оцените линейную модель (модель Б), которая объясняет пере-

менную sales числом владельцев, числом работников, занятых

полный рабочий день (nfull), неполный рабочий день, и разме-

ра магазина. Интерпретируйте результаты.

е.         Сравните модель А и модель Б на основе критериев R2, АИК и

БИК.

ж. Выполните невложенное F-тестирование модели А против модели Б. Выполните невложенное F-тестирование модели Б против модели А. Каково Ваше заключение?

з.         Повторите вышеупомянутое тестирование, используя J-критерий.

Изменился ли ваш вывод?

и.         Включите в модель А число работников, занятых полный и

неполный рабочий день, чтобы получить модель В. Оцените эту

модель. Интерпретируйте результаты и выполните тест установ-

ки. Действительно ли Вы удовлетворены этой спецификацией?

Упражнение 3.3 (регрессия — эмпирическая)

Совокупность данных HOUSING содержит данные моделей, оцененных в разделе 3.4.

а.         Создайте четыре фиктивных переменных (манекена), касающи-

еся числа спален, соответствующего 2 или меньше, 3, 4 и 5 или

больше. Оцените модель для логарифма цены, которая включа-

ет логарифм размера земельного участка, число ванных комнат,

манекен кондиционирования воздуха и три из четырех упомя-

нутых выше манекена. Интерпретируйте результаты.

б.         Почему существует модель пункта а, не вложенная в специфи-

кацию, которая приведена в таблице 3.1?

в.         Выполните два невложенных F-тестирования этих двух специ-

фикаций друг против друга. Каково Ваше заключение?

г.          Включите все четыре манекена в модель и повторно оценить ее.

Что получилось? Почему?

д.         Предположим, что размер земельного участка измерялся бы в

квадратных метрах, а не квадратных футах. Как бы это повли-

яло на результаты оценивания, представленные в таблице 3.2?

Обратите внимание на оценки коэффициентов, стандартные

ошибки и R2. Как это повлияло на результаты в таблице 3.3?

Заметим, что 1 м2 = 10,76 фт2.

4         

Во многих эмпирических случаях не все условия Гаусса—Маркова (А1)-(А4) из главы 2 будут удовлетворяться. Как мы видели в п. 2.6.1, это не обязательно фатально для МНК-оценки в том смысле, что она остается состоятельной при довольно слабых условиях. В этой главе мы обсудим последствия гетероскедастичности и автокорреляции, которые подразумевают, что регрессионные остатки модели больше не являются независимыми и одинаково распределенными. В таких случаях МНК-оценка коэффициентов регрессии может быть все еще несмещенной или состоятельной, но ее ковариационная матрица отличается от ковариационной матрицы, выведенной в главе 2. Кроме того, МНК-оценка может быть относительно неэффективной и больше не обладать свойством НЛНО.

В параграфе 4.1 мы обсудим, как повлияет на свойства МНК-оценки отказ от требования независимости и гетероскедастичности регрессионных остатков, в параграфе 4.2 представим в общей матричной системе обозначений альтернативную оценку, которая является наилучшей линейной несмещенной оценкой в этом более общем случае. Гетероскедастичность остатков рассматривается в параграфах 4.3-4.5, тогда как остальные параграфы этой главы посвящены случаю автокоррелированных остатков. Примеры гетероскедастичности и ее последствия обсуждаются в параграфе 4.3, в то время как в параграфе 4.4 описывается ряд альтернативных тестов вы-

 

Гетероскедастичность и автокорреляция

явления гетерогенности. В параграфе 4.5 приводится эмпирическая иллюстрация случая гетероскедастичных остатков.

В параграфах 4.6 и 4.7 рассматриваются основы автокорреляции остатков, в то время как в параграфе 4.8 приводится довольно простая иллюстрация. В параграфах 4.9 и 4.10 внимание уделяется некоторым дополнительным вопросам, касающимся автокорреляции, включающем обсуждение остатков в виде модели скользящего среднего и так называемых стандартных ошибок в форме Невье— Веста. И, наконец, параграф 4.11 содержит обширную иллюстрацию в виде примера паритета непокрытых процентных ставок, где возникает автокорреляция остатков из-за так называемой проблемы перекрывающихся выборок.

 

4.1. Последствия для свойств МНК-оценки

Интересующая нас модель неизменна и имеет вид

уі = х'іР + єі.   (4.1)

Модель можно записать как

у = Хр + е.      (4.2)

По-существу предположения Гаусса—Маркова (А1)-(А4) можно резюмировать в виде

Е{еХ) = Е{е} = 0, (4.3) V{eX} = V{s} = a2L (4.4)

Эти предположения говорят, что условное распределение остатков при заданной матрице значений объясняющих переменных имеет нулевые средние, постоянные дисперсии и нулевые ковариации. В частности, это означает, что каждый остаток имеет одну и ту же дисперсию, и что два разных остатка являются некоррелированными. Эти предположения подразумевают, что Е{єіхг} — 0, так что модель соответствует условному математическому ожиданию переменной у і при заданном векторе объясняющих переменных х{. Кроме того, было показано, что МНК-оценка является наилучшей линейной несмещенной оценкой (НЛНО) для вектора параметров f3.

Гетероскедастичность и автокорреляция остатков подразумевают, что условие (4.4) больше не справедливо. Гетероскедастичность

4.1. Последствия для свойств МНК-оценки

139

 

возникает, если разные регрессионные остатки не имеют одинаковых дисперсий, так что диагональные элементы ковариационной матрицы различны. Например, возможно, что различные группы в выборке имеют разные дисперсии. Можно ожидать, что вариация необъясненных сбережений семей возрастает с доходом, так же как и уровень сбережений. Автокорреляция почти исключительно возникает в случаях, в которых данные имеют временное измерение. Это подразумевает, что ковариационная матрица является недиагональной, так что различные остатки коррелированны. Возможно, что причина состоит в инерции необъясненной части модели. Обе эти проблемы более подробно будут обсуждаться ниже, но в настоящий момент важно отметить, что они обе нарушают условие (4.4). Предположим, что ковариационную матрицу остатков в общем виде можно записать как

V{eX} = а2Ф, (4.5)

где Ф — положительно определенная матрица, которую мы будем некоторое время предполагать известной. Из вышесказанного ясно, что она может зависеть от X.

Если бы мы пересматривали доказательство несмещенности МНК-оценки, то непосредственно было бы ясно, что используется только предположение (4.3). Поскольку это предположение налагается по-прежнему, то, предположение (4.5) вместо предположения (4.4) не будет изменять результат, что МНК-оценка Ъ является несмещенной для вектора параметров j3. Однако простое выражение для ковариационной матрицы Ъ больше не справедливо. В общем случае мы получаем (для данной матрицы X) выражение

v{bx} = v^x'x^x'e^} = (x'x^x'vwxyxix'x)-1 =

= а2(Х/Х)-1Х/ФХ(Х/Х)~1, (4.6)

которое сводится к более простому выражению (j2(X/X)_1, если только Ф является единичной матрицей. Следовательно, несмотря на то, что МНК-оценка все еще несмещенная, ее обычно вычисляемая ковариационная матрица и стандартные ошибки будут основаны на неправильном выражении. Таким образом, стандартные t-и F-критерии больше не будут справедливы, и выводы будут вводить в заблуждение. Кроме того, доказательство результата Гаусса-Маркова, что МНК-оценка является HJ1HO, также нарушается, так что МНК-оценка является несмещенной, но больше не наилучшей линейно несмещенной функцией оценивания.

Эти последствия указывают на два способа решения проблем гетероскедастичности и автокорреляции. Первый способ состоит в выводе альтернативной оценки, которая является наилучшей линейной несмещенной оценкой. Второй способ заключается в сохранении МНК-оценки, но с какой-то коррекцией стандартных ошибок, чтобы учесть гетероскедастичность и/или автокорреляцию. Фактически, существует также третий способ решения этой проблемы. Во многих случаях причина гетероскедастичности и (особенно) автокоррели-рованности остатков заключается в том, что оцениваемая модель в том или другом смысле, возможно, специфицирована неправильно. Если дело обстоит так, то обнаружение гетероскедастичности или автокоррелированности остатков должно приводить к пересмотру модели с точки зрения правильности ее спецификации. Такие примеры будут обсуждаться ниже.

В педагогических целях сначала в параграфе 4.2 мы рассмотрим вывод альтернативной оценки. Однако следует подчеркнуть, что во многих случаях этот способ не самый естественный для выполнения.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 |