Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

9.1. иллюстрация использования фиктивной переменной

Мы проиллюстрируем метод использования фиктивных переменных на примере регрессионного анализа основных факторов, влияющих на вес новорожденных младенцев. Если вы думаете, что эта тема не представляет достаточного интереса для экономиста, то ошибаетесь. Типичный экономист, работающий в прикладной сфере, не тратит все свое время на создание макроэкономических моделей. Значительно вероятнее, что он участвует в работе, имеющей более непосредственное отношение к практике, например, занимается анализом использования ресурсов в какой-либо конкретной сфере. Поскольку в большинстве стран на медицинское обслуживание направляется достаточно большая часть личных и общественных ресурсов, вполне оправдан интерес к нему со стороны экономистов; на эту тему имеется обширная экономическая литература, причем объем ее постоянно растет. Несмотря на то что наибольшим вниманием средств массовой информации обычно пользуется неотложная медицинская помощь, самыми важными с точки зрения затрат являются акушерская помощь, уход за пожилыми и забота о лицах, имеющих психические заболевания.

Так как стоимостное выражение результатов медицинской помощи обычно является весьма спорным предметом, невозможно провести удовлетворительный сравнительный анализ затрат и результатов по большинству видов расходов на медицину. Вместо этого широко используется следующий подход: берется какой-либо показатель успеха (или неудачи), определяются основные факторы, его обусловливающие, и затем делается попытка найти наиболее эффективный путь достижения заданной цели, выраженной этим показателем.

В принципе задача выявления основных факторов, формирующих значения целевого показателя, должна решаться специалистами в области медицинской статистики, а задача наилучшего распределения ресурсов — экономистами; но в здравоохранении, как и в других отраслях прикладной экономики, высокопрофессиональным экономистам часто приходится выходить за Непосредственные рамки своей дисциплины и проводить такой статистический анализ, прежде чем перейти к своей основной работе. В области акушерской помощи двумя главными показателями являются младенческая смертность и вес новорожденных. Так как коэффициент смертности новорожденных для большинства стран очень низок, для исследования определяющих его факторов требуются выборки большого объема, и поэтому вес новорожденных во многих случаях является более практичным альтернативным показателем.

Регрессионные зависимости веса новорожденного, о которых в этой главе вдет речь, являются побочным продуктом исследования, основная цель которого состоит в выяснении того, оказывает ли предродовая подготовка ощутимое воздействие на результат родов. Во время беременности будущая мать посещает врача для консультаций, а в некоторых странах ей также предлагается посещать занятия по предродовой подготовке, где она может получить знания о немедицинских аспектах беременности и родов.

Чтобы определить в ходе исследования, оказывает ли посещение занятий по предродовой подготовке положительное воздействие на вес младенца при рождении, что рассматривается как показатель результата родов, недостаточно было оценить регрессионную зависимость веса новорожденного от посещения занятий, так как парная регрессия такого типа определенно даст смещенные результаты.

Например, (1) у матерей, которые рожают не в первый раз, появляются обычно младенцы с большим весом, чем у женщин, рожающих впервые; и (2) они не склонны посещать занятия по предродовой подготовке, так как уже прошли через это. Если эта взаимосвязь не принимается во внимание, то результаты исследования могут показать, что посещение занятий по предродовой подготовке оказывает неблагоприятное воздействие на вес новорожденного. По аналогии с этим женшины, которые курят во время беременности, в меньшей степени склонны посещать занятия, чем те, которые не курят. Курение оказывает неблагоприятное воздействие на вес новорожденного ребенка. Если данная сторона не принимается во внимание, это приведет к смещению в сторону завышения оценки влияния предродовой подготовки.

Соответственно было необходимо провести полное исследование вопроса, включающее всесторонний учет социально-экономических, медицинских и физических факторов, влияющих на вес новорожденного, чтобы получить несмещенную оценку воздействия любого из факторов (подробная информация о выборке, использовавшейся в рассматриваемых регрессиях, приводится в работе К. Доугерти и А. Д. Джонса [Dougherty, Jones, 1982]).

Наибольшая часть дисперсии веса новорожденного обусловлена генетической наследственностью ребенка и продолжительностью беременности; таким образом, коэффициент R2 в регрессиях веса новорожденного младенца всегда является очень низким. Те, кто не имеет достаточного опыта в области регрессионного анализа, стремятся задать желаемый уровень R2 и считают, что если коэффициент R2 высок, то уравнение является точным, а если он низок, то данная регрессия оценивалась впустую. Оба вывода неправильны. В рассматриваемом случае курение во время беременности объясняет только очень малую долю всей дисперсии, но тем не менее является значимым фактором. Если предположить, что воздействие всех остальных факторов постоянно, то курение 10 сигарет в день во время беременности снижает вес новорожденного в среднем приблизительно на 80 граммов. Хотя само по себе это, видимо, не столь серьезно, тот факт, что курение оказывает неблагоприятное воздействие на вес новорожденного, вероятно, означает, что оно также оказывает неблагоприятное воздействие на умственное развитие плода, и это имеет большое значение. Зависимость между весом при рождении и курением — тема, вызывающая много дискуссий, которой по понятным причинам уделялось большое внимание в медицинской литературе.

В качестве отправной точки возьмем модель:

у = а + $х + и, (9.1)

где у — вес новорожденного в граммах их — количество сигарет, выкуриваемых в день будущей матерью во время беременности. Оценив регрессию по выборке, включающей данные о 964 родах (описанной в указанной выше статье), получаем:

9 = 3418 - 7,2х;           R2 = 0,012. (9.2)

(со.) (14) (2,1)

Это означает, что ребенок, рожденный некурящей матерью, будет иметь при рождении средний вес около 3400 г и что уменьшение веса новорожденного по причине курения составит несколько больше 7 г на каждую сигарету, выкуриваемую в день будущей матерью.

Это только отправная точка. Далее мы будем исследовать воздействие качественного фактора: рожала ли женщина до этого или нет. Это можно смоделировать с помощью двух уравнений:

у = а + $х + и (9.3)

и

у = а' + $х + и, (9.4)

где первое уравнение относится к детям, родившимся у своих матерей первыми (первенцам), а второе — ко всем остальным.

Заметим, что эти два уравнения записаны с одним и тем же коэффициентом при*, но с разными свободными членами. Мы предполагаем, что тот факт, является ли ребенок первенцем или нет, влияет на основной вес, но не на вес, теряемый при каждой выкуриваемой матерью сигарете.

Эквивалентным способом записи модели было бы сохранить уравнение (9.1) для первенцев и записать другое уравнение в виде:

у = а + 5 + рх + ы. (9.5)

Основной вес ребенка, не являющегося первенцем (а*), разделен здесь на две составляющие: основной вес ребенка-первенца (а) и дополнительный вес, обусловленный тем, что ребенок родился не первым (8). Эта модель иллюстрируется на рис. 9.1. Две прямые линии показывают зависимость между весом новорожденного и курением без учета случайного фактора. Они изображены с наклоном вниз, так как на практике коэффициент Р отрицателен.

Линия регрессии для ребенка, который родился не первым, такая же, как для первенца, с тем различием, что она сдвинута вверх на величину 5. Нашей целью является оценка этого неизвестного параметра сдвига, и мы получим ее с помощью введения так называемой фиктивной переменной. Перепишем модель в виде:

y = a + bD + $x + u, (9.6)

где D — фиктивная переменная, т. е. искусственно введенная переменная, которая принимает значение 0, если наблюдение относится к первенцу, и значение 1, если оно относится к ребенку, родившемуся не первым.

Мы видим, что ситуация определяется тем, что происходит при А равном нулю или единице. Если ребенок — первенец, то D берется равным нулю и уравнение упрощается до вида (9.3). Если ребенок родился не первым, то D принимается равным единице и уравнение записывается в виде (9.5). Набор данных для иллюстрации сказанного представлен в табл. 9.1,

Количество сигарет х

Рис. 9.1. Зависимость веса новорожденного от степени пристрастия будущей матери к курению и от того, является ли ее ребенок первенцем или нет

Данные загружаются в компьютерную программу регрессионного анализа,

и для оценивания зависимости у от х и D используется множественная регрессия; D рассматривается точно так же, как обычная переменная, хотя набор ее значений состоит только из нулей и единиц.

Результаты оценивания регрессии для наблюдений, представленных в табл. 9.1, таковы:

£ = 3444+ 103Z)- 11,9х;         Д2 = 0,19. (9.7)

(со.) (99)   (84) (6,3)

Параметр сдвига составляет 103 грамма (или приблизительно 4 унции). Уравнение (9.7) можно переписать в соответствии с (9.3) и (9.4):

9 = 3444 - 11,9х     (для первенца); (9.8)

9 = 3547 - 11,9*     (для непервенца). (9.9)

Эти линии вместе с точками наблюдений в выборке показаны на рис. 9.2. Оценивание регрессии по реальным данным о 964 родах дало результат:

9 = 3373 + 119/)- 7,8х;           R2 = 0,032.     (9.10)

(со.) (17)   (26) (2,1)

 

Стандартные ошибки и проверка гипотез

Стандартные ошибки коэффициентов при фиктивных переменных, рассчитанные с помощью компьютера, так же как и стандартные ошибки других коэффициентов, используются для проверки гипотез и построения доверительных интервалов.

Наиболее распространенное их применение состоит в проверке значимости отличия коэффициента от нуля. Она выполняется обычным способом — делением коэффициента на стандартную ошибку для получения /-статистики, которая сравнивается с критическим значением / при заданном уровне значимости. Если /-статистика значима, то из этого следует, что свободные члены для двух категорий наблюдений значимо различаются.

Например, в уравнении (9.7) /-статистика для коэффициента при фиктивной переменной составляет 1,23. Таким образом, коэффициент незначимо отличается от нуля, что означает, что сдвиг линий регрессии для первенцев и детей, родившихся не первыми, не является значимым. Это можно объяснить малым размером выборки. Эффект, вызываемый тем, что ребенок — первенец (или непервенец), проявляется только как тенденция, и он слишком невелик, чтобы можно было выявить его значимость по выборке, содержащей только 20 наблюдений. Если мы рассмотрим регрессию на реальных данных, то увидим, что /-статистика составляет 4,58, а это указывает, что в действительности сдвиг линии регрессии весьма значим.

 

Пример с временным рядом

В табл. 9.2 можно видеть, что в 1974 г. наблюдалось резкое снижение расходов на автомобили. Имел место нефтяной кризис, и такое снижение было одним из его результатов. Однако впоследствии расходы на автомобили начали снова расти. Следовательно, мы можем выдвинуть гипотезу, что функция спроса в 1974 г. сдвинулась вниз, как показано на рис. 9.3, где у — расходы на автомобили и х — располагаемый личный доход.

Мы можем выразить этот сдвиг математически, введя в уравнение фиктивную переменную Д принимая ее значения равными нулю для 1963-1973 гг. и единице для 1974-1982 гг.:

y = a + 8D + $x + u.

(9.11)

Для периода 1963—1973 гг. при D = 0 уравнение принимает вид:

y = a + flx + w,           (9.12)

а для периода 1974—1982 гг. при D = 1:

y=(a + 8) + рх + и.      (9.13)

Коэффициент 8 при фиктивной переменной, конечно, отрицателен. В случае оценивания функции спроса по данным для .у и jc из табл. Б. 1 и значений Д которые представляют собой ряд из 11 нулей, за которыми идут 9 единиц, получаем:

9 = 0,57 - 4,40Z) + 0,035jc;    R2 = 0,69.       (9.14)

(со.) (5,34) (2,40) (0,008)

Это означает, что величина свободного члена в уравнении регрессии для периода 1963—1973 гг., показанная на рис. 9.3, составляет 0,57, а для периода 1974-1982 гг. она равна -3,83.

 

У

 

а

 

(а+5)

1963

1974

1982 х

Рис. 9.3. Пример использования фиктивной переменной для описания сдвига

в модели с временным рядом

Проверка значимости с помощью теста для коэффициента при фиктивной переменной с использованием одностороннего критерия (поскольку мы предвидим, что коэффициент будет отрицательным), показывает, что сдвиг является значимым при уровне значимости в 5\%.

Если включить в регрессию также и относительную цену автомобилей, то мы получим:

у = 18,64-4,47/) + 0,027х- 11,5/?;      Л2 = 0,69. (9.15)

(со.) (32,41) (2,45)  (0,016) (20,3)

Сдвиг остается значимым на 5-процентном уровне.

В этом частном случае фактически нет реальной потребности в фиктивной переменной. Мы знаем причину сдвига функции спроса послеч1973 г., когда увеличилась относительная цена бензина. Если теперь включить в уравнение регрессии также и относительную цену на бензин, обозначив ее pgas, то получится уравнение:

9 = -38,57 - 1,66/) + 0,065* + 29,70/? - 13,18/>#75; R2 = 0,87.        (9.16)

(со.) (25,04)   (1,75)  (0,013)  (16,28) (2,89)

Коэффициент при фиктивной переменной уже не отличается значимо от нуля. Спецификация в целом улучшилась. Оба коэффициента при х и при pgas являются значимыми при уровне значимости в 0,1\%, имеют ожидаемые знаки [заметим, что коэффициент при х не был значимым в (9.15) даже при 5-процентном уровне]. Значение коэффициента R2 выросло с 0,69 до 0,87. Вместе с тем теперь обнаруживается одна странность, заслуживающая дальнейшего внимания: оценка коэффициента при р является положительной, хотя и незначимой при 5-процентном уровне значимости.

 

Упражнения

Дайте полную интерпретацию уравнения (9.10).

Существует закономерность, согласно которой младенцы мужского пола имеют в среднем больший вес при рождении по сравнению с младенцами женского пола. Определяя фиктивную переменную М = 1 для мальчиков и М = 0 для девочек и используя выборку из 964 родов, получим следующую оценку регрессионной зависимости веса новорожденного от показателя курения и фиктивной переменной М:

у = 3354 - 119Л/+ 7,0х;          R2 = 0,033.

(со.)  (20)    (26) (2,1)

Дайте полную интерпретацию регрессии и выполните соответствующие статистические проверки.

Вы исследуете зависимость между расходами на зарубежные поездки и располагаемым личным доходом для Франции, используя ежегодные данные за период 1966—1985 гг. В течение 1982-1983 гг. правительство Франции значительно ограничило нормы использования иностранной валюты для этой цели с тем, чтобы уменьшить дефицит платежного баланса. Объясните, как бы вы использовали фиктивную переменную для оценки эффективности введения этих ограничений.

9.2. Общий случай

В предыдущем примере были только две категории качественной переменной: дети, родившиеся первыми, и дети, родившиеся не первыми. Ввиду высокой значимости коэффициента при фиктивной переменной у нас может появиться желание развить модель и выяснить, влияет ли на вес новорожденного число родов, имевшихся у его матери в прошлом.

Одним из путей такого исследования, конечно, было бы использование модели:

у = а + рхх + ^ + и, (9.17)

где z — число предшествующих родов. Однако эта модель внутренне исходит из того, что вес новорожденного возрастает как линейная функция от z, т. е. с постоянным приращением на каждые дополнительные предшествующие роды. А это в общем-то само по себе неочевидно. По физиологическим причинам было бы естественным предполагать, что вторые или последующие роды будут иметь относительно небольшой дополнительный эффект.

В этой ситуации, возможно, было бы лучше использовать систему фиктивных переменных для более точного изучения влияния количества родов, применяя, например, следующую классификацию состояний: отсутствие родов в прошлом (которое мы впредь будем отмечать как категорию 0); одни роды в прошлом (категория 7); двое родов в прошлом (категория 2); трое или более родов в прошлом (категория 3). (Выборка из 964 родов не включала достаточного количества примеров с четырьмя или более предшествующими родами, которое могло бы оправдать дальнейшее выделение отдельных категорий.)

Затем мы выбираем одну из этих категорий как эталонную и определяем фиктивные переменные для остальных. Способ выбора эталонной категории будет рассмотрен ниже, но в данном контексте для этого было бы естественно использовать категорию ft Мы определяем фиктивные переменные Z)l, D2 и D3 для других категорий следующим образом:

Категория О  D = Z)2 = Z)3 = 0;

Категория 1   Z>1 = 1;Z)2 = Z)3 = 0;

Категория2    Z)2 = 1; Z) 1 = Z)3 = 0;

Категория 3   Z>3 = 1; Z> 1 = Z>2 = 0.

Запишем модель в следующем виде:

у = а + (к + 8,2)1 + b2D2 + 83Z)3 + и, (9.18)

где 8,, 82 и 83 — коэффициенты при фиктивных переменных. Причем 8{ — разность между весом новорожденных в категориях 1 и 0 при сохранении воздействия х на постоянном уровне, 82 — разность между весом новорожденных в категориях 2 и 0, и 83 — разность в весе в категориях 3 и ft

В табл. 9.3 показано число предшествующих родов и соответствующие значения фиктивных переменных для первых 20 из рассматриваемых 964 родов.

Оценивая регрессионную зависимость веса новорожденного от степени пристрастия будущей матери к курению и от этих фиктивных переменных (для выборки из всех 964 случаев), получаем:

Проверка гипотез

Проверка гипотез с помощью Меритерия показывает, что все коэффициенты при фиктивных переменных значимо отличаются от нуля, другими словами, что средний вес новорожденного в каждой из остальных категорий значимо выше, чем в случае, когда женщина рожала впервые. Также может быть интересно рассмотреть, привело ли включение группы фиктивных переменных к значимому повышению объясняющей способности уравнения регрессии. Сумма квадратов остатков без включения фиктивных переменных составила 158,6 млн., а с их включением — 155,3 млн. Как отмечалось в разделе 5.6, соответствующая ^-статистика имеет вид:

г =    Улучшение качества уравнения/ Использованные степени свободы _ Необъясненная дисперсия I Число остающихся степеней свободы

. (3,3х10')/3

(155,3 х106)/ 959        К '

 

Она распределена с 3 и 959 степенями свободы и превышает критическое значение F, равное 5,42 при уровне значимости в 0,1\%.

 

Выбор эталонной категории

Выбор эталонной категории не оказывает воздействия на сущность уравнений регрессии; но от этого выбора зависит, какие тесты вы сможете выполнить, и это соображение, как правило, должно служить ориентиром. Хотя сам выбор определяет форму представления коэффициентов регрессии, он отражает лишь внешнюю сторону вопроса. Это не оказывает влияния на уравнения, соответствующие отдельным категориям, когда они выводятся из основного уравнения.

Это можно доказать формально, но мы ограничимся иллюстрацией. Предположим, что в примере с весом новорожденных мы выбрали в качестве эталонной категорию 7, означающую, что ранее мать рожала ровно один раз, и вновь оценим регрессию. Теперь нам надо ввести новую фиктивную переменную (2)0), которая равна единице для категории 0 и нулю — в остальных случаях. Мы опускаем 2)1, так как фиктивная переменная для эталонной категории не включается. Переменные D 2 и 2)3 включаются в уравнение с теми же определениями, что и раньше. Результатом построения регрессии является:

9 = 3500 - 7,8* + 127ZX) -ISUl-22Z)3;        R2 = 0,033. (9.25) (со.) (26)   (2,1)    (30)      (52) (64)

Так как теперь эталонной является категория 7, коэффициенты при фиктивных переменных дают оценки добавочного веса младенцев, относящихся к другим категориям, по сравнению с новорожденными из категории 7. Коэффициент 2)0 является, конечно, отрицательным, потому что новорожденные в категории 0 обычно имеют меньший вес, чем новорожденные в категории 7. Коэффициенты при 2)2 и 2)3 невелики и отрицательны, что показывает, что вес новорожденного в действительности уменьшается при более высоком числе предшествующих родов, но несущественно.

Чтобы получить вариант уравнения для категории 0, устанавливаем DO = 1, D2 = D3 = 0. Для категории 1 все фиктивные переменные принимают значение 0. Для категории 2 переменная Z>2 = 1, /Ю = Z>3 = 0. Для категории 3 переменная D3 = 1, DO = D2 = 0. Можно проверить, что мы получаем здесь уравнения (9.20)—(9.23), как и раньше.

Интерпретация проверки гипотез для коэффициентов при фиктивных переменных будет, однако, теперь другой. Например, коэффициент при D2 уже оценивает разность между весом новорожденных в категориях 2 и 7, а не между весом младенцев в категориях 2 и 0.

Таким образом, выбор эталонной категории будет определяться набором проверок гипотез, которые вы хотите провести. В данном случае если вы хотите проверить, был ли вес новорожденных в категории 0 значительно ниже, чем в других категориях, то следует использовать в качестве эталонной категории первоначальный вариант с категорией 0. Если вы уже знаете, что результат для категории 0 значительно ниже, то, возможно, будете в большей степени заинтересованы в проверке, которая показала бы, увеличился ли (или уменьшился) значимо вес новорожденных в категориях более высоких, чем категория 1. В этом случае следует использовать в качестве эталонной категории второй вариант с категорией 1. В уравнении (9.25) /-статистики коэффициентов при D2 и D3 показывают, что они не отличаются значимо от нуля при уровне значимости в 5\%. Отсюда мы делаем вывод, что между весом новорожденных в категории 1 и новорожденных в более высоких категориях значимого различия нет.

 

Ловушка при применении фиктивных переменных

Что произойдет, если включить в уравнение фиктивную переменную для эталонной категории? Произойдут два явления. Во-первых, если бы было возможно вычислить коэффициенты регрессии, то вы не смогли бы дать им интерпретацию. Коэффициент а является оценкой базового значения постоянного члена в уравнении регрессии, а коэффициенты при фиктивных переменных служат оценками приращения постоянного члена по сравнению с этим базовым уровнем. Теперь, однако, отсутствует то, что является «базой», поэтому интерпретация оказывается несостоятельной. Фактически станет невыполнимой процедура вычисления коэффициентов регрессии. Компьютер просто выдаст сообщение об ошибке или, возможно (в более совершенных регрессионных пакетах), отбросит одну из фиктивных переменных.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |