Имя материала: Путеводитель по современной эконометрике

Автор: Вербик Марно

Модели с ограниченными зависимыми переменными

в параграфе 7.2 ХК Если анализируется распределение непрерывной эндогенной переменной, но, при этом, положительная вероятностная мера может быть сосредоточена в одной или более дискретных точках, то рекомендуется применение тобит-моделей. Стандартная тобит-модель обсуждается в параграфе 7.3, в то время как некоторые расширения, включая модели с ограничениями на процесс формирования выборки, при которых не наблюдается неслучайная доля возможных исходов, содержатся в параграфе 7.4. Поскольку проблема, связанная с ограничениями на процесс формирования выборки, т. е. — с «выборочной селективностью» ("sample selection problem"), часто возникает с микро-данными, то в параграфе 7.5 предоставляется некоторое дополнительное обсуждение этой проблемы, главным образом фокусируясь на проблеме идентификации, и на том, при каких предположениях ее можно решить. В различных пунктах параграфов приводится определенное число эмпирических примеров. Дополнительное обсуждение моделей с ограниченными зависимыми переменными в эконометрике можно найти в двух обзорных статьях (Amemiya, 1981, 1984) и монографиях (Maddala, 1983) и (Lee, 1996)

 

7.1. Модели бинарного выбора

 

7.1.1. Применять ли линейную регрессию?

Предположим, что мы хотим объяснить, обладает семья автомобилем или нет. Пусть единственной объясняющей переменной будет доход семьи. Мы имеем данные относительно N семей (г = 1,... , N), с наблюдениями относительно их семейных доходов, Хі2, и наличия автомобиля. Этот последний признак описывается бинарной переменной у і , определяемой в виде:

у і — 1, если семья г имеет собственный автомобиль; у і — О, если семья г не имеет собственного автомобиля.

Предположим, что мы использовали бы модель регрессии, чтобы

объЯСНИТЬ бинарную Переменную Уі  С ПОМОЩЬЮ ПеремеННОЙ Хі2 и

 

Эта глава не охватывает анализ счетных данных, где эндогенная переменная — частота определенного события (например число патентов в данном году). Модели счетных данных пространно рассматриваются в книге (Cameron, Trivedi, 1998).

свободного члена (хц = 1). Такая линейная модель имела бы вид

у і = Pi + р2хі2 +Єі= х'ф + Єі, (7.1)

где Хі = (хц, Хі2)'. По-видимому, резонно сделать стандартное предположение, что Е{єіхі) = 0, так что Е{уіхі} = х'ф. Это означает, что

Е{Уіхі} = 1.Р{Уі =        + О.Р{Уі = 0|а*} =

= Р{Уі = 1Хі} = х'ф. (7.2)

Таким образом, линейная модель подразумевает, что регрессионный член Xіф является вероятностью и поэтому должен принимать значения между 0 и 1. Это возможно, если только значения вектора объясняющих переменных Хі ограничены и если удовлетворяются определенные ограничения на вектор параметров (3. Обычно на практике этого достигнуть трудно. В дополнение к этой фундаментальной проблеме, регрессионный остаток в (7.1) имеет далеко не нормальное распределение и страдает от гетероскедастичности. Поскольку бинарная переменная у^ имеет только два возможных исхода (0 или 1), то регрессионный остаток для заданного значения вектора Хі также имеет два возможных результата. В частности распределение остатка Єі можно в итоге получить как

Р{єі = -х[(3хі} = Р{уъ = 0|хг} = 1 - х'Д

Р{єг = 1 - х'фХі = Р{Уі = lXi} = х'ф.

Это подразумевает, что дисперсия регрессионного остатка не явля-

ется постоянной, а зависит от объясняющих переменных в соответ-

ствии с выражением           = XiP(l~ХіР)- ОтМЄТИМ, ЧТО ДИСПерСИЯ

регрессионного остатка также зависит от параметров модели (3. 7.1.2. Введение в модели бинарного выбора

Для преодоления проблем линейной модели, существует класс моделей бинарного выбора (или одномерных дихотомических моделей), разработанный, чтобы моделировать «выбор» между двумя дискретными альтернативами. Эти модели, по существу, описывают вероятность, что непосредственно у і = 1, хотя они часто получаются из лежащей в основе модели латентной переменной (см. ниже). В общем, мы имеем

Р{Уі = 1хі] = G(Xi, 0)

(7.4)

для некоторой функции Сг(-). Это уравнение говорит, что вероятность уі — 1 зависит от вектора объясняющих переменных Х{, содержащего индивидуальные характеристики. Так, например, вероятность, что человек имеет дом, зависит от его дохода, уровня образования, возраста и семейного положения. Или, из другой области: вероятность, что насекомое выживет, приняв дозу ядовитого инсектицида, зависит от количества дозы Хі , и возможно некоторых других характеристик. Ясно, что функция G(-) в выражении (7.4) должна принимать значения только в интервале [0, 1]. Обычно, внимание ограничивается функциями вида G(xi, /3) — F(x[(3). Поскольку функция F(-) также должна принимать значения между 0 и 1, то, по-видимому, естественно выбрать функцию F в виде некоторой функции распределения. Наиболее общими вариантами такого выбора является: функция стандартного нормального распределения

w

ф) = фи= / тЬехр{-^2}^ (7'5)

— оо

приводящая к так называемой пробит-модели, и функция стандартного логистического распределения, задаваемая как

ew

F(W)=L(W) = ——, (7.6)

которая в результате приводит к логит-модели. Третий выбор соответствует равномерному распределению на интервале [0, 1] с функцией распределения

F(w) = О,         w < 0;

F(w) = w, 0 < w < 1; (7.7)

F(w) = 1,         w > 1.

Это приводит к так называемой линейной модели вероятностей,

которая подобна модели регрессии (7.1), но вероятности устанавливаются 0 или 1, если х[(3 превышает нижний или верхний предел, соответственно. На практике, первые две модели (пробит- и логит-модели) более востребованы в прикладной работе. Как стандартная нормальная, так и стандартная логистическая случайная переменные имеют нулевое математическое ожидание, тогда как последняя переменная имеет дисперсию 7г2/3 вместо 1. Поскольку эти две функции распределения очень похожи, если корректируется их различия в масштабе, то в эмпирической работе пробит и логит-модели, как правило, приводят к очень похожим результатам.

В этих моделях бинарного выбора, не говоря уже о знаках коэффициентов, непосредственно нелегко интерпретировать также и сами коэффициенты. Один из способов интерпретировать параметры (и облегчить сравнение для разных моделей) состоит в том, чтобы посмотреть на производную вероятности события уі = 1 относительно к-го элемента в векторе объясняющих переменных Х{. Для трех вышеописанных моделей, мы получаем:

 

где ф(-) обозначает функцию стандартной нормальной плотности. За исключением последней модели эффект от изменений в Xik зависит от значений Хі . Однако во всех случаях знак эффекта от изменений в Xik соответствует знаку его коэффициента /3k.

 

7.1.3. Лежащая в основе латентная модель

Возможно (но не обязательно), получить модель бинарного выбора из лежащих в основе «поведенческих» предположений. Это делается с помощью введения в модель латентной переменной, которая обычно используется, даже если такие предположения о поведении не делаются. Рассмотрим решение женщины, состоящей в браке, иметь оплачиваемую работу или нет. Разница в полезности наличия оплачиваемой работы и ее отсутствия зависит от заработной платы, которую можно было бы получать, а также и от других личных характеристик, как, например, возраст женщины, ее образование, есть ли в семье маленькие дети, и т.п. Таким образом, для каждой состоящей в браке женщины і мы можем написать разницу в полезности наличия работы и ее отсутствия в виде функции от наблюдаемых характеристик Хі и ненаблюдаемых характеристик Єі 2^. Приняв линейное аддитивное соотношение мы получаем для разности в полезности, обозначаемой через у*,

Уі = х'і/З + Єі.

(7.8)

 

Остаток є і не следует путать с регрессионным остатком линейной модели (7.1).

Поскольку переменная у* ненаблюдаемая, то она называется латентной переменной. В этой главе латентные переменные помечаются звездочкой. Наше предположение состоит в том, что индивидуум приходит к решению работать, если разность в полезности превышает определенный пороговый уровень, который без потери общности можно установить равным нулю*). Следовательно, мы наблюдаем у і = 1 (наличие работы), если и только если у * > 0 и у і = 0 (отсутствие работы) в противном случае. Таким образом, мы имеем, что

Р{Уі = 1} = Р{у* > 0} = Р{х'ф + єі > 0} =

= Р{-Єі < х'ф) = (7.9)

где F обозначает функцию распределения — Єі, или, в общем случае симметричного распределения, функцию распределения Є{. Следовательно, мы получили модель бинарного выбора, вид которой зависит от предполагаемого распределения Е{. Поскольку масштаб полезности не идентифицируется, то требуется нормировка распределения Єі. Обычно это означает, что его дисперсия фиксируется заданным значением. Если выбрано стандартное нормальное распределение, то получаем распределение пробит-модели, для логистического распределения получаем логит-модель.

Хотя в экономике модели бинарного выбора часто можно интерпретировать как получаемые из лежащей в основе проблемы максимизации полезности, конечно, это не обязательно. Обычно латентная переменная у* определяется непосредственно так, что пробит-модель полностью описывается в виде

(7.10)

У:=х№ + ег, Єі~НОНР(0,1), у- = 1,    если   у* > 0, у- = 0,   если   у* < 0,

где остатки Єі независимы от всех векторов Хі. Для логит-модели нормальное распределение заменяется стандартным логистическим распределением. Обычно параметры в моделях бинарного выбора (или, в общем, в моделях с ограниченными зависимыми переменными) оцениваются методом максимального правдоподобия.

 

Это справедливо, если в состав переменных включена переменная хц = 1, соответствующая свободному члену в уравнении (7.8) (примеч. научн. ред. перевода).

7.1.4. Оценивание

Учитывая наше общее обсуждение ММП-оценивания в главе 6, здесь мы можем ограничиться лишь выводом функции правдоподобия. Фактически, вид функции правдоподобия довольно прост, поскольку он следует непосредственно из вышеописанных моделей. В общем, вклад в правдоподобие наблюдения і с уі = 1 задается в виде р{уі = іхі} как функция от неизвестных параметров вектора /?, и, аналогично, для у і — 0. Таким образом, функция правдоподобия для всей выборки задается в виде

n

 

где мы включили вектор неизвестных параметров (3 в выражения для вероятностей, чтобы подчеркнуть, что функция правдоподобия является функцией от вектора параметров (3. Как обычно мы предпочитаем работать с логарифмической функцией правдоподобия. Заменив р{уі = 1|хі; /3} — f(x[(3), мы получаем

n n

log Ц/З) = Y,Vi bg Fixtf) + £(1 - Уі) log (1 - (7.12)

1=1 1=1

Подстановка соответствующего вида f приводит к выражению, которое мы должны максимизировать относительно вектора неизвестных параметров (3. Как показывалось выше, значения вектора параметров (3 и их интерпретация зависит от выбранной функции распределения. В разделе 7.1.6 это иллюстрируется на эмпирическом примере.

Полезно рассмотреть условия первого порядка проблемы максимального правдоподобия. Дифференцирование выражения (7.12) относительно /3 приводит к выражению

dogL(P)

n г

 

F{x'M^-nmr

Xi = 0, (7.13)

где / = F' — производная функции распределения вероятностей (таким образом, / является функцией плотности вероятностей). Член в квадратных скобках часто называется обобщенным остатком модели, и мы увидим, что он вновь появится при обсуждении тестов спецификации. Он равняется f{x'if3)/F{x'i(3) для положительных наблюдений (уі = 1) и —/(х'{/3)/(1 — F{x,if3)) для нулевых наблюдений {уі — 0). Таким образом, условия первого порядка говорят, что каждая объясняющая переменная должна быть ортогональной к обобщенному остатку модели (по всей выборке). Эти условия сопоставимы с условиями первого порядка МНК (2.10), которые утверждают, что остатки наименьших квадратов ортогональны к каждой объясняющей переменной в векторе Хі. Для логит-модели мы можем упростить выражение (7.13) к виду

a log ад   N г

xt = 0. (7.14)

ар

_    exp {х'ф} Уі    1 + ехр{ж$/?}_

Решение уравнения (7.14) является МПП-оценкой (3. Из этой оценки мы можем оценить вероятность события уі = 1 для заданного вектора объясняющих переменных Хі как

_    ехр {х[(3} Рг-1 + е*Р{х'г(ЗУ (7Л5)

Следовательно, условия первого порядка для логит-модели означают, что

n n

^рхі = ^УіХі. (7.16)

і=1 і=1

Таким образом, если вектор объясняющих переменных Хі содержит постоянный член (для его отсутствия нет никаких причин), тогда сумма оцененных вероятностей равна      у і или числу наблюдений

г

в выборке, для которых уі = 1. Другими словами, прогнозируемая частота равна фактической частоте. Точно так же, если Хі включает фиктивную переменную, например, равную 1 для женщин и 0 для мужчин, то прогнозируемая частота будет равна фактической частоте для каждой группы пола. Хотя аналогичный результат в точности не справедлив для пробит-модели, для нее он справедлив приближенно на основании сходства логит и пробит-моделей.

Рассмотрение условий второго порядка ММП-проблемы, показывает, что матрица производных второго порядка является отрицательно определенной (предполагая, что объясняющие переменные в векторе Хі неколлинеарны). Следовательно, логарифмическая функция правдоподобия является глобально вогнутой, и гарантируется сходимость итерационного алгоритма максимального правдоподобия (и обычно — весьма быстрая).

7.1.5. Качество «подгонки» ("goodness-of-fit") данных моделью

Мера качества подгонки данных моделью является итоговой статистикой, указывающей на точность, с которой модель аппроксимирует наблюдаемые данные, так же как мера R2 в линейной модели регрессии. В случае, когда зависимая переменная является качественной, о точности можно судить либо в терминах подгонки наблюдаемых частот отклика расчетными вероятностями, либо в терминах способности модели предсказывать наблюдаемые отклики. В противоположность линейной модели регрессии в моделях бинарного выбора нет единой меры качества подгонки данных моделью, а существуют разные меры.

Часто меры качества подгонки данных моделью неявно или явно основаны на сравнении с моделью, которая в качестве объясняющей переменной содержит только константу. Пусть log L обозначает максимальное значение логарифмической функции правдоподобия интересующей нас модели и пусть log Lo обозначает максимальное значение логарифмической функции правдоподобия, когда все параметры, за исключением свободного члена, равны нулю. Ясно, что logLi > log Lo. Чем больше разность между двумя значениями логарифма правдоподобия, тем больше расширенная модель дополняет очень ограниченную модель (и в самом деле, формальный критерий отношения правдоподобия может основываться на разности этих двух значений.) Первая мера качества подгонки данных моделью определяется как (расширенный перечень таких мер см. (Amemiya, 1981)),

псевдо R2 — I            —         -j          -           —, (7.17)

2(logLi - log L0)

N

где N обозначает число наблюдений. Альтернативная мера предлагалась Макфадденом в работе (McFadden, 1974)

Макфаддена R2 = 1 - (7.18)

log Lo

иногда называемая индексом отношения правдоподобия. Поскольку логарифм правдоподобия является суммой логарифмических вероятностей, из этого следует, что log Lo < log L < О, откуда непосредственно можно показать, что обе меры принимают значения только в интервале [0, 1]. Если все оцененные коэффициенты наклона равны нулю, то мы имеем log Lo — log L, так что оба R2 равны нулю. Если модель была бы в состоянии генерировать (оцененные) вероятности, которые в точности соответствовали бы наблюдаемым значениям (то есть рі = уі для всех г), то все вероятности в логарифме правдоподобия были бы равными единице, так что логарифм правдоподобия был бы в точности равен нулю. Следовательно, верхний предел для определенных выше двух мер получается для log Li = 0. Поэтому верхняя граница, равная 1, теоретически может достигатся только мерой Макфаддена; для обсуждения свойств меры Макфаддена и альтернативных мер см. (Cameron, Windmeijer, 1997).

Чтобы вычислять log Lo, не обязательно оценивать пробит или логит-модель только со свободным членом. Если в модели имеется только постоянный член, то функция распределения не имеет отношения к вычислению предполагаемых вероятностей, и по существу модель говорит, что P{yi = 1} = р для некоторого неизвестного р. Можно легко показать, что ММП-оценка для р будет (см. выражение (6.4)),

 

^=   дГ>      ГДЄ N1=2^yi.

г=1

Таким образом, оцененная вероятность есть доля единиц в выборке. Поэтому максимальное значение логарифма правдоподобия задается (сравните с выражением (6.37)) в виде

N          N      N (     N

log L0 =     Уі 1оё ^дГ + Х^1 "     log (1 " дГ ) =

г=1      i=l        ^ '

= N, log ^ + (N- N,) log (l " ^). (7-19)

которое можно непосредственно вычислить по объему выборки N и выборочной частоте N. Вычисление значения log L следует предоставить вашему компьютерному пакету.

Альтернативным способом оценить качество подгонки данных моделью является сравнение корректного и некорректного прогнозирования. Чтобы прогнозировать исход, либо у і — 1, либо нет, по-видимому, естественно посмотреть на оцененную вероятность, которая следует из модели, и которая задается в виде F(x[P). В общем, прогнозируется, что у і = 1, если FWP) > 1/2. Поскольку F(0) = 1/2 для распределений, которые являются симметрическими относительно 0, то это соответствует х'ф > 0. Таким образом, схема предполагаемого прогнозирования определяется соотношениями:

Уі = 1,     если   х[(3 > О,

Уі = О,     если   х'ф < 0. (7.20) Тогда доля некорректных прогнозов задается в виде

 

г=1

Как точка отсчета, результат опять сравнивается с долей некорректных прогнозов, полученных по модели только со свободным членом. Легко заметить, что для этой последней модели мы прогнозируем единицу для всех наблюдений, если р = Ni/N > 1/2 и нуль в противном случае. Таким образом, доля некорректных прогнозов в этом случае задается как

wtq — 1 — р,   если   р > 0,5,

wro — р,        если   р < 0,5. И наконец мера качества подгонки данных моделью получается в виде

Д2 = 1 _ ^1     (7 21)

у wro

Поскольку теоретически возможно, что модель прогнозирует хуже, чем простая модель, то есть wv > wro, то в этом случае R2 становится отрицательным. Конечно, это нехороший знак для качества прогнозирования модели. Заметим также, что wro ^ 1/2, то есть даже самая простая модель будет прогнозировать самое большее половину наблюдений некорректно. Если в выборке 90\% соответствует Уі — 1, то мы имеем даже wro =0,1. Следовательно, в этом случае, чтобы превзойти простую модель, любая модель бинарного выбора нуждается более, чем в 90\%-ом корректном прогнозировании. И как следствие, доля корректных прогнозов (1 — wr) как таковая, не говорит много о качестве модели. Возможно, что и для плохой модели она будет 0,9 (90\%).

 

7.1.6. Пример: влияние пособий по безработице на их получение

3) Данные для этого примера доступны как BENEFITS.

В качестве примера мы рассмотрим выборку 3^ из 4877 наемных фабричных работников, которые потеряли свои рабочие места в США за период с 1982 года по 1991 год. Эта выборка заимствована из исследования (McCall, 1995). Не все безработные, имеющие право на пособие социального страхования по безработице (СБ-пособия), подают заявление на его получение, вероятно из-за связанных с этим денежных и психологических затрат. Процент имеющих право на пособие безработных, которые фактически обращаются с заявлением на получение СБ-пособия, называется «нормой приема» (the take-up rate), и в имеющейся выборке он составляет только 68\%. Поэтому интересно исследовать, что заставляет людей принимать решение не подавать заявление о получении СБ-пособия.

Размер СБ-пособия, которое может получить безработный, зависит от штата места жительства, года перехода в состояние безработного, и его или ее предыдущего дохода. Норма возмещения, определяемая как отношение еженедельного СБ-пособия к предыдущему еженедельному доходу, изменяется от 33\% до 54\% с выборочным средним равным 44\%, и является потенциально важным фактором для безработного при принятии решения об обращении с заявлением на получение СБ-пособия. Конечно, другие переменные могут также влиять на норму приема. Из-за личных характеристик некоторые люди в большей степени, чем другие, способны найти новую работу за короткий промежуток времени, и поэтому не будут обращаться за получением СБ-пособия. Показателями таких личных характеристик являются образование, возраст, и, из-за потенциальной дискриминации на трудовом рынке (положительной или отрицательной), такие фиктивные переменные, как раса и пол. Кроме того, могут быть важными предпочтения и причины, связанные с семейным бюджетом, которые отражаются на семейной ситуации. Из-за существенных различий в уровнях безработицы штатов, вероятность найти новую работу изменяется по штатам, и поэтому мы включаем в анализ переменную уровня безработицы штата. Последний тип переменных, которые могли бы быть уместны, имеет отношение к причине потери работы. В анализ мы включим фиктивные переменные причин потери работы: неинтенсивная работа, сокращение штатов, и окончание сезонной работы.

Мы оценили три разные модели, результаты которых представлены в таблице 7.1. Линейная модель вероятностей оценивалась МНК, и поэтому в отношении гетероскедастичности не проверялись никакие коррекции, и не делались никаких попыток ограничить предполагаемые вероятности между 0 и 1. Логит и пробит-модели оценивались ММП. Поскольку логистическое распределение имеет

дисперсию тг2/3, то оценки для вектора неизвестных параметров /3, полученные для логит-модели, примерно в 7г/у/3 раза больше, чем для пробит-модели, что отражает небольшие различия в виде распределений. Точно так же оценки для линейной модели вероятностей сильно отличаются по величине и примерно в четыре раза меньше, чем оценки для логит-модели (за исключением свободного члена). Посмотрев на результаты в таблице 7.1, мы видим, что знаки коэффициентов идентичны для разных спецификаций наряду с тем, что статистическая значимость объясняющих переменных также сопоставима. Это обычные выводы. Как правило, разные модели не приводят к качественно различным выводам.

Для всех спецификаций норма возмещения имеет незначимый положительный коэффициент, в то время как его квадрат значимо отрицателен. Таким образом при прочих равных условиях эффект нормы возмещения будет зависеть от его значения. Например, для пробит-модели мы можем получить, что оцененный предельный эффект4^ от изменения нормы возмещения (нв) равен значению нормальной функции плотности, умноженной на 1,863 — 2 х 2,980 нв, который является отрицательным для 85\% наблюдений в выборке. Это противоречит интуиции и предполагает, что при объяснении нормы приема возможно более важны другие переменные.

Фиктивная переменная, которая показывает, была ли работа потеряна из-за неинтенсивной работы, очень значима во всех спе-

 

О вычислении предельных эффектов в линейной модели см. параграф 3.1.

цификациях,1 что не удивительно при условии, что, как правило, такие рабочие считают, что новую работу получить трудно. Многие другие переменные статистически незначимы или только предельно значимы. Это особенно следует учитывать из-за того, что при таком большом количестве наблюдений, возможно, более уместен 5^ уровень значимости, равный 1\% или менее, чем традиционные 5\%. Две переменные, касающиеся штата места жительства статистически значимы. Чем выше уровень безработицы штата и выше максимальный уровень пособия, тем более вероятно, что безработные обратятся с заявлением на получение СБ-пособия, и это интуитивно разумно. При прочих равных условиях эффект «состоять в браке» оценивается положительно, тогда как, несколько удивительно, что состояние — глава семьи имеет отрицательный эффект на вероятность принятия решения о получении СБ-пособия.

Тот факт, что данные модели не очень хорошо работают при объяснении вероятности обращения безработного с заявлением на получение СБ-пособия, отражается в вычисленных мерах качества подгонки данных моделью. Обычно для моделей дискретного выбора качество подгонки данных моделью довольно низкое. В этом приложении альтернативные меры качества подгонки данных моделью показывают, что специфицированные модели подогнаны к данным на 3,5\%-6,6\% лучше, чем модель со спецификацией постоянной вероятности. Чтобы уточнить это, рассмотрим критерий R2 для логит-модели. Если мы получаем прогноз у і на основе оцененных вероятностей логит-модели, прогнозируя единицу, если оцененная вероятность больше 0,5 и равна нулю в противном случае, то мы можем представить итоговые результаты в сводной таблице 7.2.

Недиагональные элементы в этой таблице указывают на число наблюдений, для которых прогнозирование по модели некорректно. Ясно, что для большинства индивидуумов мы прогнозируем, что они обратятся с заявлением на получение СБ-пособия, тогда как для 171 индивидуума мы прогнозируем, что они не обратятся, в то время как фактически все наоборот. Критерий R2 можно вычислить непосредственно из этой таблицы как

R2P = i

171+1300 Ї542

 

Подпись: 5) См. обсуждение по этой проблеме в п. 2.5.7.

где 1542 соответствует числу некорректных прогнозов простой модели, где вероятность принятия заявления на получение СБ-пособия постояна р = 3335/4877). Значение логарифма правдоподобия для простой модели равняется

log L0 = 3335 log        + 1542 log ^ - -3046,187,

что позволяет нам вычислить меры псевдо R2 и Макфаддена R2.

 

7.1.7. Спецификационные тесты в моделях бинарного выбора

6) Отчасти мы можем ослабить это требование, говоря, что должны быть справедливы условия первого порядка проблемы максимального правдоподобия (для генеральной совокупности). Если это так, то мы можем получить состоятельные оценки даже с некорректной функцией правдоподобия. Такое оценивание называется КМПП-оцениванием (см. параграф 6.4).

*) См. соотношение (7.10) в п. 7.1.3 (примеч. научн. ред. перевода).

Хотя ММП-оценки и обладают свойством состоятельности, должно выполнятся одно важное условие: функция правдоподобия должна быть специфицирована корректно 6^. Это означает, что мы должны быть уверены в правильности постулируемого общего вида распределения, характеризующего наши данные. Отклонения будут приводить к несостоятельным оценкам, и, как правило, в моделях бинарного выбора это возникает, когда вероятность Уі — как функция от вектора объясняющих переменных Хі специфицирована некорректно. Обычно такие некорректные спецификации мотивируются моделью латентной переменной и отражают гетероскедастичность или ненормальность распределения (в случае пробит-модели) остатка*к Кроме того, мы можем захотеть протестировать модель на наличие существенных не включенных в нее переменных без необходимости повторного оценивания модели. Оптимальной структурой для таких тестов является структура множителей Лагранжа (МЛ), которая обсуждалась в параграфе 6.2.

МЛ-тесты основываются на условиях первого порядка для более общей модели, которая специфицирует альтернативную гипотезу, и проверяется, нарушаются ли эти условия, если мы вычисляем их в точках оценок параметров текущей, ограниченной, модели. Таким образом, если мы хотим протестировать наличие J не включенных в

МОДеЛЬ Существенных объЯСНЯЮЩИХ ПеремеННЫХ Zi, то мы должны

оценить, отличается ли значимо от нуля значение выражения

Подпись:

(7.22)

Обозначая член в квадратных скобках как обобщенный регрессионный остаток такая проверка означает выполнение условия кор-релированности єі и Z{. Как мы видели в параграфе 6.2, простой способ вычисления критической статистики МЛ-теста получается из регрессии вектора единиц на К + J переменных е^х и e^z[^ и вычисления N умноженного на нецентрированный R2 (см. параграф 2.4) этой вспомогательной регрессии. При нулевой гипотезе, что Zi входит в модель с нулевыми коэффициентами, критическая статистика имеет асимптотическое хи-квадрат распределение с J степенями свободы.

При гетероскедастичности остатков є{ ММП-оценки будут несостоятельными, и мы можем довольно легко это протестировать. Рассмотрим альтернативную гипотезу, что дисперсия Єі зависит от экзогенных переменных7) Zi как

У{єі} = kh(z[a)

(7.23)

Поскольку модель описывает вероятность события уі = 1 при заданных значениях объясняющих переменных Хі, то в этом множестве условий также должны быть переменные, от которых гипотетически зависит дисперсия регрессионного остатка Єі . Это означает, что Zi является подмножеством (функций) переменных вектора Хі. Отметим, что возможно наложение априорных ограничений на вектор /3, чтобы исключить некоторые переменные вектора Хі из функции «среднего» х'ф.

для некоторой функции h > О с h(0) = 1, к = 1 или 7г2/3 (в зависимости от того, имеем ли мы пробит-модель или логит-модель), и Л/(0) ф 0. Логарифмическая функция правдоподобия приводится при этом к виду

+

n

log ОД a) = f>logF(_^=

 

^"-^('-'(А11 (7-24)

Производные по а, оцененные при нулевой гипотезе, что a = 0, имеют вид

 

к^, (7.25)

^LF(^/3)(1-F(^))'

где к — константа, которая зависит от вида функции h. Следовательно, легко протестировать нулевую гипотезу Но : a = 0, используя МЛ-тест, вычислив JV, умноженное на нецентрированный і?2 регрессии единиц по е^х' и (є/* • х[0)г[. И опять критическая статистика имеет хи-квадрат распределение с J степенями свободы (где J — размерность вектора Zi). Из-за нормировки (дисперсия не оценивается) вектор Zi не должен включать константу. Также отметим, что по построению

 

і

из-за условий первого порядка. Хотя в выражении для производных (7.25) участвует константа ас, она всего лишь только константа и поэтому несущественна при вычислении критической статистики. Следовательно, тест на наличие гетероскедастичности не зависит от вида функции h(-), а зависит только от переменных Zi, которые влияют на дисперсию (сравните со статьей (Newey, 1985)). Он подобен тесту Бреуша—Пагана на гетероскедастичность в линейной модели регрессии, как обсуждалось в п. 4.4.3 и в п. 6.3.2.

И, наконец, мы обсудим тест на нормальность остатков є і из (7.10) для пробит-модели. Для непрерывно наблюдаемой переменной тесты на нормальность обычно проверяют наличие асимметрии (третий момент) и избыточного эксцесса (четвертый момент), то есть, проверяют справедливость соотношений Е{е\} = 0 и Е{е4 — За4} = 0 (сравните со статьей (Pagan, Vella, 1989)). Таким же образом тесты на нормальность можно получить для случая с не непрерывными наблюдениями. Альтернативно, и часто эквивалентно, мы можем остаться в пределах структуры множителей Лагранжа и специфицировать альтернативное распределение, которое является более общим, чем нормальное распределение, и протестировать ограничения, предполагаемые последним распределением. Параметризация ненормальности получается утверждением, что є і имеет функцию распределения (сравните с работами (Bera, Jarque, Lee, 1984), (Ruud, 1984), или (Newey, 1985)).

Р{ег <t} = Ф(і + 7іt2 + 72*3), (7.26)

которая характеризует семейство распределений Пирсона (применяются некоторые ограничения на 71 и 72). Это семейство распределений учитывает асимметрию (71 ф 0) и избыточный эксцесс (тяжелые хвосты) (72 Ф 0) и сводится к нормальному распределению, если 7i = 72 = 0. Следовательно, тест на нормальность является просто тестом на ограничения для двух параметров. В пробит-модели вероятность события уі — 1 описывалась бы в более общем виде

Р{Уі = 1хі} = Ф(х'{Р + Ъ(х'ф)2+12(х'ф)3). (7.27)

Это показывает, что в этом случае тест на нормальность соответствует критерию на не включенные в модель существенные переменные (х[(3)2 и (х^/3)3. Следовательно, критическая статистика для нулевой гипотезы 7і = 72 = 0 легко получается с помощью построения вспомогательной регрессии единиц по s\%Gx', е^(х[13)2 и £?(х[/3)3 и вычисления N, умноженного на R2. При нулевой гипотезе критическая статистика имеет хи-квадрат распределение с двумя степенями свободы. Два дополнительных члена в регрессии соответствуют асимметрии и эксцессу соответственно.

 

7.}.8. Ослабление некоторых предположений в моделях бинарного выбора

Для заданного вектора объясняющих переменных Хі модель бинарного выбора описывает вероятность того, что у і = 1, в виде функции этих переменных. Существует несколько способов, с помощью которых можно ослабить наложенные на модель ограничения. Почти без исключения эти расширения находятся внутри класса одноиндекс-ных моделей, в котором существует одна функция от переменных вектора Хі, определяющая все вероятности (подобно х[(3). Сначала, непосредственно используя результаты предыдущего пункта параграфа, и по аналогии с линейными моделями регрессии, в качестве дополнительных объясняющих переменных следует включить нелинейные функции от объясняющих переменных вектора Хі . Например, если в вектор Хі включена переменная возраста, то можно было бы включить также переменную квадрата возраста.

Большинство обобщений моделей бинарного выбора основано на структуре латентной переменной и включает ослабление предположений на распределение регрессионного остатка. Например, можно позволить, чтобы регрессионный остаток є і в соотношении (7.8) был гетероскедастичным. Если вид гетероскедастичности известен, например, V{si = expj^a}, где Zi включает (функции от) компоненты вектора Хг, a a — неизвестный вектор параметров, то, по существу, изменение состоит в том, что вероятность события у і = 1 также зависит от дисперсии ошибки, то есть

р{у1 = 1хг} = е(-7Щ==)^

Параметры в векторах (3 и а можно оценить одновременно с по-

мощью максимизации логарифмической функции правдоподобия,

которая задается выражением (7.24), с экспоненциальной функцией

в качестве функции h(-). Как и в стандартном гомоскедастичном

случае мы должны наложить ограничение нормировки, которое наи-

более легко делается без включения в вектор Zi свободного члена.

В этом случае a = 0 соответствует            = 1- Альтернативно мож-

но установить один из параметров в векторе (3 равным 1 или — 1, предпочтительно для переменной, которая, как «известно» должна иметь не нулевой эффект на у і , не налагая ограничение на дисперсию регрессионного остатка Єі. Это является общим ограничением нормировки, когда используется полу параметрическая оценка.

Вектор неизвестных параметров (3 также можно оценить полупараметрически, то есть без наложения предположений на распределение регрессионного остатка є і за исключением того, что он имеет медиану в нуле и независим от вектора объясняющих переменных Хі. Хотя интерпретировать коэффициенты вектора (3 без функции распределения f тяжело (если только возможно), представляют интерес их знаки и значимость. Известный метод называется оценкой максимальной метки Майского (Manski, 1975, 1985). По существу этот метод пытается максимизировать число корректных прогнозов, на основе схемы (7.20). Это эквивалентно минимизации числа некорректных прогнозов ^^{уі ~Уі)2 относительно /3, где у і

і

определяется из условий (7.20). Поскольку эта целевая функция не дифференцируема относительно /?, то для решения такой проблемы максимизации Манский предоставил численный алгоритм. Другая проблема состоит в том, что скорость сходимости (для получения состоятельности) не VN, как обычно, а меньше (iV1//3). До некоторой степени обе проблемы решены в сглаженной оценке максимальной метки в статье (Horowitz, 1992), которая основана на сглаженной версии приведенной выше целевой функции. Дополнительные детали и обсуждение можно найти в работах (Horowitz, 1993, 1998), (Lee, 1996, Sect. 9.2) и (Pagan, Ullah 1999, Chapter 7).

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 |