Имя материала: Путеводитель по современной эконометрике

Автор: Вербик Марно

7.5. смещение, обусловленное выборочной селективностью

Если выборка, используемая в статистическом анализе, не извлекается случайным образом из генеральной совокупности, то может возникнуть так называемое «селективное смещение». То есть, стандартные оценки и тесты могут привести к ложным выводам. Поскольку существует много таких ситуаций, и в таких случаях модель тобит II не обязательно предоставляет адекватное решение, то желательно некоторое дополнительное обсуждение этой проблемы.

На общем уровне мы можем сказать, что селективное смещение возникает, если вероятность включения в выборку отдельного наблюдения зависит от феномена, который мы можем объяснить. Есть множество причин, почему может происходить такое. Во-первых, это могло бы быть обусловлено схемой выборочного обследования. Например, если бы Вы брали интервью у людей в университетском ресторане и спросили, как часто они его посещают, то те, которые приходят туда каждый день, намного более вероятно оказались бы в выборке, чем те, которые посещают его раз в две недели. Во-вторых, к селективному смещению может приводить феномен «отказа от ответа». Например, люди, которые отказываются сообщить о своем доходе, как правило, имеют относительно высокий или относительно низкий уровень дохода. В-третьих, это обстоятельство могло бы быть обусловлено самопроизвольным выбором своих экономических характеристик. То есть, индивидуумы сами выбирают себе определенное состояние, например, рабочий, член профсоюза, работа в государственном секторе, неслучайным образом на основе экономических аргументов. В общем, те, кто извлекает наибольшую выгоду из выбора определенного состояния, более вероятно, будут в этом состоянии.

 

7.5.1. Природа проблемы выборочной селективности

Предположим, что мы интересуемся условным распределением переменной уі при заданных значениях других (экзогенных) переменных в векторе Хіто есть, f(yixi). Обычно мы формулируем его как функцию ограниченного числа параметров и заинтересованы в оценке этих параметров. Факт попадания в выборку (селективность) обозначается фиктивной переменной гг так, что уг и хг наблюдаются, если г і; = 1, и либо у і;, либо одновременно и j/j и не наблюдаемы, если гг = 0.

Все выводы, игнорирующие правило селекции являются (неявно) условными по г і: = 1. Однако, нас интересует условное распределение у і для данного хг, а не при условии гг = 1. Таким образом, мы можем сказать, что правило селекции наблюдений является игнорируемым (Rubin, 1976; Little and Rubin, 1987), если наложение этого условия не оказывает никакого влияния на исход процесса. То есть, если

і(Уіхі, п = 1) = /(уіхі). (7.86)

Если нас интересует только условное математическое ожидание уг для данного хг, то мы можем ослабить соотношение (7.86) до соотношения

Е{УгХг,П = 1}=Е{УгХг]. (7.87)

Утверждение, которое эквивалентно соотношению (7.86), есть

Р{гг = 1Хі, уг} = Р{гг = 1|хг}, (7.88)

которое говорит, что вероятность включения наблюдения в выборку не должна зависеть от уг, при условии, что она зависит от переменных вектора Хі. Это уже показывает некоторые важные результаты. Прежде всего, селективное смещение не возникает, если селекция зависит только от экзогенных переменных. Таким образом, если мы оцениваем уравнение заработной платы, которое в правой части содержит переменную семейного положения, то не имеет никакого значения, если более вероятно, что люди, состоящие в браке, выйдут из выборки, чем люди, не состоящие в браке. На более общем уровне из этого следует, что решение проблемы существования селективного смещения зависит от интересующего нас распределения.

Если правило селекции неигнорируемое, то при получении выводов его следует принимать во внимание. Как подчеркивалось в статье (Manski, 1989), в этом случае возникает фундаментальная проблема идентифицируемости. Чтобы увидеть это, отметим, что

Е{уіхг} = Е{уіхі, ті = \}Р{гі = lxi] +

+ Е{угхи гг = 0}Р{п = 0хг}. (7.89)

Если значения х{ наблюдаются, несмотря на т^, то вероятность, что Ті — 1. можно идентифицировать как функцию от х{ (например, используя модель бинарного выбора). Таким образом, Р{т{ = \хі и Р{гі = 0хі} можно идентифицировать, и тогда Е{ціхі,Гі — 1} также идентифицируемо по селективной выборке. Однако поскольку относительно Е{уіхі,Гі = 0} никакой информации данными не предоставляется, то без дополнительной информации или принятия дополнительных (нетестируемых) предположений, Е{уіхі} идентифицировать невозможно. Как отмечалось в статье (Manski, 1989), при отсутствии априорной информации проблема, связанная с селективностью выборки, является фатальной для получения вывода о Е{уіхі).

Если можно ограничить диапазон возможных значений Е{уіх{, г і — 0}, то для Е{уіхі] можно определить границы, что может оказаться полезным. Чтобы проиллюстрировать это, предположим, что нас интересует безусловное распределение Уі (значит, никакие переменные вектора х{ не фигурируют), и бывает, мы знаем, что это распределение нормально с неизвестным средним і и дисперсией, равной единице. Если 10\% наблюдений отсутствуют, то самые экстремальные случаи возникают, когда все эти 10\% наблюдений находятся в левом или в правом хвосте распределения. Используя свойства усеченного нормального распределения29^, можно получить, что

-1,75 <Е{уггг = 0}< 1,75,

так что

0,9Е{Уігг = 1} - 0,175 < Е{Уг} < 0,9Е{уггг = 1} + 0,175,

где Е{уігі = 1} можно оценить выборочным средним по селективной выборке. Таким образом, мы можем оценить верхнюю и нижнюю границы для безусловного среднего значения уі, не делая никаких предположений относительно правила селекции выборки. Цена, которую мы платим за это, состоит в необходимости делать предположения о форме распределения у і , которые не являются тестируемыми. Если нам интересны другие аспекты распределения у і для данного вектора х{, а не среднее значение этого распределения, то такие предположения могут не потребоваться. Например, если мы интересуемся медианой распределения, то мы можем получить

 

Для стандартной нормальной переменной у справедливо, что Р{у > 1,28} = 0,10 и Е{уу > 1,28} = 0(1,28)/0,10 = 1,75 (см. Приложение Б).

ее верхнюю й нижнюю границы из вероятности отбора элементов в выборку, не делая никаких предположений о виде распределения 30^. В работах (Manski, 1989, 1994) описаны дополнительные подробности и представлено обсуждение таких проблем.

Более общий подход в прикладной работе налагает дополнительную структуру на проблему, чтобы идентифицировать интересующие нас величины. Пусть

Е{уіхі} = gi(xi) (7.90)

и

Е{уіхі, n = l} = gi(xi) + 52(x;), (7.91)

которые не связаны ограничениями, пока мы не делаем никаких предположений о функциях gi и д2 • Предположения о виде функций д и д2 требуются, чтобы идентифицировать функцию которой мы интересуемся. Самое общее предположение — это предположение единственного показателя, которое состоит в том, что д2 зависит от х{ только через некоторый единственный показатель, например, х'ф. Этот показатель часто интерпретируется как латентная переменная:

Уі = 9і(хі) +єц, (7.92)

г* =ай32 + г2і, (7.93)

г і — 1, если г* > 0;   г і = 0 в противном случае, (7.94)

где Е{єцхі} — 0 и є2і не зависит от х{. Тогда справедливо, что

Е{уіхі, п = 1} = ді(хі) + Е{єііе2і > -х-/?2}, (7.95)

где последний член зависит от Хі только через единственный индекс x[j32. Таким образом, мы можем написать

Е{уіхі, n = l} = gi(xi) + д*2Ш2), (7.96)

для некоторой функции д2. Поскольку (32 можно идентифицировать с учетом знания процесса селекции выборки, при условии, что наблюдения относительно Хі доступны независимо от г і , то идентификация д достигается с помощью предположения, что эта функция

 

Вспомним, что медиана случайной переменной у определяется как значение т, для которой Р{у < га} = 0,5 (см. Приложение Б). Если 10\% наблюдений отсутствуют, то мы знаем, что га находится между (теоретическими) 40\%-ым и 60\%-ым квантилями наблюдаемого распределения. То есть, гаї < га < т2, с Р{у < mi = 1} = 0,4 и Р{у < т2г = 1} = 0,6.

не зависит от одной или более компонент вектора Хі (хотя эти компоненты имеют ненулевые коэффициенты в /З2). Это означает, что на функцию д наложены исключающие ограничения.

Из выражения (7.70) легко заметить, что тобит-модель II является частным случаем вышеупомянутой структуры, где ді(хі) = х'ф, а функция #2 задается в виде о2ф(хР?) j§(х'ф<і). Предположение, что Єі и Є2і являются независимо и одинаково распределенными, имеющими совместное нормальное распределение, приводит к виду функции #2- Кроме того, ограничение, что д является линейной функцией (в то время как д нет), означает, что модель идентифицируется даже при отсутствии исключающих ограничений на функцию ді(хі). Хотя практически из наложенных нулевых ограничений на вектор параметров /3 для эмпирической идентификации можно извлечь выгоду. Если распределение Ец и Е2\% не является нормальным, то выражение (7.96) все еще правомерно, и это используется во многих полупараметрических оценках модели с ограничениями при формировании выборки.

 

7.5.2. Полупараметрическое оценивание модели

с ограничениями при формировании выборки

Хотя в рамках этого текста нет возможности полностью обсудить полупараметрические оценки для моделей с ограниченными зависимыми переменными, в этом пункте параграфа мы проведем некоторое обсуждение этого вопроса на интуитивном уровне. Наряду с тем, что для получения полу параметрических оценок предположение о совместном нормальном распределении остатков Ец и Е2\% ослабляется, в общем, сохраняется предположение «единственного показателя». То есть, условное математическое ожидание остатка Ец при условии заданного правила селекции выборки (и при условии экзогенных переменных) зависит от объясняющих переменных вектора Хі только через единственный показатель х'ф2- Это требует, чтобы мы могли моделировать процесс выбора довольно однородным образом. Если наблюдения отсутствуют по разнообразным причинам, то предположение о единственном показателе, возможно, уже не будет приемлемым. Например, индивидуумы, которые не имеют работы, возможно, не работают, потому что их заработная плата сохранения работы оценивается слишком высокой (аргумент со стороны предложения), как в стандартной модели, но также и потому что предприниматели не интересуются их наймом (аргумент со стороны спроса). Эти два процесса не обязательно хорошо описываются с помощью модели единственного показателя.

Другое критическое предположение во всех полупараметрических подходах состоит в том, что существует, по крайней мере, одна переменная, которая входит в уравнение выбора (х^), и которая не входит в интересующее нас уравнение д(хг). Это означает, что мы нуждаемся в исключающем ограничении для функции чтобы идентифицировать модель. Это очевидно, поскольку мы никогда не были бы в состоянии отделить функцию д от функции д2, если обе зависят от одной и той же совокупности переменных и не накладывается никаких ограничений на вид функции. Поскольку константу в функции д нельзя отличить от константы в функции д2, то постоянный член в модели идентифицироваться не будет, что не является проблемой, если свободный член нас не интересует. Если свободный член в функции д представляет интерес, то его можно оценить (Heckman, 1990; Andrews, Schafgans, 1998) из наблюдений, для которых известно, что они должны иметь значения функции д2 близкие к нулю (индивидуумы, которые имеют высокие значения для единственного показателя х^/?2).

Большинство полупараметрических оценок являются двухшаго-выми оценками, точно так же как у Хекмана (Heckman, 1979). На первом шаге параметр единственного показателя /?2 оценивается полупараметрически, то есть, без наложения специфического условия на вид распределения остатка Є2і • Из этого строится оценка для единственного показателя так, чтобы на втором шаге неизвестная функция д2 оценивалась одновременно с функцией д (обычно постулируя некоторый общий вид функции 5і, как например, линейный). Простой способ аппроксимировать неизвестную функцию д^хфъ) состоит в применении аппроксимации некоторым рядом, например, полиномом от единственного показателя х'фъ • Альтернативный подход основан на исключении функции д2 (ж^) из модели с помощью рассмотрения разностей между наблюдениями, которые имеют близкие значения x^fo.

Все полупараметрические методы включают некоторые дополнительные условия регулярности и предположения. Обзор альтернативных методов оценивания для модели при селективности выборки, на интуитивном уровне, представлен в статье (Vella, 1998). Более подробное описание предоставлено в книге (Pagan, Ullah, 1999). Эмпирическая реализация приложений обычно проводится не напрямую; см. (Newey, Powell, Walker, 1990) или (Melenberg, van Soest, 1993).

Упражнения

Упражнение 7.1 (модели бинарного выбора)

Имея выборку из 600 женщин, состоящих в браке, мы интересуемся объяснением их участия на рынке труда с помощью экзогенных характеристик в векторе Хі (возраст, состав семьи, образование). Пусть уі = 1, если женщина і имею оплачиваемую работу и у і = 0 в противном случае. Предположим, что мы оцениваем линейную модель регрессии

Уі = х'ф + Єі

обычным МНК.

а.         Приведите две причины, почему соответствующая модель нере-

алистична.

В качестве альтернативы мы могли бы моделировать решение работать с помощью пробит-модели.

б.         Объясните пробит-модель.

в.         Приведите выражение для логарифмической функции правдо-

подобия пробит-модели.

г.          Как бы вы интерпретировали положительный коэффициент в

векторе /3 при компоненте «образование» в пробит-модели?

д.         Предположим, что вы рассматриваете женщину со значением

х'і/3 = 2. Каково ваше прогнозирование ее трудового статуса на

рынке уі? Почему?

е.         В какой степени логит-модель отличается от пробит-модели?

Теперь предположите, что мы имеем выборку из женщин, ко-

торые не работают {уі — 0), работают неполный рабочий день

{уі = 1), или работают полный рабочий день (уі = 2).

ж. Уместно ли в этом случае, специфицировать линейную модель в виде у і = х[(3 + Єі?

з.         Какую альтернативную модель можно применить вместо ли-

нейной модели п. ж, которая использует информацию, содер-

жавшуюся в работе с неполным рабочем днем по сравнению с

работой полный рабочий день?

и.         Как бы вы интерпретировали положительный коэффициент в

векторе (3 для образования в этой последней модели?

к. Уместно ли объединить два исхода Уі = 1 и уі = 2 и оценить модель бинарного выбора? Почему да или нет?

Упражнение 7.2 (пробит и тобит модели)

Чтобы прогнозировать спрос на свой новый инвестиционный фонд, банк интересуется вопросом, инвестируют ли люди часть своих сбережений в рисковые активы. С этой целью сформулирована тобит-модель следующего вида

у* = /?і + (32xi2 + (ЗзХіз + Єі,

где Хі2 обозначает возраст человека, х^з обозначает доход и сумму сбережений, которые инвестируются в рисковые активы. Модель задается соотношением

Уі = Уі,   если у*>0,

у і = 0     в противном случае.

Предполагается, что Єі есть НОНР(0, а2) и не зависит от всех объясняющих переменных.

Первоначально, банк интересуется только вопросом, вкладывает ли человек свой капитал в рисковые активы, что обозначается дискретной переменной di, которая удовлетворяет

di — 1,   если   у* > О,

di = 0    в противном случае.

а.         Получите выражение для вероятности, что di = 1, в виде функ-

ции ОТ Хі —  (1,Хг2,^гз)'  в СООТВЄТСТВИИ С ПрИВЄДЄННОЙ ВЬІШЄ

моделью.

б.         Покажите, что модель, которая описывает di, является пробит-

моделью с коэффициентами 71 = /Зі/а, 72 = (32/о', 73 = (Зз/а.

в.         Напишите логарифмическую функцию правдоподобия log £(7)

пробит-модели для di. Каковы общие свойства оценки макси-

мального правдоподобия 7 для 7 = (71, 72, 7з)'?

г.          Приведите общее выражение для асимптотической ковариаци-

онной матрицы ММП-оценки. Опишите, как ее можно оценить

в данном приложении.

л. Напишите условие первого порядка относительно 71 и используйте его для определения обобщенного остатка пробит-модели.

е. Опишите, как обобщенный остаток можно использовать для тестирования гипотезы, что пол человека не влияет на вероятность инвестирования в рисковые активы. (Сначала сформулируйте гипотезу, а затем опишите, как можно вычислить критическую статистику и, каково соответствующее распределение или критические значения.) К какому классу принадлежит этот тест? ж. Объясните, почему невозможно идентифицировать <т2, используя информацию только относительно di и Хі (как в пробит-модели).

з.         Возможно ли оценить 0 = (Pi, fa, РзУ и я"2 Для тобит-модели

(используя информацию относительно уі)? Напишите логариф-

мическую функцию правдоподобия этой модели.

и.         Предположим, что мы интересуемся гипотезой, состоящей в

том, что возраст не влияет на сумму рисковых сбережений.

Сформулируйте математически эту гипотезу. Объясните, как

эту гипотезу можно протестировать, используя критерий отно-

шения правдоподобия.

к. Также возможно протестировать гипотезу из п. и на основе результатов пробит-модели. Почему вы предпочли бы тест, используя результаты тобит-модели?

 

Упражнение 7.3 (тобит-модели — эмпирические)

Рассмотрим данные, используемые впп.7.3.3и7.4.4 при оценивании кривых Энгеля для алкогольных напитков и табака. В статье (Banks, Blundell, Lewbel, 1997) предлагается так называемая «квадратичная почти идеальная система спроса», которая подразумевает квадратичные кривые Энгеля вида

Wji = OLji + 0ji log Хі + Jji log2 Хі +Sji.

Этот вид функций имеет хорошее свойство, которое позволяет товарам быть предметами роскоши при низких уровнях дохода, в то время как они могут стать предметами первой необходимости при более высоких уровнях дохода (при общих расходах). Отвечая на следующие вопросы, используйте данные из TOBACCO.

а.         Снова оцените стандартную тобит-модель для алкоголяиз п. 7.3.3.

Назовите эту модель моделью А. Проверьте, что ваши резуль-

таты такие же, как в тексте.

б.         Расширьте модель, включив квадрат логарифма общих расхо-

дов, и оцените эту модель с помощью ММП.

в.         Протестируйте, нужно ли включать в модель квадратный член,

используя для этого тест Вальда и тест отношения правдоподо-

бия.

г.          Вычислите обобщенный остаток для модели А. Проверьте, что

он имеет нулевое среднее.

д.         Вычислите обобщенный остаток второго порядка для модели А,

как определено в выражении (7.60). Проверьте, что он также

имеет нулевое среднее.

е.         Реализуйте тест множителей Лагранжа в модели для проверки

гипотезы, что квадратный член log2 х является статистически

незначимым.

ж. Выполните МЛ-тест на наличие в модели А гетероскедастичности, обусловленной возрастом и числом взрослых, з. Протестируйте на нормальность модель А.

 

Упражнение 7Л (тобит-модели)

Один из ведущих университетов требует от всех абитуриентов, которые подали заявления на прием, чтобы они сдали вступительный экзамен. Абитуриентов, которые получают менее 100 баллов, в университет не принимают. Для абитуриентов, которые получают свыше 100 баллов, баллы регистрируются, после чего из этой группы университет выбирает абитуриентов для приема в университет. У нас имеется выборка из 500 потенциальных студентов, которые сдавали свои вступительные экзамены в 1996 году. Для каждого студента мы имеем результат экзамена в виде:

«отклонен», если меньше 100 баллов, или

баллы, если они равны 100 или больше.

Кроме того, мы наблюдаем дополнительные характеристики каждого кандидата в студенты, включая образование родителей, пол и среднюю оценку в средней школе.

Декан интересуется соотношением, связывающим эти дополнительные характеристики с баллами на вступительном экзамене. Он специфицирует следующую модель

у = А, + х'фх + єі,    єі ~ Я ОЯ Р(0, а2), Уі = УЇ,   если   у* > 100;

= «отклонен»,    если   у* < 100,

где у і — наблюдаемые баллы абитуриента г, а Хі вектор дополнительных характеристик (исключая свободный член).

а. Покажите, что приведенную выше модель можно написатьв виде стандартной тобит-модели (модели тобит I).

б.         Сначала декан строит регрессию у і по Хі и константе (с помощью

МНК), используя наблюдаемые баллы от 100 и выше (уі > 100).

Покажите, что этот подход не приводит к состоятельным или

несмещенным оценкам для вектора неизвестных параметров (3.

в.         Объяснить подробно, как можно оценить состоятельно вектор

параметров (3 = (/?о, Р[У, используя только наблюдаемые баллы.

г.          Объясните, как вы оценили бы эту модель, используя все на-

блюдения. Почему эта оценка предпочтительнее оценки из п. в?

(Никаких доказательств или выкладок не требуется.)

д.         Декан рассматривает спецификацию модели тобит II (модель

с выборочной селективностью). Опишите эту модель. Действи-

тельно ли эта модель подходит для решения вышеупомянутой

проблемы?

8         

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 |