Имя материала: Путеводитель по современной эконометрике

Автор: Вербик Марно

Оценивание методом максимального правдоподобия и спецификационные тесты*

 

В предыдущей главе мы уделили внимание обобщенному методу моментов. В подходе ОММ в рамках анализируемой модели делаются предположения о некотором числе математических ожиданий (моментов), которые включают наблюдаемые данные и подлежащие оцениванию неизвестные параметры. В этой главе мы рассмотрим метод оценивания, который опирается, как правило, на более сильные предположения, поскольку этот метод требует знания общего вида всего распределения анализируемых случайных величин, а не только некоторого числа их моментов. Тогда для оценивания неизвестных параметров мы можем использовать тот факт, что распределение переменной Ці, условное по совокупности переменных Хі , известно вплоть до небольшого количества неизвестных параметров, и подбирать эти параметры таким способом, чтобы получающееся распределение «насколько возможно лучше соответствовало наблю-

 

Имеются в виду статистические критерии проверки гипотез об общем виде анализируемой модели, т. е. о правильности ее спецификации (примеч. научн. ред. перевода).

даемым данйым» (что означают последние слова более точно будет определено ниже). Это и есть общая формулировка метода максимального правдоподобия.

В определенных приложениях и моделях обычно накладываются «распределительные» предположения (т. е. предположения об общем виде распределения анализируемых случайных величин), такие как, например, предположение нормальности, поскольку процедуры оценивания, которые не требуют таких предположений, сложны или недоступны. Если распределительные предположения корректны, то оценка максимального правдоподобия при слабых условиях регулярности состоятельна и асимптотически нормальна. Более того, реализация предположений о распределении проводится таким образом, чтобы полученная при этом оценка была асимптотически эффективной. То есть состоятельные альтернативные оценки будут иметь асимптотические ковариационные матрицы, по крайней мере, больше (в матричном смысле), чем асимптотическая ковариационная матрица оценки максимального правдоподобия.

Эта глава начинается с введения в оценивание методом максимального правдоподобия. В параграфе 6.1 описывается подход, начиная с некоторых простых примеров и заканчивая некоторыми общими результатами и обсуждением. Поскольку распределительные предположения являются, как правило, критическими для состоятельности и эффективности оценки максимального правдоподобия, важно иметь возможность протестировать эти предположения. Тестирование обсуждается в параграфе 6.2, в то время как параграф 6.3 посвящен реализации тестов множителей Лагранжа для специфических гипотез, главным образом, в контексте линейной модели регрессии. В параграфе 6.4 изучается связь с обобщенным методом моментов (ОММ), чтобы ввести метод оценивания квази-максимального правдоподобия и расширить класс тестов множителей Лагранжа до тестов, основанных на моментных условиях. Знание вопросов, освященных в параграфе 6.1, является критическим для понимания главы 7 и некоторых определенных пунктов в главах 8, 9 и 10. Оставшиеся параграфы этой главы охватывают обсуждение проблем, касающихся тестирования спецификаций моделей, и отчасти более технические. Они являются предпосылками для некоторых специфических параграфов главы 7, которые можно пропустить без потери целостности.

6.1. Введение в метод

максимального правдоподобия

Отправной точкой оценивания методом максимального правдоподобия является предположение о том, что распределение наблюдаемого явления (эндогенной переменной) известно, за исключением конечного числа неизвестных параметров. Эти параметры оцениваются такими значениями, которые придают наблюдаемым значениям наивысшую вероятность, наивысшее правдоподобие. Таким образом, метод максимального правдоподобия обеспечивает способ оценивания совокупности параметров, характеризующих распределение, если мы знаем, или предполагаем, что мы знаем общий вид этого распределения. Например, мы могли бы охарактеризовать распределение некоторой переменной уі (для заданного вектора объясняющих переменных хг) нормальным распределением со средним, равным /?і + /?2#г, и дисперсией а2. Это представляло бы простую линейную модель регрессии с нормальными остатками.

 

6.1.1. Некоторые примеры

Принцип максимального правдоподобия наиболее легко вводится в дискретной постановке, где у і имеет только конечное число исходов. В качестве примера рассмотрим большую урну, заполненную красными и желтыми шарами. В этой урне нас интересует доля р красных шаров. Чтобы получить информацию относительно р, мы извлекаем случайную выборку из N шаров (и не проверяем все другие шары). Обозначим у і — 1, если шар і является красным и у і = О в противном случае. Тогда по предположению ^ справедливо, что

Р{Уі = 1}=р.

Предположим, что наша выборка содержит N =      у і красных

і

шаров и N — N желтых шаров. Вероятностью получения такой выборки (в заданном порядке) задается в виде

P{Ni красных шаров, N — N желтых шаров} = pNl (1 — p)N~Nl.

(ел)

 

Мы предполагаем, что выборка производится «с возвращением». Альтернативно, можно предположить, что число шаров в общей совокупности является бесконечно большим, так что предыдущее извлечение не влияет на вероятность извлечения красного шара.

Выражение (6.1), интерпретируемое как функция от неизвестного параметра р, называется функцией правдоподобия. Оценивание методом максимального правдоподобия неизвестного параметра р означает, что мы выбираем такое значение для р, что вероятность (6.1) является максимальной. Это значение является оценкой методом максимального правдоподобия (ММП-оценкой). В вычислительных целях часто более удобно максимизировать (натуральный) логарифм вероятности (6.1), который является монотонным преобразованием. Это приводит к логарифмической функции правдоподобия

log L(p) = N, log (p) + (N- JVi) log (1 - p). (6.2)

На рисунке 6.1 для выборки объема 100 с 44 красными шарами (iVi = 44) представлен график логарифмической функции правдоподобия для значений параметра р от 0,1 до 0,9. Максимизация логарифмической функции правдоподобия (6.2) дает условие первого порядка

 

dp        р        1 — р

из которого получается решение для неизвестного параметра р, являющееся оценкой методом максимального правдоподобия (ММП-оценкой)

Р=^. (6-4)

Таким образом, ММП-оценка соответствует выборочной доле красных шаров, и вероятно, также соответствует вашей наилучшей догадке о параметре р, основанной на извлеченной выборке. В принципе мы также должны проверить условие второго порядка, чтобы удостовериться, что решение, которое мы имеем, соответствует максимуму, хотя в данном случае это очевидно из рисунка 6.1. Условие второго порядка задается в виде

d2 log Цр)       iVi N-N,

dp*      =-^-(I37)2<0' (6-5)

действительно показывая, что мы нашли максимум.

Таким образом, интуитивное понимание принципа максимального правдоподобия следующее. Из (предполагаемого) распределения данных (например, уг) мы определяем правдоподобие наблюдения данной выборки, наблюдаемой случайно, как функцию неизвестных параметров, характеризующих это распределение. Затем в качестве наших ММП-оценок мы выбираем те значения для неизвестных параметров, которые дают нам самое высокое правдоподобие*). Ясно, что в данном примере этот подход имеет смысл. Полезность метода максимального правдоподобия является более общей, поскольку можно показать, что при некоторых подходящих условиях регулярности ММП-оценка, является состоятельной. ММП-оценка имеет и некоторые другие привлекательные свойства, которые мы обсудим ниже.

В качестве следующего примера рассмотрим простую модель регрессии

у г = /?1 + /?2^г + ^г, (6.6)

для которой мы делаем предположения (А1)-(А4) из главы 2. Эти предположения утверждают, что остатки є і имеют нулевые средние, гомоскедастичны, не имеют никакой автокорреляции, и не зависят от всех Хі [г — 1,... , n). В то же время эти предположения подразумевают, что Е{уіхі} — (Зі + fox і и У{уіхг} — а2 и не предполагают

 

Именно тех выборочных данных, которыми мы располагаем (примеч. научн. ред. перевода).

какого-либо специфического распределения для в{. Таким образом, чтобы сделать возможным оценивание методом максимального правдоподобия, мы должны к вышеперечисленным предположениям добавить предположение о виде распределения. Самое общее предположение заключается в том, что остатки є і имеют нормальное распределение, как в предположении (А5) из главы 2. Мы можем суммировать эти предположения, говоря, что остатки є і являются независимыми и одинаково нормально распределенными (НОНР) с нулевым средним и дисперсией <т2, или Єі ~ HOHP{Q, a2).

Однако, вероятность наблюдения специфического исхода у для случайной величины у і равна нулю для любого у, поскольку случайная величина у і имеет непрерывное распределение. Поэтому вклад наблюдения і в функцию правдоподобия равен значению функции плотности вероятностей в наблюдаемой точке у і . Для нормального распределения (см. Приложение Б) вклад наблюдения і в функцию правдоподобия есть

 

/№; А * ] = 7Ш72 ехр 12     V2        /' (6-7)

где /3 = (/?i,/?2)'. Из-за предположения независимости совместная плотность распределения уі, ... , удг (условная по X = (хі, ... , хдг)') задается как

7V

ДУ1,..., yNX- /3, a2) = Ц f(yiXi; /3, a2) =

г=і

 

= Шр]   ПЄХР(-2        *          /' (6'8)

Функция правдоподобия идентична функции плотности уі, ... , удг, но рассматривается как функция неизвестных параметров /3, а2. Следовательно, мы можем записать логарифмическую функцию правдоподобия как

1      Т(о     2 N і      /о     2ч      1    (Уі 'Pi ~ foXi)2 /лоч

log L(P, a ) - -— log (2trtz) - - 2^        —2       . (6.9)

г=і

Поскольку первый член в этом выражении не зависит от вектора неизвестных параметров /3, то легко заметить, что максимизация функции логарифма правдоподобия (6.9) относительно /Зі и /З2 соответствует минимизации остаточной суммы квадратов S((3), которая определена в параграфе 2.1. Таким образом, оценки максимального правдоподобия для параметров /Зі и fa идентичны МНК-оценкам. Обозначая эти оценки через fa и fa, и определяя остатки

Єі = Уг - Ді - Д^г,

мы можем продолжить и максимизировать логарифмическую функцию правдоподобия (6.9) относительно неизвестной дисперсии а2. Заменяя ММП-решениями параметры fa и fa и дифференцируя2^ относительно сг2 мы получаем условие первого порядка

N 2тг

4zS = °- (6-ю)

2 2тга2     2 бт4 i=i

Решение уравнения (6.10) относительно неизвестной дисперсии а2 дает ММП-оценку для а2 в виде

 

1-і

Эта оценка является состоятельной оценкой для дисперсии а2. Однако она не соответствует несмещенной оценке дисперсии а2, которая была получена из МНК-оценки (см. главу 2) как

1 N 5 ~ N-К ^-Є*'

2 = 1

где jftT — число регрессоров (включая свободный член). Различие состоит в коррекции степеней свободы в s2. Поскольку s2 является несмещенной оценкой, то в конечных выборках ММП-оценка будет смещенной. Асимптотически (N — K)/N сходится к 1, и смещение устраняется, так что ММП-оценка является состоятельной, и коррекция степеней свободы будет проблемой малых выборок.

2) Мы будем рассматривать дисперсию сг2 как неизвестный параметр, так что мы дифференцируем относительно сг2 , а не а. Получающаяся оценка инвариантна по отношению к такому выбору.

В этом специфическом примере ММП-оценка для вектора неизвестных параметров /3 воспроизводит МНК-оценку случайно и, следовательно, имеет свойства МНК-оценки для малых выборок. Тот факт, что ММП-оценка дисперсии а2 отклоняется от несмещенной оценки s2, указывает на то, что это не является общим результатом.

В малых выборках несмещенная оценка s имеет лучшие свойства, чем ММП-оценка. Во многих существенных случаях нельзя показать, что ММП-оценка будет несмещенной, а ее свойства для малых выборок неизвестны. В общем, это означает, что преимущества подхода максимального правдоподобия могут быть обоснованы только в асимптотическом (по N —► оо) смысле, и в частности, ММП-оценка является состоятельной и асимптотически эффективной. Кроме того, как правило, для ММП-оценки невозможно получить аналитическое решение, за исключением ряда специальных случаев (как те, которые рассматривались выше).

Если остатки Єі в этом примере не подчиняются нормальному закону распределения или гетероскедастичны, то логарифмическая функция правдоподобия, заданная выражением (6.9), некорректна, то есть, не соответствует истинному распределению переменной уі при заданном векторе объясняющих переменных х^. В таком случае оценка, полученная максимизацией некорректной логарифмической функции правдоподобия (6.9), в строгом смысле не является ММП-оценкой, и нет никакой гарантии, что такая оценка будет иметь хорошие свойства. В некоторых частных случаях состоятельность может все еще достигаться максимизацией некорректной функции правдоподобия, тогда такую оценку обычно называют квази-ММП-оценкой. В данном примере этот момент иллюстрируется тем, что (квази-) ММП-оценка для вектора неизвестных параметров /3 равна МНК-оценке 6, которая является состоятельной при намного более слабых условиях. И опять это не является общим результатом, и, в общем, на такой аргумент защиты применения максимального правдоподобия полагаться не следует. Некоторое дополнительное обсуждение такой проблемы представлено в параграфе 6.4.

 

6.7.2. Общие свойства

Чтобы определить ММП-оценку в более общей ситуации, предположим, что мы заинтересованы в условном распределении переменной уі при заданном векторе объясняющих переменных Х{ Пусть функция плотности вероятностей или функции вероятностной меры задается как f{y\%xi 9), где 9 — К-мерный вектор неизвестных параметров и предположим, что наблюдения взаимно независимы. В этой ситуации функция совместной плотности распределения вероятностей или вероятностной меры выборки 2/1, ... , т/iv (условная

по X — (хі, ..., xjsfY) задается как3)

n

f(yu...1yNXie) = l[f(yixi-90).

i=l

Тогда функция правдоподобия для имеющейся выборки задается в виде

TV n

L(\%, Х) = Ц Ь{(ву{, Хі) = П /(уіхі; 0),

i=l і=1

и является функцией от вектора неизвестных параметров 9. Для некоторых целей удобно использовать вклады правдоподобия, обозначаемые как Ьі(9уі,хг), которые отражают, какой вклад в функцию правдоподобия вносит наблюдение г. ММП-оценка 9 для вектора неизвестных параметров 9 есть решение

7V

max log L{9) = max ^ log Ь{(9), (6.12)

г=і

где log L{9) — это логарифмическая функция правдоподобия, и для простоты мы исключили другие аргументы. Условия первого порядка для такой проблемы подразумевают, что

Подпись: NПодпись: d log L(9)

89

i=l

дlogЬг{9)

д9      a    —       w о

 

0. (6.13)

где |^ указывает, что выражение вычисляется в точке 9. Если функция логарифма правдоподобия является глобально вогнутой, то существует единственный глобальный максимум, и этими условиями первого порядка ММП-оценка определяется однозначно. ММП-оценку можно определить аналитически только в частных случаях. В общем, требуется численная оптимизация (для обсуждения см. (Greene, 2000, Section 5.5)). К счастью для многих стандартных моделей в последних пакетах программ имеются эффективные алгоритмы.

3) Мы используем /(•) как общее обозначение для функции (многомерной) плотности вероятностей или функции вероятностной меры.

Для удобства обозначений мы обозначим первые производные индивидуальных вкладов в логарифмическую функцию правдоподобия, также известных как «метки» (scores), в виде

(6.14)

О

де

так что условия первого порядка формулируются как

n

$>(*) = о.

г=1

Это говорит о том, что выборочные средние К меток, вычисленные при #, равном ММП-оценке    должны равняться нулю.

При условии, что функция правдоподобия специфицирована корректно, при слабых условиях регулярности можно показать, что оценка максимального правдоподобия:

состоятельная для #(plim 9 = 9);

асимптотически эффективная (то есть, асимптотически ММП-оценка имеет «наименьшую» дисперсию среди всех состоятельных асимптотически нормальных оценок);

асимптотически нормально распределенная, согласно

y/N{9-9)^M{0,V), (6.15)

где V — асимптотическая ковариационная матрица. Ковариационная матрица V определяется видом логарифмической функции правдоподобия, и можно показать, что ковариационная матрица равна

 

Член в круглых скобках является математическим ожиданием матрицы вторых производных и отражает кривизну функции логарифма правдоподобия. Ясно, что если логарифмическая функция правдоподобия сильно вогнутая в своем максимуме, то вторая производная будет большой, а дисперсия малой, и ММП-оценка будет относительно точнее. Если функция будет менее вогнута, то дисперсия будет больше. Симметрическая матрица

 

известна как информационная матрица (Фишера). Говоря нестрого, информационная матрица отражает математическое ожидание количества информации о векторе неизвестных параметров содержащегося в произвольном наблюдении. Учитывая асимптотическую эффективность ММП-оценки, обращение информационной матрицы 1(e)-1 обеспечивает более низкую границу асимптотической ковариационной матрицы по сравнению с любой состоятельной асимптотически нормальной оценкой для вектора неизвестных параметров 9. ММП-оценка асимптотически эффективна, поскольку она достигает своей границы, часто называемой нижней границей Крамера—Рао.

На практике ковариационную матрицу V можно оценить состоятельно, заменяя оператор математических ожиданий выборочным средним, а неизвестные параметры ММП-оценками. Таким образом,

Подпись:

(6.18)

где мы сначала берем производные, и в результате заменяем вектор неизвестных параметров 9 ММП-оценкой 9. Подстрочная буква Г используется, чтобы подчеркнуть, что оценка для V основана на гессианской матрице, матрице вторых производных.

Если функция правдоподобия специфицирована корректно, то можно показать, что матрица

J(0) = Е{зг(в)3г(в)'}

(6.19)

где Si(9) определяется выражением (6.14), идентична информационной матрице 1(9). В параграфе 6.4 мы возвратимся к возможности неправильной спецификации функции правдоподобия и к тому, что матрицы 1(9) и J (в) различны. В настоящий момент для обоих определений мы используем обозначение 1(9). Результат (6.19) указывает, что матрицу V можно оценить также из производных первого порядка логарифмической функции правдоподобия в виде

(6.20)

где подстрочными буквами гр отражается тот факт, что оценка использует скалярное произведение градиентов (первых производных). Эта оценка для V предлагалась в работе (Berndt, Hall, Hall, Hausman, 1974) и иногда упоминается как оценка ВННН. Важно отметить, что вычисление выражения (6.20) требует вычислений индивидуальных вкладов правдоподобия. Вообще говоря, две оценки ковариационной матрицы Vt и Vrp не будут идентичны. Как правило, первая оценка имеет несколько лучшие свойства для малых выборок.

Чтобы проиллюстрировать принцип максимального правдоподобия, в п. 6.1.3 снова рассматривается простой пример урны с шарами, тогда как в п. 6.1.4 обсуждается линейная модель регрессии с нормальными остатками. В главе 7 представляются более интересные модели, которые, как правило, требуют оценивания методом максимального правдоподобия. В остальной части этой главы обсуждаются проблемы, касающиеся тестирования спецификации и неверной спецификации модели. Несмотря на то, что эти проблемы довольно важные, они несколько более технические, поэтому некоторые читатели могут пропустить эти разделы при первом чтении и продолжить чтение с главы 7. В параграфе 6.4 также обсуждается соотношение между оцениванием ОММ и оцениванием методом максимального правдоподобия более подробно и объясняется оценивание квази- методом максимального правдоподобия. Это имеет главным образом теоретическую ценность, хотя и полезно для параграфа 8.10, в котором будут обсуждаться модели условной гетероскедастичности.

 

6.1.3. Пример (продолжение)

Чтобы разъяснить общие формулы предыдущего подраздела, снова рассмотрим пример, касающийся урны с красными и желтыми шарами. В этой модели вклад в логарифмическую функцию правдоподобия наблюдения і имеет вид

log Li(p) = уі ogp + (1 - уі) log (1 - p),

с первой производной

d log Lj(p) _Ш _ 1 ~ Уг

dp        р     1 — р

Отметим, что математическое ожидание первой производной равно нулю, поскольку Е{уі} — р. Вторая производная отрицательна

d2 log Lj(p) = уі_ _ 1-уі

dp2     p2    (1 — p)2'

и имеет математическое ожидание

Г   д21оёЩ} _ Е{Уі} | 1-Е{уі} _ 1 |    1          1

dp2     J       р2        (1 — р)2     р    1—р    р(1 — р)

Из этого следует, что асимптотическая дисперсия оценки максимального правдоподобия р задается в виде V = р(1 — р) и мы имеем, что

 

Этот результат можно использовать для построения доверительных интервалов или для тестирования гипотез. Например, гипотезу Hq : р — ро можно протестировать, используя критическую статистику

р-ро (6.21)

Я1 -р)

N

которая, при нулевой гипотезе, имеет асимптотическое стандартное нормальное распределение. Она подобна обычным ^-критериям, обсужденным в контексте линейной модели. 95\%-ый доверительный интервал задается в виде

 

так что с выборкой 100 шаров, из которых 44 являются красными (р = 0,44), с 95\%-ым доверием мы можем заключить, что р находится между 0,343 и 0,537. Когда N = 1000 с 440 красными шарами, интервал уменьшает до (0,409; 0,471). В этом специфическом приложении ясно, что нормальное распределение является аппроксимацией, основанной на теории больших выборок, и никогда не будет справедливым для малых выборок. В любой конечной выборке р может принимать только конечное число различных исходов в диапазоне [0, 1]. Фактически, в этом примере распределение для малой выборки Ni = Np, как известно, является биноминальным с параметрами JV и р, и этот результат можно использовать вместо вышеизложенного.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 |