Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

4.5. выбор функции: тесты бокса—кокса

Возможность построения нелинейных моделей, как с помощью их приведения к линейному виду, так и путем использования нелинейной регрессии, значительно повышает универсальность регрессионного анализа, но и усложняет задачу исследователя. Нужно спросить себя, будете ли вы начинать с линейной зависимости или с нелинейной и если с последней, то какого типа.

Если вы ограничиваетесь парным регрессионным анализом, то можете построить график наблюдений у и х как диаграмму разброса, и это поможет вам принять решение. В примере в разделе 4.2 было очевидно, что зависимость является нелинейной, и не потребовалось бы большого труда, чтобы убедиться, что уравнение вида (4.3) дает почти точное соответствие. Однако обычно все оказывается не так просто. Часто несколько разных нелинейных функций приблизительно соответствуют наблюдениям, если они лежат на некоторой кривой. Однако в случае множественного регрессионного анализа невозможно даже построить график.

При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной процедура выбора достаточно проста. Наиболее разумным является оценивание регрессии на основе всех вероятных функций, которые можно вообразить, и выбор функции, в наибольшей степени объясняющей изменения зависимой переменной. Если две или более функции подходят примерно одинаково, то вы должны представить результаты для каждой из них.

Из примера в разделе 4.1 видно, что линейная функция объясняет 64\% дисперсии у, а гиперболическая функция (4.3) — 99,9\%. В этом примере мы без колебаний выбираем последнюю. Однако если разные модели используют разные функциональные формы, то проблема выбора модели становится более сложной, так как нельзя непосредственно сравнить коэффициенты Л2 или суммы квадратов отклонений. В частности — и это наиболее общий пример для данной проблемы, — нельзя сравнить эти статистики для линейного и логарифмического вариантов модели.

Например, линейная регрессия между расходами на жилье и личным располагаемым доходом для США (см. упражнение 2.2) имела коэффициент R2 = 0,985, а сумма квадратов отклонений (СКО) была равна 385,2. Для двойной логарифмической версии модели, когда логарифмы берутся по обеим осям (см. упражнение 4.1), соответствующие значения были равны 0,9915 и 0,02. Во втором случае, СКО значительно меньше, но это ничего не решает. Значения log у значительно меньше соответствующих значений у, поэтому неудивительно, что остатки также значительно меньше. Величина Л2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии у, а в другом — объясненную регрессией долю дисперсии logy. Если для одной модели коэффициент Л2 значительно больше, чем для другой, то вы сможете сделать оправданный выбор без особых раздумий, однако, если значения R2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.

В этом случае следует использовать стандартную процедуру, известную под названием теста Бокса—Кокса (Box, Сох, 1964). Если вы хотите только сравнить модели с использованием у и log у в качестве зависимой переменной, то можно использовать вариант теста, разработанный Полом Зарембкой (Zarembka, 1968). Данный тест предполагает такое преобразование масштаба наблюдений у, при котором обеспечивалась бы возможность непосредственного сравнения СКО в линейной и логарифмической моделях. Процедура включает следующие шаги:

1.         Вычисляется среднее геометрическое значений у в выборке. (Оно со-

впадает с экспонентой среднего арифметического logy, поэтому если вы

уже оценили логарифмическую регрессию и регрессионная программа

выдает вам распечатку среднего значения зависимой переменной, то не-

обходимо вычислить лишь экспоненту от этого значения.)

2.         Пересчитываются наблюдения у, они делятся на это значение, то есть

у* = у//(Среднее геометрическое у),

где у/ — пересчитанное значение для /-го наблюдения.

Оценивается регрессия для линейной модели с использованием у* вместо у в качестве зависимой переменной и для логарифмической модели с использованием log (у*) вместо log у; во всех других отношениях модели должны оставаться неизменными. Теперь значения СКО для двух регрессий сравнимы, и, следовательно, модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие.

Для того чтобы проверить, не обеспечивает ли одна из моделей значимо лучшее соответствие, можно вычислить величину (Т/2) log Z, где Т— число наблюдений, отношение значений СКО в пересчитанных регрессиях, и взять ее абсолютное значение (т. е. игнорировать знак «минус», если он имеется). Эта статистика имеет распределение у} с одной степенью свободы. Если она превышает критическое значение у} при выбранном уровне значимости, то делается вывод о наличии значимой разницы в качестве оценивания.

Пример

Тест будет выполнен как для данных о расходах на продукты питания, так и для данных о расходах на жилье в США. Логарифмические регрессии для этих двух видов благ [уравнение (4.18), упражнение 4.1] показали, что средние значения log у составляют 4,8422 для расходов на питание и 4,6662 для расходов на жилье. Масштабирующие множители равны г4»8422 и еА>ЬЬЬ2 соответственно. В табл. 4.4 приведены значения СКО для линейной и двойной логарифмической регрессии, при этом использованы пересчитанные данные для двух видов благ.

 

 

 

Таблица 4.4

 

Расходы на питание

Расходы на жилье

Линейная регрессия

0,0119

•0,0341

Логарифмическая

0,0119

0,0221

регрессия

 

Из табл. 4.4 видно, что для регрессии расходов на питание соответствие одинаково хорошо в обоих случаях. В случае расходов на жилье логарифмическая регрессия дает более точное соответствие. Логарифм отношения значений СКО для двух регрессий равен здесь 0,4337, и, следовательно, после умножения на 12,5 тестовая статистика составляет 5,42. Критический уровень \%2 с одной степенью свободы составляет 3,84 при 5-процентном уровне значимости и 6,64 — при однопроцентном уровне (см. табл. А.4), так что в данном случае соответствие будет значимо различным для двух регрессий только при 5-процентном уровне. Эти результаты могут показаться несколько неожиданными, так как можно предположить, что с точки зрения теории модель с логарифмами является более совершенной. Однако период выборки настолько мал, что кривизна функции Энгеля, вероятно, не успеет проявиться, поэтому линейная функция может обеспечить почти столь же хорошее соответствие, как и нелинейная функция [.

 

Упражнение

1 Регрессии, пересчитанные по методу Зарембки, могут быть использованы только для того, чтобы решить, какую предпочесть модель. Не надо обращать внимание на коэффициенты, важны только значения СКО. Коэффициенты следует определять непосредственно из непересчитанного варианта выбранной модели.

4.6. Оцените еще раз линейную и логарифмическую регрессии для вашего товара, выполнив сначала пересчет по методу Зарембки, а затем проверьте, имеется ли значимое различие в их качестве.

Приложение 4.1

 

Более общий тест Бокса—Кокса1

 

Исходная процедура Бокса—Кокса является более общей, чем вариант, описанный в разделе 4.5. Дж. Бокс и Д. Кокс заметили, что у и log у — это специальные случаи функции (ух— 1)/Х, из которой получается функция у, когда X = 1, и функция log у (предельный случай), когда X стремится к нулю. Нет оснований предполагать, что одно из этих значений X является оптимальным, а есть смысл попробовать целый ряд значений с тем, чтобы определить, какое из них дает минимальное значение СКО (после выполнения пересчета по методу Зарембки). Эта процедура известна под названием решетчатого поиска. Для нее нет специальных возможностей в типовых эко-нометрических компьютерных программах, но тем не менее выполнить ее нетрудно. Если вы предполагаете использовать 10 значений X, то необходимо задать в регрессионном пакете 10 новых зависимых переменных, используя функциональную форму и различные значения X, после предварительного пересчета по методу Зарембки. Затем вы находите регрессию между каждой из них и независимыми переменными. В табл. 4.5 приведены результаты оценивания регрессий для расходов на питание и жилье для различных значений X. Для оценивания регрессий личный располагаемый доход был преобразован так же, каку, за исключением пересчета по методу Зарембки. Такое преобразование не обязательно, при желании вы можете оставить переменную (или переменные) в правой части в линейной форме или же произвести для них одновременный отдельный решетчатый поиск другого значения X.

1 Данное приложение содержит материал повышенной сложности, и его в принципе можно пропустить.

Таблица 4.5

Результаты показывают, что оптимальное значение X для продуктов питания составляет приблизительно 0,5, что говорит о примерно одинаковой приемлемости линейной и логарифмической регрессий. В случае расходов на жилье регрессия обратных величин переменных на первый взгляд дает более точное соответствие по сравнению с линейной и логарифмической регрессией. Однако, как будет видно из следующих разделов, рассматриваемая простая спецификация модели имеет столько недостатков, что детальное исследование оптимальной математической формы на этом этапе не гарантировано.

Наряду с получением точечной оценки для X можно также получить доверительный интервал, однако данная процедура выходит за рамки этой книги. (Если вас интересует этот вопрос, обратитесь к работе Дж. Спицера [Spitzer, 1982, pp. 307-313].)

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |