Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

5.5. мультиколлинеарность

 

Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена — мала, то в итоге можно получить вполне хорошие оценки.

Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.

Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мульти-коллинеарности.

 

Что можно предпринять в этом случае?

 

Различные методы, которые могут быть использованы для смягчения муль-тиколлинеарности, делятся на две категории: к первой категории относятся попытки повысить степень выполнения четырех условий, обеспечивающих надежность оценок регрессии; ко второй категории относится использование внешней информации. Если сначала использовать возможные непосредственно получаемые данные, то, очевидно, было бы полезным увеличить число наблюдений. Если вы применяете данные временных рядов, то это можно сделать путем сокращения продолжительности каждого периода времени. Например, при оценивании уравнений функции спроса в упражнениях 5.3 и 5.6 можно перейти с использования ежегодных данных на поквартальные данные. После этого вместо 25 наблюдений их станет 100. Это настолько очевидно и так просто сделать, что большинство исследователей, использующих временные ряды, почти автоматически применяют поквартальные данные, если они имеются, вместо ежегодных данных, даже если проблема мультиколли-неарности не стоит, просто для сведения к минимуму теоретических дисперсий коэффициентов регрессии. В таком подходе существуют, однако, и потенциальные проблемы. Можно привнести или усилить автокорреляцию (см. главу 7), но она может быть нейтрализована. Кроме того, можно привнести (или усилить) смещение, вызванное ошибками измерения (см. главу 8), если поквартальные данные измерены с меньшей точностью, чем соответствующие ежегодные данные. Эту проблему не так просто решить, но она может оказаться несущественной.

Если вы используете данные перекрестной выборки и находитесь на стадии планирования исследования, то можно увеличить точность оценок регрессии и ослабить проблему мультиколлинеарности просто за счет большего расхода средств на увеличение размера выборки. Однако такой подход имеет уменьшающуюся предельную отдачу, поскольку стандартные отклонения коэффициентов регрессии обратно пропорциональны величине » в то время как расходы прямо пропорциональны п.

Столь же важно, если вы используете данные перекрестной выборки и находитесь на стадии планирования исследования, максимизировать дисперсию наблюдений независимых переменных в выборке, например путем расслоения выборки. (Анализ теории и методов организации выборок, см., например, в работах Л. Киша [Kish, 1965] или К. Мозера и Г. Калтона [Moser, Kalton, 1979].)

Далее, можно сократить величину о2. Случайный член включает в себя объединенный эффект всех переменных, оказывающих влияние на величину уу которые не включены явно в уравнение регрессии. Если вы допускаете мысль о том, что важная переменная могла быть опущена и, следовательно, оказывает влияние на и, то можно сократить величину о2, если добавить эту переменную в уравнение регрессии.

Если, однако, новая переменная линейно связана с одной или несколькими переменными, уже включенными в уравнение, то ее введение может еще больше усугубить проблему мультиколлинеарности. Мы вернемся к обсуждению этого вопроса, который представляет большую практическую важность, в конце следующей главы после рассмотрения ошибок спецификации.

Наконец, об использовании самого простого метода. Если вы действительно имеете возможность собрать дополнительные данные, то нужно постараться получить выборку, в которой независимые переменные слабо связаны между собой (конечно, это легче сказать, чем сделать).

Существуют два типа внешней информации, которая может оказаться полезной: теоретические ограничения и внешние эмпирические оценки. Теоретическое ограничение представляет собой допущение, касающееся величины коэффициента или некоторой связи между коэффициентами. Поясним это на примере.

При построении производственной функции с использованием данных временных рядов (как это было сделано в разделе 5.3) следует иметь в виду, что на выпуск продукции, наряду с изменениями в капитальных и трудовых затратах, вероятно, будет оказывать влияние технический прогресс. Если вы имеете дело с агрегированными данными, то невозможно количественно оценить технический прогресс, и проще всего включить экспоненциальный временной тренд в уравнение, записав функцию Кобба—Дугласа, например, в виде:

Г= AK«Lte"v, (5.47)

где Y, К и L имеют те же определения, что и в разделе 5.3; / — время; г — темп прироста выпуска благодаря техническому прогрессу. Оценив это соотношение по данным табл. 5.1, получим (стандартные ошибки указаны в скобках):

log Г= 2,81 - 0,53 log К+ 0,91 log L + 0,047/;     R2 = 0,97; (5.48) (1,38)  (0,34)        (0,14)        (0,021)     F= 189,8.

Со всей очевидностью этот результат показывает, что эластичность выпуска продукции по затратам капитала отрицательна, что означает снижение выпуска при увеличении затрат капитала. Уравнение также показывает темп прироста выпуска продукции за счет технического прогресса порядка 4,7\% в год, что является неправдоподобно высокой оценкой для рассматриваемого периода. Здесь можно предположить, что по крайней мере отчасти проблема связана с мультиколлинеарностью, так как коэффициент корреляции между log К и t составляет 0,997, а стандартная ошибка коэффициента при log А" в 5 раз больше, чем в уравнении без величины / (5.32).

Отсюда появляется желание ввести ограничения на эффект от масштаба, рассматривая его как постоянную величину, что позволит переписать уравнение только с двумя независимыми переменными, имеющими временной тренд, вместо трех и с капиталовооруженностью труда в качестве объясняющей переменной вместо затрат капитала. Этот показатель по-прежнему тесно коррелирован с временем (коэффициент корреляции составляет 0,96), но степень корре-лированности уже не так предельно высока. Оценив уравнение (5.28) с экспоненциальным временным трендом, мы получим (стандартные ошибки указаны в скобках):

log Y/L = -0,11 + 0,11 log K/L + 0,006ґ,     R2 = 0,65; (5.49)

(0,03)  (0,15)   (0,006)     /-= 19,5.

Оценки величин а и г, хотя и незначимо отличаются от нуля, теперь более реалистичны, чем раньше, а стандартные ошибки — намного меньше, чем в уравнении (5.48). Тот факт, что величина г незначимо отличается от нуля, подтверждает вывод Ч. Кобба и П. Дугласа о том, что темп увеличения общей производительности факторов в рассматриваемый период был очень низким. Очевидно, что обоснованность этой процедуры зависит от правильности введенного ограничения, поэтому сначала нужно статистически проверить ограничение, что рассматривается в следующей главе.

Наконец, можно использовать внешние оценки. Предположим, что вы решили воспользоваться уравнением (5.24) в качестве формулы для функции спроса, но имеется проблема мультиколлинеарности, так как располагаемый личный доход и цена имеют ярко выраженные временные тренды, а следовательно, тесно коррелированы. Предположим, однако, что вы также имеете перекрестные статистические данные для у и х, полученные из другой выборки. Если допустить, что все домохозяйства в проводимом анализе платили за данный товар одинаковую цену, то модель примет вид:

log/= loga' + plogx' + и. (5.50)

Получив оценку Ь для р при оценивании регрессионной зависимости у от х', вы можете подставить ее в уравнение (5.24). Теперь определяется новая

переменная logy, равная (log y — b\og х), описывающая спрос, скорректированный на изменения дохода. После этого уравнение (5.25) принимает вид:

logy = loga + p2 logp + u. (5.51)

Рассчитав logy для каждого наблюдения, вы оцениваете его регрессионную зависимость от log р, и, так как здесь имеется только одна независимая переменная, мультиколлинеарность автоматически исключается.

При использовании этого метода могут возникнуть две проблемы, которые необходимо учитывать. Во-первых, оценка величины Р2 зависит от точности оценки величины Рр которая, безусловно, подвержена влиянию ошибки выборки. Во-вторых, вы допускаете, что коэффициент при доходе имеет одинаковый смысл для случаев временных рядов и перекрестных выборок, что, конечно, может быть и не так. Для большинства товаров краткосрочная и долгосрочная эластичность спроса по доходу может значительно различаться. Одна из причин этого состоит в том, что характер расходов подвержен влиянию инерции, которое в краткосрочном периоде может превзойти эффекты дохода. Другая причина заключается в том, что изменение уровня дохода может оказать на расходы как непосредственное (в виде изменения бюджетного ограничения), так и косвенное влияние (за счет изменения образа жизни), причем косвенное влияние происходит намного медленнее, чем прямое. В качестве первого приближения обычно считается, что регрессии для временных рядов, особенно с небольшими периодами выборки, дают показатели краткосрочной эластичности, в то время как регрессии с использованием данных перекрестных выборок дают показатели долгосрочной эластичности. (Более подробно этот и другие связанные с ним вопросы рассматриваются в работе Э. Ку и Дж. Мейера [Kuh, Meyer, 1957, pp. 380-393].)

 

Упражнение

 

5.10. Оцените логарифмическую регрессию расходов на выбранный вами продукт, включив в уравнение временной тренд (наряду с доходом и относительной ценой). Есть ли признаки мультиколлинеарности? Улучшились ли результаты?

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |