Имя материала: Эконометрика. Учебно-методическое пособие

Автор: Шалабанов А.К.

2.5. обобщенный метод наименьших квадратов (омнк)

 

При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов (известный в английской терминологии как метод OLS - Ordinary Least Squares) заменять обобщенным методом, т.е. методом GLS (Generalized Least Squares).

Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Остановимся на использовании ОМНК для корректировки гетероскедастичности.

Как и раньше, будем предполагать, что среднее значение остаточных величин равно нулю. А вот дисперсия их не остается неизменной для разных значений фактора, а пропорциональна величине K,, т.е.

 

2          » 2

где sei - дисперсия ошибки при конкретном i -м значении фактора; s -

постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; Ki - коэффициент пропорциональности,

меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии.

При этом предполагается, что s2 неизвестна, а в отношении величин Ki выдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности.

В общем виде для уравнения y = a + bx{ + Є{   при   &l = S2 • Ki

модель примет вид: yi = a + bxi + JlKi£i. В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив

все переменные, зафиксированные в ходе i-го наблюдения, на у[К .

 

2 2

Тогда дисперсия остатков будет величиной постоянной, т. е. <j£ = s .

Иными словами, от регрессии у по x мы перейдем к регрессии на новых переменных: у/\[К и xjy]~K. Уравнение регрессии примет вид:

Подпись: xПодпись: a+ b ■■

Л/К №

а исходные данные для данного уравнения будут иметь вид:

 

 

у

 

у

 

x1

 

 

 

 

 

 

 

,        x =

 

 

 

 

 

 

 

По отношению к обычной регрессии уравнение с новыми, преобразованными   переменными   представляет   собой взвешенную

регрессию, в которой переменные у и x взяты с весами /у]~К .

Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида

n 1

S (a b)=Z к (у;- a - bxi )2.

i=1 Ki

Соответственно получим следующую систему нормальных уравнений:

 

Е- - а • У - + Ь ■ У-, ^ К      ^ К     ^ K

У1^ = а■ у± + ь■ У . ^ К       ^ К     ^ К

Если преобразованные переменные х и y взять в отклонениях от средних уровней, то коэффициент регрессии Ь можно определить как

У — ■ x ■ y У - ■ Xі

К

При обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии Ь определяется по формуле:

 

Ь =

У x ■

Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии Ь представляет собой взвешенную величину по отношению к обычному МНК с весом 1/ К.

Аналогичный подход возможен не только для уравнения парной, но и для множественной регрессии. Предположим, что рассматривается модель вида

y = а + Ь1х1 + Ь2 x2 + e, для которой дисперсия остаточных величин оказалась пропорциональна К.    Кі   представляет   собой   коэффициент пропорциональности, принимающий различные значения для соответствующих значений факторов х1 и х2. Ввиду того, что

 

рассматриваемая модель примет вид

78

Уі = а + b, хи + b2 x2j + Кієі, где ошибки гетероскедастичны.

Для   того   чтобы   получить   уравнение,   где   остатки Єі

гомоскедастичны, перейдем к новым преобразованным переменным, разделив все члены исходного уравнения на коэффициент пропорциональности К. Уравнение с преобразованными переменными составит

 

К і К і  4 К і   2 К і ■

Это уравнение не содержит свободного члена. Вместе с тем, найдя переменные в новом преобразованном виде и применяя обычный МНК к ним, получим иную спецификацию модели:

 

Параметры такой модели зависят от концепции, принятой для коэффициента     пропорциональности     К .     В эконометрических

исследованиях довольно часто выдвигается гипотеза, что остатки є пропорциональны значениям фактора. Так, если в уравнении

у = а + ^JC, + b2 х2 + ... + bmxm + Є

 

предположить, что Є = є■ хх, т.е. К = хх и (іЄ = &2 ' хх, то обобщенный

МНК предполагает оценку параметров следующего трансформированного уравнения:

 

У. = b, + b2    +... +       + є.

х,         х, х,

Применение в этом случае обобщенного МНК приводит к тому, что наблюдения с меньшими значениями преобразованных переменных х/ К имеют при определении параметров регрессии относительно больший

вес, чем с первоначальными переменными. Вместе с тем, следует иметь в

79

виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным.

Пример. Пусть y - издержки производства, x1 - объем продукции,

x2 - основные производственные фонды, x3 - численность работников, тогда уравнение

y = a + b1x1 + b2 x2 + b3 x3 + e является моделью издержек производства с объемными факторами. Предполагая,   что    S    пропорциональна   квадрату численности

работников x3 , мы получим в качестве результативного признака затраты на одного работника y/x3, а в качестве факторов следующие показатели: производительность труда x1 /x3 и фондовооруженность труда x2 /x3 . Соответственно трансформированная модель примет вид

 

— = b3 + b[-L + b2 — + e,

 

где параметры b1, b2 , b3 численно не совпадают с аналогичными

параметрами предыдущей модели. Кроме этого, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение издержек производства с изменением абсолютной величины соответствующего фактора на единицу, они фиксируют при обобщенном МНК среднее изменение затрат на работника; с изменением производительности труда на единицу при неизменном уровне фондовооруженности труда; и с изменением фондовооруженности труда на единицу при неизменном уровне производительности труда.

Если предположить, что в модели с первоначальными переменными дисперсия остатков пропорциональна квадрату объема

2          2 2

продукции, se = S ■ x1 , можно перейти к уравнению регрессии вида

 

У    і    , x2 x3

= b + b2 — + b3 — + e.

x1        x1 x1

В нем новые переменные: yjx1 - затраты на единицу (или на 1 руб.

продукции), x2jx1 - фондоемкость продукции, x3/x1 - трудоемкость продукции.

Гипотеза о пропорциональности остатков величине фактора может иметь реальное основание: при обработке недостаточно однородной совокупности, включающей как крупные, так и мелкие предприятия, большим объемным значениям фактора может соответствовать большая дисперсия результативного признака и большая дисперсия остаточных величин.

2          2 2

При наличии одной объясняющей переменной гипотеза Ge = S x

трансформирует линейное уравнение у = a + bx + e

в уравнение

= b + — + €,

xx

в котором параметры a и b поменялись местами, константа стала коэффициентом наклона линии регрессии, а коэффициент регрессии -свободным членом.

Пример. Рассматривая зависимость сбережений у от дохода x, по первоначальным данным было получено уравнение регрессии у =-1,081 + 0,1178 ■ x.

Применяя обобщенный МНК к данной модели в предположении, что ошибки пропорциональны доходу, было получено уравнение для преобразованных данных:

У = 0,1026 - 0,8538 • -x x

Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т.е. 0,1178 и 0,1026 - оценки параметра b зависимости сбережений от дохода.

Переход к относительным величинам существенно снижает вариацию фактора и соответственно уменьшает дисперсию ошибки. Он представляет собой наиболее простой случай учета гетероскедастичности в регрессионных моделях с помощью обобщенного МНК. Процесс перехода к относительным величинам может быть осложнен выдвижением иных гипотез о пропорциональности ошибок относительно включенных в модель факторов. Использование той или иной гипотезы предполагает специальные исследования остаточных величин для соответствующих регрессионных моделей. Применение обобщенного МНК позволяет получить оценки параметров модели, обладающие меньшей дисперсией.

2.6. Регрессионные модели с переменной структурой (фиктивные переменные)

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными.

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид:

y = a + bx + e, где y - количество потребляемого кофе; x - цена.

Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: y = a1 + b1 x1 + є1 и женского пола: y2 = a2 + b2 x2 + e2.

Различия в потреблении кофе проявятся в различии средних y и

y2. Вместе с тем сила влияния x на y может быть одинаковой, т.е.

b» b» b2. В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной.  Объединяя уравнения  y  и  y2  и, вводя фиктивные переменные, можно прийти к следующему выражению: y = a1 zx + a2 z2 + bx + e,

где z и z2 - фиктивные переменные, принимающие значения:

[1 - мужской пол,      [ 0 - мужской пол,

Z =     z2 = <

[0 - женский пол;      [1 - женский пол.

В общем уравнении регрессии зависимая переменная y рассматривается как функция не только цены x но и пола (z1, z2). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда z1 = 1, то z2 = 0, и наоборот.

Для лиц мужского пола, когда z = 1 и z2 = 0, объединенное

,*ч

уравнение регрессии составит: y = а1 + Ьх, а для лиц женского пола,

✓ч

когда z1 = 0 и z2 = 1: y = а2 + Ьх. Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: а1 Ф а2. Параметр Ь является общим для всей совокупности лиц, как для мужчин, так и для женщин.

Однако при введении двух фиктивных переменных z и z2 в

модель y = а1 zx + а2 z2 + Ьх +Є применение МНК для оценивания параметров а1 и а2 приведет к вырожденной матрице исходных данных,

а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение примет вид

y = A + а1 z + а2 z2 + Ьх + e.

Предполагая при параметре A независимую переменную, равную 1, имеем следующую матрицу исходных данных:

 

" 1

1

0

х1

1

1

0

 

1

0

1

хз

1

1

0

 

1

0

1

 

В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения может явиться переход к уравнениям

y = A + Az1 + Ьх +e

или

 

у = A + A2 z2 + Ьх +є, т.е. каждое уравнение включает только одну фиктивную переменную z, или z2.

Предположим, что определено уравнение у = A + Alzl + Ьх +є, где z, принимает значения 1 для мужчин и 0 для женщин.

Теоретические значения размера потребления кофе для мужчин будут получены из уравнения

у = A + A + Ьх. Для женщин соответствующие значения получим из уравнения

у = A + Ьх.

Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: A - для женщин и A + A - для мужчин.

Теперь качественный фактор принимает только два состояния, которым соответствуют значения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: z, и z2. Пусть переменная z, принимает значение 1 для

панельного дома и 0 для всех остальных типов домов; переменная z2

85

принимает значение , для кирпичных домов и 0 для остальных; тогда переменные z и z2 принимают значения 0 для домов типа «хрущевки».

Предположим, что уравнение регрессии с фиктивными переменными составило:

у = 320 + 500х + 2200z +, 600z2. Частные  уравнения  регрессии  для  отдельных  типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах,

 

будут иметь следующий вид: «хрущевки» - у = 320 + 500х; панельные

 

- у = 2520 + 500х; кирпичные - у = ,920 + 500х.

Параметры при фиктивных переменных z, и z2 представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых z, = z2 = 0 .

Параметр при z, , равный 2200, означает, что при одной и той же

полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при z2 показывает, что в кирпичных домах цена выше в среднем на ,600

долл. при неизменной величине полезной площади по сравнению с указанным типом домов.

В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т.е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др.

При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:

y = а + ^ + Ь2 S2 + Ьз z1 + Ь4 z2 + Ь5 х1 + Ь6 х2 + ... + Ьт+4 хт + ^

где y - потребление;

[1 - если наблюдения относятся к і-й социальной группе (і = 1, 2), [0 - в остальных случаях;

[1 - если наблюдения относятся кj-й возрастной группе (j = 1, 2), [0 - в остальных случаях;

 

х1, х2,     хт - экономические (количественные) переменные.

До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в регрессионной модели наряду с количественными переменными. Вместе с тем возможна регрессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалификации по регионам страны. Модель заработной платы может иметь вид:

y = а + Ь z1 + Ь2 z2 + ... + bmzm,

где y - средняя заработная плата рабочих высокой квалификации по

отдельным предприятиям;

[1 - если предприятие находится в Северо-Западном районе; z = 1

[0 - если предприятие находится в остальных районах;

 

[ 1 - если предприятие находится в Волго-Вятском районе;

z2 = 1

[ 0 - если предприятие находится в остальных районах;

 

[ 1 - если преприятие находится в Дальневосточном районе;

zm = 1 0 - .

[ 0 - если предприятие находится в остальных районах.

Поскольку последний район, указанный в модели, обозначен zm, то

в исследование включено m + , район.

Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак, т.е. признак, который может принимать только два значения, играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических   опросов.   В   качестве   зависимой   переменной у

рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: ,, когда имеет место ответ «да», и 0 - во всех остальных случаях. Модель такой зависимой переменной имеет вид:

у = а + b х, + ... + Ьтхт +є.

Модель является вероятностной линейной моделью. В ней у принимает значения , и 0, которым соответствуют вероятности p и , — p. Поэтому при решении модели находят оценку условной вероятности события у при фиксированных значениях х. Для оценки параметров линейно-вероятностной модели применяются методы Logit-, Probit- и Tobit-анализа. Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. Зависимая переменная у представлена дискретными значениями (набор альтернатив), объясняющие переменные - характеристики альтернатив (время, цена),      - характеристики

индивидов (возраст, доход, уровень образования). Модель такого рода позволяет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу.

Среди моделей с фиктивными переменными наибольшими прогностическими   возможностями   обладают   модели,   в которых зависимая   переменная    у   рассматривается   как   функция ряда

 

экономических факторов хі и фиктивных переменных zj. Последние

обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате неоднородной структуры пространственного или временного характера.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 |