Имя материала: Эконометрика Книга первая Часть 1

Автор: Носко Владимир Петрович

Тема 1.3 примеры подбора линейных моделей связи между двумя факторами. ложная линейная связь

 

ПРИМЕР 1.3.1

В табл. 1.4 приведены данные об изменении потребительского спроса на куриные яйца семи домашних хозяйств в зависимости от цены на этот продукт в течение 15 недель (спрос измерялся в дюжинах, цена — в долларах).

Подпись:

Диаграмма рассеяния для этих данных приведена на рис. 1.10.

Предполагая, что модель наблюдений имеет вид у. = а + fix{ + єі9 і = 1, и,

где j>, спрос в і-ю неделю, xt — цена

в 1-ю неделю, получим следующие оценки для неизвестных параметров а и Р модели линейной связи между ценой и спросом: а = 21.100, р = -18.559. Таким образом, подобранная модель линейной связи имеет вид = 21.100 — - 18.559х. При этом

7X5=17.6,   RSS= 8.562,   £55= 9.038,

так что коэффициент детерминации R2 = 0.514, т.е. изменчивость цен объясняет 51.4\% изменчивости спроса на куриные яйца. На диаграмме рассеяния изображена прямая линия, соответствующая подобранной модели линейной связи. ■

 

ПРИМЕР 1.3.2

В табл. 1.5 указаны данные о годовом потреблении свинины >> на душу населения в США (в фунтах) и оптовых ценах на свинину х (в долларах за фунт) за период с 1948 по 1961 г.

 

Диаграмма рассеяния для этих данных приведена на рис. 1.11.

Оценивая модель= а + /3+ єі9 і = 1,и,

ГДЄ у{                   Потребление СВИНИНЫ В 1-Й год

рассматриваемого периода, xt — оптовая цена на свинину в і-м году, получим следующие оценки для неизвестных параметров а и Р модели линейной связи между оптовой ценой и потреблением: а = 77.552, Р = -24.925. Таким образом, подобранная модель линейной связи имеет вид у = = 77.552 - 24.925л;. При этом

7X5 = 208.194,   rss = 196.701,   ESS = 11.493,

так что коэффициент детерминации R2 = 0.055. В данном случае изменчивость оптовой цены объясняет лишь 5.5\% изменчивости потребления свинины. ■

ПРИМЕР 1.3.3

Рассмотрим данные о размерах совокупного располагаемого дохода и совокупных расходах на личное потребление в США в период с 1970 по 1979 г. (табл. 1.6). Обе величины выражены в текущих ценах (в млрд долл. США).

Таблица 1.6

 

Этим данным соответствует диаграмма рассеяния, приведенная на рис. 1.12.

Предполагая, что модель наблюдений имеет вид у. = а + Pxt + єі9 і = 1, п, где уt — совокупные расходы на личное потребление в /-и год рассматриваемого периода, х{ — совокупный располагаемый доход в этом году, получим следующие оценки для неизвестных параметров а и Р модели линейной связи между совокупным располагаемым доходом и совокупными расходами на личное

потребление: а = -30.534, Р = 0.932. Таким образом, подобранная модель имеет вид  = -30.534 + 0.932jc. При этом

7X5=791138.545,  RSS= 740.320,  ESS= 790398.225,

коэффициент детерминации R2 = 0.9995. Изменчивость совокупного располагаемого дохода объясняет в данном случае 99.95\% изменчивости совокупных расходов на личное потребление. ■

Впрочем, не следует слишком оптимистически интерпретировать близкие к 1 значения коэффициента детерминации R2 как указание на то, что изменения значений объясняемой переменной практически полностью определяются именно изменениями значений используемой объясняющей переменной. В связи с этим рассмотрим поучительный пример.

 

ПРИМЕР 1.3.4

Рассмотрим динамику изменений в период с 1957 по 1966 г. трех совершенно различных по природе показателей: Е — суммарного производства электроэнергии в США (в млрд. кВт/ч), С — совокупных потребительских расходов в Таиланде (в млрд бат) и Я — мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (в см). Значения указанных показателей приведены в табл. 1.7, а динамика изменения этих показателей показана нарис. 1.13.

По этим данным можно формально, используя метод наименьших квадратов, подобрать модели линейной зависимости каждого из трех показателей от каждого из остальных показателей. Это приводит, например, к моделям

Е = -2625.5 + 7.131 Я,           R2 = 0.900;

С =-129.30+ 0.350Я,  Л2 = 0.871;

Е= 23.90+ 19.950С,   Л2 = 0.993;

С = -0.860 + 0.0498£, R2 = 0.993.

Заметим, несколько забегая вперед, что произведение угловых коэффициентов двух последних прямых, соответствующих моделям линейной связи,

Подпись: WORLD^RECORD 540
ELECTRO USA 1400 1200 --1000 --

800 --

600

1956

 

Год

 

1967

 

в которых объясняемая и объясняющая переменные меняются местами, равно: 19.950 • 0.0498 = 0.993 и совпадает со значением R2 в этих двух подобранных моделях.

Во всех подобранных моделях значения коэффициента детерминации весьма высоки. Это формально означает, что изменчивость «объясняющих» переменных в этих моделях составляет значительный процент от изменчивости «объясняемой» переменной в левой части уравнения. Однако вряд ли можно всерьез полагать, что динамика роста суммарного производства электроэнергии в США действительно объясняется динамикой роста мирового рекорда по прыжкам в высоту с шестом, несмотря на высокое значение (0.9) коэффициента детерминации в первом из четырех уравнений. ■

 

В ситуациях, подобных последнему примеру, принято говорить о ложной (фиктивной, паразитной — spurious) линейной связи, не имеющей содержательной экономической интерпретации. Такие ситуации часто встречаются при рассмотрении показателей, динамика изменений которых обнаруживает заметный тренд (убывание или возрастание), именно такой характер имеют исследуемые показатели в примере 1.3.4.

Чтобы понять, почему это происходит, используем полученное ранее равенство R2 =г£х. Из него вытекает, что близкие к 1 значения коэффициента

детерминации соответствуют близким по абсолютной величине к 1 значениям коэффициента корреляции между переменными у и х. Но этот коэффициент корреляции равен

Cov(y,x) ГуХ   ylVar(y)JVar(x) '

 

где Cov(y,x) =            -^(Уі-уКч-х).

При фиксированных Var(x) и Var(y) значение будет тем ближе к 1, чем большим будет значение Cov(y, х) > 0. Последнее обеспечивается совпадением знаков разностей (у, - у) и (л:7 - х) для максимально возможной доли наблюдений переменных j/их, что как раз и имеет место, когда в процессе наблюдения обе переменные возрастают или обе переменные убывают по величине. (В этом случае превышение одной из переменных своего среднего значения сопровождается, как правило, и превышением второй переменной своего среднего значения. Напротив, если одна из переменных принимает значение, меньшее среднего значения этой переменной, то и вторая переменная, как правило, принимает значение, меньшее своего среднего.)

Аналогичным образом значение будет тем ближе к -1, чем меньшим будет значение Cov(y, х) < 0. Последнее обеспечивается несовпадением знаков разностей (у, - у) и (х, - х) для максимально возможной доли наблюдений переменных у их, что имеет место, когда в процессе наблюдения одна из переменных возрастает, а вторая убывает. (В этом случае если одна из переменных принимает значение, меньшее среднего значения этой переменной, то вторая переменная, как правило, принимает значение, большее своего среднего.)

Из сказанного следует, что близость к 1 наблюдаемого значения коэффициента детерминации не обязательно означает наличие причинной связи между двумя рассматриваемыми переменными, а может являться лишь следствием тренда значений обеих переменных.

Последнее обстоятельство часто наблюдается при анализе различных экономических показателей, вычисленных без поправки на инфляцию (недефли-рованные данные). Проиллюстрируем это следующим примером.

 

ПРИМЕР 1.3.5

Обратимся к данным о совокупном располагаемом доходе и личных расходах на местный транспорт в США за период с 1970 по 1983 г. (табл. 1.8). Данные представлены как в текущих ценах, так и в ценах 1972 г.; пересчет к последним выполнен с учетом динамики индекса потребительских цен в указанном периоде. (Уровень цен в 1972 г. принят за 100\%.)

Диаграмма рассеяния для недефлированных (номинальных) величин приведена на рис. 1.14. Соответствующая модель линейной связи: у = 1.743 + 0.0023х. Коэффициент детерминации R2 = 0.9398.

Диаграмме рассеяния дефлированных величин (рис. 1.15) соответствует модель линейной связи у = 3.758 - 0.0003х. Коэффициент детерминации на этот раз всего лишь R2 = 0.0353.■

 

В связи с последним примером вернемся к примеру 1.3.3 и выясним, не является ли обнаруженная там сильная линейная связь между совокупным располагаемым доходом и совокупными расходами на личное потребление лишь следствием использования недефлированных величин.

Для этого рассмотрим дефлнрованные значения данных показателей (табл. 1.9).

Соответствующая диаграмма рассеяния приведена на рис. 1.16.

Подобранная модель линейной связи у = -67.655 + 0.979*. Коэффициент детерминации при переходе от номинальных величин к дефлированным остается очень высоким: Л2 = 0.9918. Следовательно, наличие сильной линей

ной связи между совокупным располагаемым доходом и совокупными расходами на личное потребление не является только лишь следствием инфляционных процессов.

J Замечание 1.3.1. Использование линейных моделей связи для описания зависимости спроса на продукт от цены этого продукта в примерах 1.3.1 и 1.3.2 (спрос на куриные яйца и на свинину соответственно) представляется на первый взгляд совершенно абсурдным. Действительно, вряд ли можно серьезно полагать, что увеличение цены на 1 долл. приводит к снижению спроса в среднем на одну и ту же величину независимо от того, какова была первоначальная цена соответствующего продукта. Дело, однако, в том, что во многих ситуациях при работе в определенном диапазоне изменения экономических показателей нелинейные зависимости достаточно хорошо аппроксимируются линейными (линеаризуются), что подтверждается расположением точек на диаграмме рассеяния — видимой вытяну-тостью облака рассеяния вдоль некоторой наклонной прямой. Более подробно нелинейные функции связи рассмотрим в теме 1.4.

 

Частный коэффициент корреляции

Возникновение паразитной линейной связи между двумя переменными часто можно объяснить тем, что, хотя эти переменные не имеют причинной связи, изменение каждой из них достаточно хорошо объясняется изменением значений некоторой третьей переменной, «координирующей» динамику изменения первых двух переменных. Проиллюстрируем это на данных примера 1.3.4.

В этом примере была подобрана модель линейной связи между суммарным производством электроэнергии в США (Е) и мировым рекордом на конец года в прыжках в высоту с шестом среди мужчин (Я). Коэффициент детерминации для этой модели оказался весьма высоким: R2 = 0.900.

Поскольку динамика изменения этих двух показателей на периоде наблюдений обнаруживает видимый положительный тренд, попытаемся аппроксимировать каждый из них линейной функцией от времени. Подбор методом наименьших квадратов приводит к моделям:

£ = 613.333 + 59.539/,   Я = 459.067 + 7.461/, где t — t-й год на периоде наблюдений.

При этом в первом случае коэффициент детерминации равен 0.9812, а во втором — 0.8705. Иначе говоря, наблюдаемая изменчивость переменных Е и Я достаточно хорошо «объясняется» изменением переменной /, фактически являющейся здесь выразителем технического и спортивного прогресса.

Чтобы найти «объективную» связь между показателями Е и Я, «очищенную» от влияния на эти показатели фактора времени, поступим следующим образом.

Возьмем ряд остатков

eE(t) = Et- (613.333 + 59.5390,

получаемых при подборе первой модели, и ряд остатков

ен(t) = Я, -(459.067 + 7.4610,

получаемых при подборе второй модели. Тогда переменные еЕ и ен, принимающие значения eE(t) и eH(t) соответственно, t = 1, 10, можно интерпретировать как результат «очистки» переменных Е и Я от линейного тренда во времени. Соответственно «истинная» линейная связь между переменными Е и Я, если таковая имеется, должна, скорее всего, измеряться коэффициентом корреляции re е между «очищенными» переменными еЕ и ен.

Подобранная линейная связь между еЕ и ен имеет вид

еЕ =0.0000 + 1.420ея.

При этом получаем значение R2 = 0.2454 против 0.900 в модели с «неочищенными» переменными. Коэффициент корреляции между «очищенными» переменными еЕ и ен

г е =V0.2454 =0.4954,

т.е. почти вдвое меньше коэффициента корреляции rEH = V0.900 = 0.9487

между «неочищенными» переменными ЕиН.

Коэффициент корреляции ге е^ между «очищенными» переменными еЕ и ен

называется частным коэффициентом корреляции {partial correlation coefficient) между переменными Е иНпри исключении влияния на них переменной t.

В дальнейшем будет показано, что при «стандартных предположениях» значение г  р = 0.4954 при п = 10 «слишком мало» для того, чтобы можно

еЕ, ен г

было отвергнуть гипотезу о том, что коэффициент при ен в линейной модели связи еЕ = у+ 8ен действительно равен 0.

 

Обратная модель линейной связи

В рассмотренном в начале раздела примере с уровнями безработицы среди белого и цветного населения США уровень безработицы среди белого населения был использован в качестве объясняемой переменной, а уровень безработицы среди цветного населения - в качестве объясняющей переменной. Если, однако, отсутствует экономическое обоснование такого направления причинной связи, то с тем же успехом можно было бы поменять эти переменные местами.

Пусть наша задача состоит в оценивании модели линейной связи между некоторыми переменными х и у на основе наблюдений п пар (х7, >>,), / = 1,п, значений этих переменных. Мы уже рассмотрели вопрос об оценивании параметров такой связи исходя из модели наблюдений yt = а + /3xt + єі9 і = 1,п. Что изменится, если будем исходить из обратной модели

xt = a + j3yt + si9   i= l,...,w?

Пусть a^jiyx — оценки параметров в прямой модели наблюдений yt =

= а + Рх{ + єі9 і = 1,    п, а сСф^Рху — оценки параметров а и /? в обратной

модели наблюдений xt = а + Руі, + єі9 і = 1,п. Тогда

п п ^Cov(x,y) Cov(y,x) р*уру*     Var(y) ' Var(x)

Cov(y9x)

ґ     _   , л

^Var(y)^Var(x)

(так как Cov(y, х) = Cov(x, у) т.е. Р^Р^ =    , или, поскольку R2 = г}

 

'хуг ух

В обратной модели наблюдений в качестве «наилучшей» получаем прямую

х = аху+Рхуу,

а в прямой модели — прямую

У = аух+Рукх.

Формально если выборочная ковариация Cov(x, у) точно равна 0 (что маловероятно для реальных статистических данных, но может получаться

в специально подобранных искусственных примерах), то р - р = О, и тогда

«наилучшие» прямые имеют вид: х = аху — в обратной модели, у = ссух —

в прямой модели.

Если же Cov(x, у) * 0, то первую прямую можно записать:

 

У = —r*-+-z—X.

Рху Рху

Сравнив коэффициенты при х в этом уравнении и в уравнении у = а + ft х9 приходим к выводу, что эти коэффициенты равны в том и только в том случае, когда выполнено соотношение

1          Л Л

^*=я~* т'е' ^*^=1'

Рху

или, с учетом предыдущего, когда R2 = 1.

Отрезки на осях будут совпадать тогда и только тогда, когда

К         . А

Рху

Но а  =у-Р х, так что

 

При R2 = 1 получаем

аухРХу=УРху-х-

В то же время

 

так что при R2 = 1 совпадают и отрезки на осях. Таким образом, «наилучшая» прямая одна и та же при обеих моделях наблюдений, это прямая, на которой расположены все наблюдаемые точки (jcf, yf)9 і = 1,п.

Иными словами, «наилучшие» прямые, построенные по двум альтернативным моделям, совпадают в том и только в том случае, когда все точки (х„ уt)9 і = 1,п, расположены на одной прямой (так что ех = ... = еп = 0), при

этом R2 = 1. В противном случае R2 и подобранные «наилучшие» прямые имеют разные угловые коэффициенты. Поскольку обе эти прямые проходят через точку (j^ j7), то при R2 Ф1 они образуют раскрытые «ножницы».

В случае R2 = 0 «ножницы» раскрыты под прямым углом.

Кстати, в примере с уровнями безработицы диаграмма рассеяния с переставленными осями (соответствующими модели наблюдений X; = а + J3yt +

і = 1,п) имеет вид, приведенный на рис. 1.17. «Наилучшая» прямая в данном случае имеет вид

х = 1.291 + 1.695.у,

коэффициент детерминации равен

R2 =0.212374.

Произведение угловых коэффициентов 0.125265 и 1.695402 «наилучших» прямых в прямой и обратной моделях наблюдений равно 0.212374 и совпадает со значением R2.

Несовпадение «наилучших» прямых в альтернативных моделях связано с тем, что в них минимизируются разные суммы квадратов: в прямой модели минимизируется сумма квадратов отклонений точек от подбираемой прямой в направлении, параллельном оси .у, а в обратной — в направлении, параллельном оси х. Подобранные прямые для альтернативных моделей показаны на рис. 1.18 (пунктирная линия — прямая, подобранная для обратной модели).

Пропорциональная связь между переменными

В некоторых случаях экономическая теория описывает связь между двумя экономическими факторами хиу как пропорциональную, т.е.

У = 0х,

так что в этом случае возникает необходимость подбора прямой, проходящей через начало координат.

В этой связи можно вспомнить, например, известную модель оценки финансовых активов САРМ (capital asset pricing model). В простейшей форме модель наблюдений, соответствующая САРМ, имеет следующий вид:

 

где гч — доходность за і-й период ценной бумагиу'-го вида; rmi— доходность за i'-й период рыночного портфеля; rfi — доходность безрисковой бумаги;

pj — (коэффициент бета, или просто бета) — мера систематического (рыночного) риска бумагиу-го вида.

Пусть имеем наблюдения (xi9 yt), і = 1, п, и предполагаем, что гипотетическая линейная связь между переменными хиу имеет вид

y = fix

(пропорциональная связь между переменными), так что ей соответствует модель наблюдений

/ = 1,...,Л.

Применение метода наименьших квадратов в данном случае сводится к минимизации суммы квадратов расхождений

 

1 = 1

по всем возможным значениям /?. Последняя сумма квадратов является функцией единственной переменной Р (при известных значениях (xi9 yt)9 і = 1,w), и точка минимума этой функции легко находится. Для этого приравниваем нулю производную Q(p) по /?:

п

2^(;л - ytfjc, )(-*,.) = 0 (нормальное уравнение). Откуда получаем:

 

1 = 1    1 = 1

ИЛИ

 

/ = 1 _

2

X

1 = 1

Отсюда видно, что при таком подборе J5 * Cov(x,y) ^ точка (х уЖе

Var(x)

не лежит, как правило, на подобранной прямой у =

п

При этом здесь не выполняется и равенство       = 0, которое имеет место

1 = 1

в модели с включением в правую часть постоянной составляющей (см. замечание 1.3.4 в конце этого раздела.) Более того, в такой ситуации

І(У/-502*І^-302+І(У/-л)2

/=і        /=і /=і

где уt = pxt, т.е.

TSS*RSS + ESS9

поэтому теряют силу соображения, приводившие к определению коэффициента детерминации R2 как доли полной суммы квадратов, объясненной подобранной моделью.

ESS RSS

При этом отношения                    и         могут принимать значения больше 1.

TSS TSS

ESS

Таким образом, при определении коэффициента детерминации как R2 =      

TSS

его значения могут превышать 1, а при определении коэффициента детерми-RSS

нации как R2 = 1       могут оказаться отрицательными.

TSS

ПРИМЕР 1.3.6

Пусть переменные х и у принимают в четырех наблюдениях значения, приведенные в табл. 1.10.

Соответствующая диаграмма рассеяния приведена на рис. 1.19.

Будем предполагать пропорциональную связь между этими переменными, что соответствует модели наблюдений у{ - Pxt + єі9 і =1,2, 3, 4. Для этих данных

= 1      

n

 

J3 = —            = 0.7217.

2

1 = 1

Таблица 1.10

ESS TSS

 

При этом RSS= 1.5377, TSS= 1.2675, ESS - 4.0088. Вычисление R2 по формуле

R

дает значение R2 = 3.1627 > 1,

 

a          d2    , RSS

а по формуле /? =1    — отрица-

TSS

тельное значение R2 = -0.213138. Заметим также, что сумма остатков здесь равна       =1.9017. ■

/ = і

Возникающие затруднения можно преодолеть, если в модели наблюдений без постоянной составляющей использовать так называемый нецентриро-ванный коэффициент детерминации (uncenteredR2):

RSS

R=l-

Zx2

/=1

где в знаменателе дроби — сумма квадратов нецентрированных значений переменной у (отклонений значений переменной у от «нулевого уровня»). Неотрицательность коэффициента R2U гарантируется наличием соотношения

 

(1.3)

/ = 1

i =

/ = 1

отражающего геометрическую сущность метода наименьших квадратов, которое выполняется как для модели без постоянной составляющей, так и для модели с постоянной составляющей в правой части модели наблюдений. Раз-

делив обе части последнего равенства на ^yf, получим

/=і

і = 1

1=1

їуї

i = l

Ту?

Из этого соотношения непосредственно следует, что

І(у,-у,)2 Іуї

Rf=l-—                       1 = 1

п

2

1=1 /=1

так что

0<ЛМ2<1.

Доказать соотношение (1.3) несложно. Действительно,

Іу2=І(у,-у, + А)2 = 2>, -Л)2+£# + 2J>,-Уіїг

1 = 1      1=1    1 = 1    1=1 /=1

Но

!>, -Ш = £(У,-fix,)fix, = РІіУі -fa)*, = о,

i =       i =       i =

(см. нормальное уравнение), что и приводит к искомому результату.

В примере 1.3.6 при использовании нецентрированного коэффициента

1 5377

детерминации получаем R2 = 1 —:            = 0.7571.

6.33

 

J Замечание 1.3.2. Поскольку соотношение

±уЇ=±уЇ+±(у,-у,)2

і = 1     і =       1 = 1

выполняется и для моделей с постоянной составляющей, нецентри-рованный коэффициент детерминации остается в пределах от 0 до 1 и для таких моделей. Однако R2U обладает следующим нежелательным для таких моделей свойством: значение коэффициента R2U изменяется, если все значения объясняемой переменной у увеличить (уменьшить) на одну и ту же величину.

 

J Замечание 1.3.3. В обозначениях, введенных в конце темы 1.2, соотношение

Уі =Уі+(Уі-Уі),   / = 1,...,л,

принимает вид у = у + е.

В данной ситуации имеем только одно нормальное уравнение

2£(у,-;М-*,) = о,

i = l

которое просто означает, что е _L х. При наличии в модели постоянной составляющей возникает еще одно нормальное уравнение, отражающее соотношение е _L 1. Отсутствие этого дополнительного уравнения как раз и приводит к тому, что здесь не выполняется ра-

п

венство ^е;=0, которое имеет место в модели с постоянной со-

/=1

ставляющей.

Невыполнение в модели без постоянной составляющей соотношения TSS = ESS + RSS связано с тем, что в данном случае вектор у

имеет вид у = (5х и является проекцией вектора у на одномерное линейное подпространство Ь{(х)9 порожденное вектором х9 а не на двумерное линейное подпространство Ь2{, х)9 порожденное векторами 1 и х9 как это было в случае модели с постоянной составляющей. Изображенный на рис. 1.9 треугольник BCD на сей раз не является прямоугольным.

 

КОНТРОЛЬНЫЕ ВОПРОСЫ

Что понимается под фиктивной линейной связью между двумя переменными? Каковы причины ее возникновения?

Что выражает частный коэффициент корреляции?

Как соотносятся между собой оценки угловых коэффициентов подобранных прямых, полученных при оценивании прямой и обратной моделей?

Каковы особенности оценивания методом наименьших квадратов модели пропорциональной связи? Почему для интерпретации результатов такого оценивания нельзя использовать коэффициент детерминации, определенный для случая модели прямолинейной связи? Как можно выйти из этого положения?

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |