Имя материала: Институт экономики переходного периода

Автор: Носко Владимир Петрович

1.6. пропорциональная связь между переменными

Хотя на практике не рекомендуется отказываться от включения свободного члена в уравнение подбираемой прямолинейной связи, если только его отсутствие не обосновывается надежной теорией (как в физике — закон Ома), мы все же иногда сталкиваемся с необходимостью подбора прямой, проходящей через начало координат. Позднее мы приведем соответствующие примеры.

Итак, пусть мы имеем наблюдения (х,-,уі), і = 1,...,п , и

предполагаем, что гипотетическая линейная связь между переменными х и у имеет вид

Применение метода наименьших квадратов в этой ситуации сводится к минимизации суммы квадратов невязок

<№ = Х (у* -Рх> )2

по всем возможным значениям /3. Последняя сумма квадратов является функцией единственной переменной /3 (при известных значениях хі,уі , і - 1,...,п), и точка минимума этой функции легко находится. Для этого мы приравниваем нулю производную Q(J3) по J3:

2 Zk* ~Рхі )(_х,) = 0 , (нормальное уравнение) откуда получаем:

Отсюда видно, что при таком подборе

(пропорциональная связь между переменными), так что ей соответствует модель наблюдений

р ф Cov (х, у ) Var (х )

и точка (х,у) уже не лежит, как правило, на подобранной прямой

у = Рх ■

Более того, в такой ситуации         

Т^(уі - у)2 ^Т,(уі - уі У +    - у)2,

1-Х      і-         і-1

где

уі = рхі,

и поэтому использовать для вычисления коэффициента детерминации выражение

n

Е(й - у)2

R2 =   

n

Zfc - у )2

не имеет смысла. В этой связи полезно рассмотреть следующий искусственный пример. Пример

Пусть переменные х и у принимают в четырех наблюде-

ниях значения, приведенные в следующей таблице       

i    І      1І2 І3І4

xi         10        3          -10       -3

Уі   I        11   I        3   І -9І-3

соответствующей диаграмме рассеяния

 

>-

            0

-12 ♦

-12

 

0

12

X

и мы предполагаем пропорциональную связь между этими переменными, что соответствует модели наблюдений yi - J3xt + єі , і - 1,2,3,4. Для этих данных

n

Z yx>

P = -n              = 1 ,

Z x2

так что yі = xi , і - 1,...,n . При этом, RSS = (11—10)2 + (3-3)2+ (-9+10)2+ (-3+3)2 = 2, TSS = (11-0.5)2+ (3-0.5)2+ (-9-0.5)2+ (-3-0.5)2 = 219, ESS = (10-0.5)2+ (3-0.5)2+ (-10-0.5)2+ (-3-0.5)2 = 219, так что здесь RSS + ESS Ф TSS, и вычисление R2 по формуле

R2 = ESS/ TSS

приводит к значению R2 = 1. Но последнее возможно только если все точки {xt, yi), і = 1,2,3,4, лежат на одной прямой, а у нас это не так. Заметим также, что в этом примере сумма остатков e1 + e2 + e3 + e4 - 2 Ф 0, что невозможно в модели с включением в правую часть постоянной составляющей.

Можно, конечно, попытаться справиться с возникающим при оценивании модели без постоянной составляющей затруднением,    попросту   игнорируя   нарушение соотношения

RSS + ESS = TSS и определяя коэффициент детерминации соотношением

R2 = 1 -(RSS/TSS),

и именно такое значение R2 приводится в протоколах некоторых пакетов программ анализа статистических данных, например пакета ECONOMETRIC VIEWS (TSP). Для нашего иллюстративного примера с четырьмя наблюдениями использование последнего приводит к значению R2 = 1 -(2/219)- 0.990860, которое не противоречит интуиции

и представляется разумным. Однако, к сожалению, и такой подход к определению коэффициента детерминации не решает проблемы, поскольку, в принципе, при оценивании модели без постоянной составляющей возможны ситуации, когда RSS > TSS , что приводит к отрицательным значениям R2. Пример

Пусть переменные x и y принимают в четырех наблюде-

 

i

1

2

3

4

 

0

0.2

0.4

3

yi

0.5

0.8

1.2

2

 

 

 

3 -

 

 

 

>-

♦ ♦

 

і

0 -

 

 

0            2 4

 

X

и мы предполагаем пропорциональную связь между этими переменными,    что    соответствует    модели наблюдений yi = f5xi + єі , і = 1,2,3,4. Для этих данных /? = 0.721739 . При

этом, RSS = 1.537652, TSS = 1.2675, и вычисление R2 по формуле R2 = 1 -(RSS/TSS) приводит к отрицательному значению R2 =-0.213138.

Преодолеть возникающие затруднения можно, если определить R2 в модели наблюдений без постоянной составляющей формулой

R2 = 1 ,

n '

X у2

в которой используется сумма квадратов нецентрирован-

ных значений переменной y (отклонений значений перемен-

ной y от «нулевого уровня»). При таком определении, неот-

рицательность коэффициента R2 гарантируется наличием

соотношения

n          n n

і-1        і-1        і-1

которое отражает геометрическую сущность метода наименьших квадратов (аналог знаменитой теоремы Пифагора для многомерного простанства) и выполняется как для модели без постоянной составляющей, так и для модели с наличием постоянной составляющей в правой части модели наблюдений.

n

Деля обе части последнего равенства на ^ у2 , приходим к соотношению

Zfc - Уі )2 Zу-

1 =       +

и n

Zy2 Zy2

i=1 i=1

из которого непосредственно следует, что

nn

Z(yi -уі)2 Zу.

R2 = 1 -           =    — > 0 .

nn

22

 

(Доказать заявленное равенство не сложно. Действительно,

Z у'=i(yi - уі +у У=i(yi - уі У+Zу2 +2Z(yi - yi )yi .

Но

Х(у« - У. )у. = t(y. -рх. )р х. =р t(y. -рх.)х. = о,

і-1        і-1        і-1

(см. нормальное уравнение), что и приводит к искомому результату.)

В последнем примере использование определения R2 сне центрированными уі дает R2 = 1 - (1.537652/6.33) = 0.242 .

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 |