Имя материала: Введение в эконометрику

Автор: Кристофер Доугерти

2.7. качество оценки: коэффициент я2

 

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким — в других. Мы хотим знать, почему это так. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var (у). Мы должны уметь рассчитывать величину этой дисперсии.

В парном регрессионном анализе мы пытаемся объяснить поведение >> путем определения регрессионной зависимости у от соответственно выбранной независимой переменной х. После построения уравнения регрессии мы можем разбить значение у. в каждом наблюдении на две составляющих — у. и е.:

У, = 9і+*і. (2.43)

Величина $j — расчетное значение у в наблюдении і — это то значение, которое имел бы у при условии, что уравнение регрессии было правильным, и отсутствии случайного фактора. Это, иными словами, величина у, спрогнозированная по значению х в данном наблюдении. Тогда остаток е{ есть расхождение между фактическим и спрогнозированным значениями величины у. Это та часть у, которую мы не можем объяснить с помощью уравнения регрессии. Используя (2.43), разложим дисперсию у:

VarOO = Var(p + е) = Угт(у) + Var(e) + 2Cov(£, e). (2.44)

Далее, оказывается, что Cov (p., e) должна быть равна нулю (см. упражнение 2.12). Следовательно, мы получаем:

Var(>0 = Var(p) + Var(e). (2.45)

Это означает, что мы можем разложить Var (у) на две части: Var (j>) — часть, которая «объясняется» уравнением регрессии в вышеописанном смысле, и Var(e) — «необъясненную» часть1.

Согласно (2.45), Var (p)/Var (у) — это часть дисперсии >>, объясненная уравнением регрессии. Это отношение известно как коэффициент детерминации, и его обычно обозначают R2:

2 _ Уаг(>;)

R ~VarO0' (2А6)

1 Слова «объясненный» и «необъясненный» взяты в кавычки, так как объяснение, в сущности, может быть мнимым. В действительности у может зависеть от какой-то другой переменной Z, И X может действовать как величина, замещающая z(бoлee подробно об этом см. в главе 6). Поэтому вместо слова «объясненный» здесь лучше употреблять выражение «представляющийся объясненным».

что равносильно

2=, Var(e) VarOO"

(2.47)

Максимальное значение коэффициента/?2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что yt = ytдля всех / и все остатки равны нулю. Тогда Var (у) = Var Q>), Var (е) = О и R2=l.

Если в выборке отсутствует видимая связь между .у и х, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициентов а и Ь, чтобы максимизировать R2. Не противоречит ли это нашему критерию, в соответствии с которым а и Ъ должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти критерии эквивалентны, если (2.47) используется как определение коэффициента Л2. Отметим сначала, что

i>/ = .V/-*-**/. (2.48)

откуда, беря среднее значение еі по выборке и используя уравнение (2.25), получим:

e = y-a-bx = y-[y-bx]-bx = 0. (2.49)

Следовательно,

Var(e) = IX (*,■ - ~е)2 = -п Xef. (2.50)

Отсюда следует, что принцип минимизации суммы квадратов остатков эквивалентен минимизации дисперсии остатков при условии выполнения (2.25). Однако если мы минимизируем Var(e), то при этом в соответствии с (2.47) автоматически максимизируется коэффициент R2.

 

Альтернативное представление коэффициента R2

 

На интуитивном уровне представляется очевидным, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений^, и наоборот. Покажем, что Л2 фактически равен квадрату такого коэффициента корреляции между у и pi, который мы обозначим гу. (заметим, что Cov (е, у) = 0; см. упражнение 2.12):

r           Со(у,у)    = Cov({y + e},y) = Co($,y) + Cov(e,y) =

у'у    VVar(>>)Var(5>)    VVar(>>)Var(5>) VVar^Vartf)

 

VVar(j>)Var(j>)    JVar(y) *Z,;H'

Пример вычисления коэффициента R2

Вычисление коэффициента R2 выполняется на компьютере в рамках программы оценивания регрессии, поэтому данный пример приведен лишь в целях иллюстрации. Будем использовать простейший пример с тремя наблюдениями, описанный в разделе 2.3, где уравнение регрессии

j>= 1,6667 + 1,5000* (2.52)

построено по наблюдениямх и у, приведенным в табл. 2.3. В таблице также даны у, и е, для каждого наблюдения, вычисленные с помощью уравнения (2.52), и все остальные данные, необходимые для вычисления Var (у), Var (у) и Var (е).

(Заметим, что е должно быть равно нулю, так что величина Var (е) = (l/n) ^Lef )

 

 

 

 

 

Таблица

2.3

 

 

 

 

Наблюдения

X

У

У

е

У-у

Л

у-у

{у-у)2

(у - У)

2 е*

1

1

3

3,1667

-0,1667

-1,6667

-1,5

2,7778

2,25

0,0278

2

2

5

4,6667

0,3333

0,3333

0,0

0,1111

0,00

0,1111

3

3

6

6,1667

-0,1667

1,3333

1,5

1,7778

2,25

0,0278

Сумма

6

14

14

0

 

 

4,6667

4,50

0,1667

Среднее

2

4,6667

4,6667

0

 

 

1,5556

1,50

0,0556

 

Из табл. 2.3 можно видеть, что Var (у) = 1,5556, Var (у) = 1,5000 и Var (е) = 0,0556. Заметим, что Var (у) = Var (у) + Var (е), как это и должно быть. На основании этих значений мы можем вычислить коэффициент R2, используя уравнение (2.46) или (2.47):

2 _ Vartf) _ 1,5000 R " VaTO0"U556 " '  ' (2-53)

2_     Var(e)       0.0556 \%.

 

Упражнения

Докажите, что Cov (у, ё) должна быть равна нулю, используя равенства у = a + bx, е = у — a — bx и ковариационные правила.

Используя данные, приведенные в табл. 2.3, вычислите коэффициент корреляции между у и у и убедитесь, что значение коэффициента R1, полученное путем возведения его в квадрат, является таким же, как в нашем примере.

Значения коэффициента R2 для регрессионных зависимостей (1) расходов на продукты питания и (2) расходов на жилье от располагаемого личного дохода [см. уравнение (2.42) и упражнение 2.2] составили, соответственно, 0,98 и 0,99. Какой вывод можно сделать на основании этих значений (если какой-либо вывод здесь возможен)?

Каково значение коэффициента Л2 в регрессии между характеристиками выбранного вами товара и располагаемым личным доходом? Прокомментируйте это.

Подпись:

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 |