Имя материала: Эконометрика

Автор: А.И. Новиков

2.2. анализ вариации зависимой переменной

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у.

Пусть на основе выборочных наблюдений построено уравнение регрессии у, тогда значение зависимой переменной у в каждом наблюдении можно разложить на две составляющие:

Уі = У,+еп

где остаток е, есть та часть зависимой переменной у, которую невозможно объяснить с помощью уравнения регрессии.

Разброс значений зависимой переменной характеризуется выборочной дисперсией ат(у). Разложим дисперсию var(y):

var(y) = var(.y + е) = var(j>) + var(e) + 2cov(j>, e).

Поскольку cov( y, e) = О, то

var(j) = var(j)) + var(e). (2.5)

Таким образом, дисперсия var(y) разложена на две части:

var(j)) — часть, объясненная регрессионным уравнением;

var(e) — необъясненная часть.

Коэффициентом детерминации R2 называется отношение

Jj2 = var№ = 1_va!Wi о<Я2<1, var(^) var(y)

характеризующее долю вариации (разброса) зависимой переменной, объясненную с помощью уравнения регрессии. var(e)

Отношение    — представляет собой долю необъясненной

г.т{у)

дисперсии.

Если R2 = 1, то подгонка точная:

var(j;) = var(j>),  var(e) = 0,  у, = у„  i = 1, п,

т.е. все точки наблюдения лежат на регрессионной прямой. Если R2 = 0, то регрессия ничего не дает:

var(j>) = var(e),  var(j>) = 0,  j>, = у,  і = 1, п,

т.е. переменная х не улучшает качества предсказания у по сравнению с горизонтальной прямой у - у.

Чем ближе к единице R2, тем лучше качество подгонки, т.е. у более точно аппроксимирует у.

Замечание. Вычисление R2 корректно, если константа а включена в уравнение регрессии.

Пример 2.1. Покажем, что I~R~2 = гу<у, где гуу — коэффициент корреляции между у и у.

Действительно, учитывая соотношение

cov(j), у) = cov(j), у + е) = cov(j), у) + cov(y, е) = var(j>),

получим

r   =    covjy, у)    =   arjy) = ^2 у'у    y/var(y)var(y) yvar(y)

Пример 2.2. Покажем, что гу = гху в случае парной регрессии у - а + Ьх.

Действительно, из соотношений

cov(j), у) = cov(a + Ьх, у) - bcov(x, у),

var( у) = var(a + Ьх) = b2 var(x) имеем

=    со(у,у)    =    cov(x,y)    = г у'у    у/аг(у)аг(у)    ,/var(x)var(>>) х'у

Вывод. В случае парной регрессии коэффициент детерминации есть квадрат коэффициента корреляции переменных х и у, т.е. R2 = г2 у.

Пример 2.3. Зависимость переменной в регрессии у = а + (Зх + є разбивается на две компоненты: у = у1 + у2. Рассмотрим две регрессии для компонент:

 

Докажем следующие соотношения для МНК-оценок параметров двух регрессий: а -ах + а2,  Ь-Ьх + Ь2. Действительно,

b = cov(x,у) = cov(x,yx +у2) _ cov(x,^) + cov(x,у2) = ,+ь

var(x)   var(x)   var(x) 2'

а = у - Ьх = (ух + у2) - x{t + Ь2) = ах + а2.

Пример 2.4. Покажем, что если все значения переменных изменить на одно и то же число или в одно и то же число раз, то величина коэффициента b в парной регрессии не изменится.

Пустьх' = х + с,  у'-у + с,тогда

_ cov(x', у') _ cov(x + с,у + с) _ cov(x, у) _

var(x')  var(x + с) var(xr)

Пустьх' = toe,  у'= ку, тогда

^, _ cov(x', у') _ cov(toc, ку) _ к2 cov(x, у) _ var(x')        var(toc) k2var(x)

 

F-TECT НА КАЧЕСТВО ОЦЕНИВАНИЯ

Для определения статистической значимости коэффициента детерминации R2 проверяется гипотеза Н0: F- О для /-статистики:

F = R2(n-2) l-R2

Величина F имеет распределение Фишера с V| = 1, v2 = п - 2. Проверку значимости R2 можно выполнить двумя способами.

Критическое значение FKp при заданных a, vb v2 определяется по таблице ^-распределения Фишера или в Excel с помощью функции

FKp = .РРАСПОБР (ОС;  V1#- V2).

Из сравнения наблюдаемого значения Fc критическим получаем:

если F< FKp, то Н0 принимается, т.е. R1 незначим;

если F> FKp, то Щ отвергается, т.е. R2 значим.

Наблюдаемому (расчетному) значению критерия /"соответствует определенная значимость F, которую можно вычислить в Excel с помощью функции

Значимость F = FPACII (F; V1#- V2).

Из сравнения значимости F с заданным стандартным уровнем значимости получаем:

если значимость /"больше стандартного уровня, то R2 н е з н а -чим;

если значимость F меньше стандартного уровня, то R2 значим.

 

3-2337

Чаще всего .F-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом.

 

СРЕДНЯЯ ОШИБКА АППРОКСИМАЦИИ

Оценку качества построенной модели дает коэффициент детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации — среднее отклонение расчетных значений зависимой переменной от фактических:

у-у

100\%.

п

у

Допустимый предел значений А — не более 8—10\%.

Пример 2.5. Построим регрессионные зависимости: а) расходов на питание у и личного дохода х; б) расходов на питание у и времени t — по следующим данным (усл. ед.):

 

Год

1990

1991

1992

1993

1994

л:

2

6

10

14 ^

18

У

1

2

4

11

12

 

и оценим качество подгонки.

а) Пусть истинная модель описывается выражением у = а + (к + є.

По выборочным наблюдениям определяем оценки (а, Ь).

Исходные данные и расчетные показатели удобно представить в виде следующей таблицы:

 

 

Год

X

У

X2

ху

У

(у-у)2

(у-у)2

(у-у)2

1990

2

1

4

2

-0,2

25

38,44

1,44

1991

6

2

36

12

2,9

16

9,61

0,81

1992

10

4

100

40

6

4

0

4

1993

14

11

196

154

9,1

25

9,61

3,61

1994

18

12

324

216

12,2

36

38,44

0,04

Итого

50

30

660

424

30

106

96,1

9,9

Среднее

10

6

132

84,8

6

21,2

19,22

1,98

X

У

72

ху

У

var(y)

var(^)

var(e)

Окончательно имеем

cov(x, у) = ху - х у = 84,8 - 60 - 24,8,

var(x) = Xі - (х)2 = 132 -100 = 32,

cov(x,y)    24,8            _          ,   „71! ,„     , пс:

b =       — =     = 0,775,  а = у-Ьх = Ь- 0,775 • 10 = -1,75.

var(jc) 32

Следовательно, у - -1,75 + 0,775х.

Коэффициент b = 0,775 показывает, что при увеличении дохода на 1 усл. ед. расходы на питание увеличиваются в среднем на 0,775 усл. ед.

Замечание. В Excel оценки (а, Ь) можно также определить с помощью функций:

а = ОТРЕЗОК (массив у; массив х),

b = НАКЛОН (массив у; массив х).

Условие var(j) = var(j>) + var(e) выполняется. Качество подгонки оцениваем коэффициентом детерминации:

R2 = ™У> = 1^2 = 0,907, var(y) 21,2

т.е. 90,7\% вариации зависимой переменной (расходы на питание) объясняется регрессией.

Значимость коэффициента R2 проверяем по /'-тесту:

/,= ^-2) = 0190L3 = l-R2 0,093

Выполним проверку значимости R2 двумя способами.

При а = 0,05, V] = 1 и v2 = 3 по таблице или с помощью функции FPACrtOBP(a; v1#- v2) находим FKp = 10,13. Поскольку F= 29,2 > FKp = 10,13, то R2 = 0,907 значим при 5\%-ном уровне.

Наблюдаемому (расчетному) значению критерия Е= 29,2 соответствует значимость F= 0,0124, которую можно определить в Excel с помощью функции

Значимость F = FPhCTl{F; v1; V2),

гдеу, = 1, v2 = 3.

Поскольку значимость F= 0,0124 < 0,05, то R2 значим при уровне 5\%.

б) Пусть истинная модель у = а + р/ + є (модель временного ряда). Выборочная регрессия у - а + bt, где t — время, определяемое как t- 1 для 1990 г., t = 2 для 1991 г. и т.д.

Представим исходные и расчетные показатели в виде таблицы:

A = J^H-= 2^8=3,1,  в = 7-АГ = 6-3,1.3 = -3,3. /2-(02 11-9

Следовательно, j> = -3,3 + 3,1/.

Коэффициент Ъ = 3,1 показывает, что за год расходы на питание в среднем возрастают на 3,1 усл. ед.

Пример 2.6. Покажем, что в модели регрессии без свободного члена У= $Х+ є оценка МНК для р есть

■ _ 2>,У, _ ху

 

Выборочная регрессия для этой модели у = Ъх. Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением у, = у, + et. Оценку Ъ найдем из минимизации величины

Q = 5>,2 = 5>, - bx,f = 2>,2 - 2*Хзд + й21х2. Получаем

a' = -2X*,y,+2Z>2>,2=0,

Вычисление R при отсутствии свободного члена некорректно.

Пример 2.7. Покажем, что в модели регрессии Y= а + є оценка МНК для а есть а = у.

Выборочная регрессия для заданной модели есть у, = а. Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением у, = yt+e, = а + е,. Оценку а найдем из минимизации величины

Q = Xе'2 = 5>, " о? = ІУ? - 2*5>. + па2. Получаем

£=-25>,+2*/i = 0,

откуда

 

Выборочная регрессия у = у.

Упражнение 2.1. По данным примера 2.5 покажите, что зависимость расходов на питание у от личного дохода х для модели регрессии без свободного члена есть у = 0,642х, при этом у Ф у и var(y) * var(y) + var(e).

 

КОНТРОЛЬНЫЕ ВОПРОСЫ

С чем связана ошибка регрессии?

В чем заключается метод наименьших квадратов?

Каков смысл коэффициента регрессии и каким способом его оценивают?

Что характеризует коэффициент детерминации?

Для чего используется F-критерий Фишера?

В чем смысл средней ошибки аппроксимации и как она определяется?

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 |