Имя материала: Эконометрика

Автор: Кремер Н.Ш.

3.6. оценка значимости уравнения регрессии. коэффициент детерминации

Проверить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

В математической статистике дисперсионный анализ рассмотрен как самостоятельный инструмент (метод) статистического анализа.

Здесь же он применяется как вспомогательное средство для изучения качества регрессионной модели.

Согласно основной идее дисперсионного анализа (см., например, [12])

 

І(У,-У)2=£[(Уі-У) + {Уі-Уі)Ї =

 

= Ш-У)2 +£(Уі-УіУ+2±(уі-уІУі-у;),

і=        /=1 /=1

или

Q= Qn+Qe, (3.41)

где Q — общая сумма квадратов отклонений зависимой переменной от средней, a Qr и Qe — соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов1.

Убедимся в том, что пропущенное в (3.41) третье слагаемое

Q3 =2^{yt -ууі ~Уі) равно 0. Учитывая (3.28), (3.11), имеем:

ы

Уі-У = Ьї{х1-х); Уі ~Уі=Уі-bo-bxxt =yi-(y-blx)-blxi=(yi-y)-bx(xi-x).

Теперь2

Оз=2±(уі-уіуі-уі)=2Ьх±(хі-хУі-у)-2Ь?±(х(-xf =0

i=        Ы i=

(с учетом соотношения (3.31)).

1          В переводной литературе Q, Qr, Qe обозначаются соответственно TSS (total sum of squares), RSS (regression sum of squares) и ESS (error sum of squares).

n

2          Из полученного соотношения видно, что ^(у/ ~Уі)= 0. Вообще говоря, это

равенство, а с ним в конечном счете и разложение (3.41), выполняется только при наличии свободного члена в регрессионной модели.

Схема дисперсионного анализа имеет вид, представленный в табл. 3.3.

Средние квадраты s и s2 (табл. 3.3) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессий или объясняющей переменной X и воздействием неучтенных случайных факторов и ошибок; т — число оцениваемых параметров уравнения регрессии; п — число наблюдений.

Замечание. При расчете общей суммы квадратов Q полезно иметь в виду, что

( п Л2

Q^yf-^-2-. (3.42) (Формула (3.42) следует из разложения Q = Hyi-y) =ЦУЇ-2УІІУі+пУ2 с учетом (3.8).)

1=1     і=1 і=1

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины sl=QR/(m-l)n s2=Qe/(n—m) имеют х2-распределение соответственно с т— 1 и п—т степенями свободы, а их отношение — /^-распределение с теми же степенями свободы (см. § 2.3). Поэтому уравнение регрессии значимо на уровне а, если фактически наблюдаемое значение статистики

Подпись: QR(n-m) Qe(m-l) sF =

0 ^га±;Ь'

(3.43)

где

a;k\;k2

—   табличное   значение   /^-критерия Фишера—

Снедекора, определенное на уровне значимости а при к=т— 1 и к2=п—т степенях свободы.

Учитывая смысл величин  s\%  и s2, можно сказать, что

значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

В случае линейной парной регрессии т = 2, и уравнение регрессии значимо на уровне а, если

F=a^2)>W2        (3 44)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии Ъ, который, как отмечено в § 3.4, имеет /-распределение Стьюдента с к=п—2 степенями свободы.

Уравнение парной линейной регрессии или коэффициент регрессии Ь значимы на уровне а (иначе — гипотеза Щ о равенстве параметра Pj нулю, т. е. Щ: Рі=0, отвергается), если фактически наблюдаемое значение статистики (3.37)

}І(хі-х)2 (3.45) больше    критического    (по    абсолютной    величине),    т. е.

И>'і-а;Л-2.

Можно показать, что для парной линейной модели оба способа проверки значимости с использованием F- и /-критериев равносильны, ибо эти критерии связаны соотношением F= /2.

В ряде прикладных задач требуется оценить значимость коэффициента корреляции г (§ 3.3). При этом исходят из того, что

гд/и-2

при отсутствии корреляционной связи статистика / =

Vl-r2

имеет /-распределение Стьюдента с п — 2 степенями свободы.

Коэффициент корреляции г значим на уровне а (иначе — гипотеза #о о равенстве генерального коэффициента корреляции р нулю, т. е. Но'. р=0, отвергается), если

И = |   >t

-а;п-2 ?

 

|V^2 (3.46)

 

где /i_a;w_2— табличное значение /-критерия Стьюдента, определенное на уровне значимости а при числе степеней свободы п—2.

Легко показать, что получаемые значения /-критерия для проверки гипотез р=0 по (3.45) и р=0 по (3.46) одинаковы.

► Пример 3.4.

По данным табл. 3.1 оценить на уровне а=0,05 значимость уравнения регрессии Y по X.

Решение. 1-й способ. Выше, в примерах 3.1, 3.2 были

10 10

найдены:       = 68, £^=496.

/=1 /=і

Вычислим необходимые суммы квадратов по формулам (3.40), (3.42):

ро Л2

10        10        ^*Уі ссп

е-1Ы-7)2-1^-Ц?Г^ = 496-^г = 33,6;

1 = 1   /=1       AW AW

Qe = Z(P* ->0 =       = 8,39 (см. табл. 3.2);

i= i=

QR=Q-Qe =33,6-8,39 = 25,21. По формуле (3.43)

Fm 25.2ВД0-2)

8,39

По таблице /"-распределения (табл. IV приложений) /7о,05;1;8==4,20. Так как /^/^os^s? то уравнение регрессии значимо.

ю

2-й  способ.   Учитывая,   что   &i=l,016,   ^(хгх) =24,40,

/=і

s2= 1,049 (см. пример 3.3, табл. 3.2), по формуле (3.45)

/ = 4==^724^Ю= 4,90.1 Vl,049

По таблицам /-распределения (табл. II приложений) /о?95;8=2,31. Так как / > /о,95;8> то коэффициент регрессии Ь9 а значит, и уравнение парной линейной регрессии Y по ЛҐ значимы. ►

1 Тот же результат может быть получен по формуле (3.46), учитывая, что

г = 0,866 (см. пример 3.2): t = 0^66^10"2 = 4,90.

VI - 0,8662

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, (или, как

говорят, мерой качества подгонки регрессионной модели к наблюденным значениям yt), характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле

R2 = Q^ = l_Qe_ (347)

Q Q

Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной. Так как О < QR < Q, то 0 < R2 < 1.

Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если 7?2=1, то эмпирические точки (xif у) лежат на линии регрессии (см. рис. 3.3) и между переменными Y и X существует линейная функциональная зависимость. Если R2= О, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс (см. рис. 3.4).

Заметим, что коэффициент R2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае, как уже отмечалось, верно равенство (3.41), а следовательно, и (3.47).

Если известен коэффициент детерминации Л2, то критерий значимости (3.43) уравнения регрессии или самого коэффициента детерминации может быть записан в виде

 

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т. е. R2=r2. Действительно, учитывая (3.12), (3.17),

R2=^ =

Q *

 

п    ІІУі-уУ   Ytfixi-xf   Ь^(хі-xf iп

2 _        _ Ы                M         i=l      

Ш-У)1     ±(yi-yf ±{Уі-у)2Ш

і= і=

Подпись: f 7 ЛПодпись: bSx V sy Jb[sl

S2

 

► Пример 3.5.

По данным табл. 3.1 найти коэффициент детерминации и пояснить его смысл.

Решение. В примере 3.4 было получено Qr =25,21, Q = 33,6.

По формуле (3.47) /?2 = бл =25!21=0750 (Коэффициент

Q 33,6

детерминации можно было вычислить и иначе, если учесть, что в примере 3.2 был вычислен коэффициент корреляции г=0,866. Тогда Л2=гМ),8662=0,750.)

Это означает, что вариация зависимой переменной У — сменной добычи угля на одного рабочего — на 75,0\% объясняется изменчивостью объясняющей переменной X— мощностью пласта. ►

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 |