Имя материала: Эконометрика

Автор: А.И. Новиков

4.2. проверка статистических гипотез проверка гипотезы н0: (3, = о

Статистическая значимость коэффициентов множественной линейной регрессии с к объясняющими переменными проверяется на основе /-статистики:

 

' V

имеющей распределение Стьюдента с v = п - к - 1 степенями свободы.

/-тесты для коэффициентов множественной регрессии выполняются так же, как и в парном регрессионном анализе. Отметим,

64

что критический уровень / при любом уровне значимости зависит от числа степеней свободы, которое равно (п- к - 1): число наблюдений минус число оцененных параметров (один коэффициент для каждой независимой переменной и постоянный член). Доверительные интервалы определяются точно так же, как и в парном регрессионном анализе, в соответствии с указанием относительно числа степеней свободы.

/-статистика обеспечивает эффективную проверку значимости переменной при допущении, что все другие переменные уже включены в уравнение.

Последовательный отсев несущественных факторов составляет основу многошагового регрессионного анализа. Однако по коэффициентам регрессии нельзя определить, какой из факторов оказывает наибольшее влияние на зависимую переменную, так как коэффициенты регрессии между собой несопоставимы (они измерены разными единицами).

Различия в единицах измерения факторов устраняют с помощью частных коэффициентов эластичности, рассчитываемых по формуле

где х — среднее значение изучаемого фактора.

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется зависимая переменная с изменением на 1 \% каждого фактора при фиксированном значении других факторов.

Упражнение 4.1. Регрессия зависимой переменной у на три независимые переменные на основе п = 30 наблюдений дала следующие результаты:

у          =   ( )   + 1,2*! + 1,0х2 - 0,5*3

Стандартные ошибки:          (2,1)      ( )       (0,6)     ( )

/-значения:     (11,9)     (2,4)     ( ) (2,5)

Заполните пропуски и постройте 95\%-ный доверительный интервал для значимых коэффициентов регрессии.

ПРОВЕРКА ГИПОТЕЗЫ Н0: р, = р2 = ... = рк = О

Предположим, что в модель множественной регрессии включен свободный член, тогда 755 - ESS + USS, где ESS — объясненная сумма квадратов отклонения с Vj = к степенями свободы, использованными на ее объяснение, a USS — остаточная (необъясненная) сумма квадратов с v2 = п - к - 1 степенями свободы.

Для определения того, действительно ли объясненный разброс ESS больше случайного USS, используется /-тест.

Построим /"-статистику:

F г       ESS/к ~ USS/(n-k-) (для сопоставимости .£55 и USSux значения привели на одну степень свободы).

После деления числителя и знаменателя этого выражения на TSS можно вычислить F-статистику на основе R2:

R2 п-к-1

F =       т          .

1-і?2 к

Показатели F и R2 равны или не равны нулю одновременно, поэтому принятие гипотезы Н0: F= О равнозначно статистической незначимости R2.

Величина /имеет распределение Фишера с v ] = £, v2-n-k-l степенями свободы.

Наблюдаемому (расчетному) значению критерия F соответствует определенная значимость F, которую можно вычислить в Excel с помощью функции

Значимость F = FPACIi(F; Vj.; v2).

Из сравнения значимости F с заданным стандартным уровнем значимости получаем:

если значимость /больше стандартного уровня, то R2 н е з н а -чим;

если значимость / меньше стандартного уровня, то R1 з н а -чим.

Чаще всего /-тест используется для оценки того, значимо ли объяснение, даваемое уравнением в целом.

Проверка гипотезы Я0: / = 0 равнозначна проверке гипотезы Но- Pi = Р2 = ••• - Ра = 0 °б одновременном равенстве нулю всех коэффициентов линейной регрессии, за исключением свободного члена.

Замечание. Если объясняющие способности независимых переменных перекрываются (сильная корреляция между ними), то t-mecm для каждой переменной окажется незначимым, в то время как F-mecm для уравнения в целом может быть значимым.

 

ПРОВЕРКА ГИПОТЕЗЫ Н0: pV, = рм = ... - pVm - О

Распределение Фишера можно использовать для проверки гипотезы об одновременном равенстве нулю части коэффициентов регрессии.

Пусть сначала была оценена регрессия с к объясняющими переменными

у = Ьц+1хх+... + Ькхк

и объясненная сумма квадратов составляет ESSk.

Затем добавлено еще т переменных и по тем же данным оценено уравнение

 

при этом объясненная сумма квадратов возрастает до ESSk+m.

Таким образом, объяснили дополнительно величину (ESSk+m - ESSk), использовав для этого т степеней свободы.

Требуется выяснить, превышает ли данное увеличение объясненной части то увеличение, которое может быть получено случайно (USSk+m). Используя ^-тест, соответствующую і^-статистику можно записать в виде

г_  (ESSk+m-ESSk)/m     R2k+m-R2k n-k-m-l

USSk+m/(n-k-m-l)     l-R2+m m

и в соответствии с нулевой гипотезой Н0: F- 0 она распределена с v і = /и и V2 = n-k-m-l степенями свободы.

Значимость F, соответствующая расчетному значению F, сравнивается со стандартным уровнем значимости. Если значимость F меньше стандартного уровня, то дополнительное включение в модель т переменных оправданно.

Гипотеза Я0: F- 0 равнозначна гипотезе Я0: (3А+1 = ... = pV™ = 0.

В частности, если добавить только одну переменную, то

F = Rl+x-R2n-k-2     (V]=lj  Vi = n_k_2) 1 - Кк+ 1

Пример 4.2. Пусть по данным примера 4.1 изучалась зависимость накоплений у от дохода хх и стоимости имущества х2. При включении в модель только переменной Xi уравнение регрессии у на х| имело коэффициент детерминации R2 = 0,733. После дополнительного включения в модель переменной х2 уравнение регрессии >' на X] и х2 имело R2 - 0,86.

Определим: а) значимость в целом регрессии у на х{; б) значимость регрессии унах и х2; в) верна ли гипотеза Н0: р2 = 0.

а)         При V] = 1, v2 = 5 определяем расчетное значение критерия

/ = -^ = ^•5 = 13,72. l-R2vl 0,267

Поскольку значимость F= 0,0139 < 0,05, то уравнение регрессии в целом значимо.

б)         При V] = 2, v2 = 4 определяем расчетное значение критерия

7^-^ = ^ = 12,28. ]-i?2v,    0,14 2

Поскольку значимость F= 0,0196 < 0,05, то уравнение регрессии в целом значимо.

в)         При Vj = 1, v2 = 4 определяем расчетное значение критерия

F=R22-R?v2 = 0,86-0,733 1 =362 -Rl  х 1-0,86

Поскольку значимость F= 0,129 > 0,05, то уравнение с включением переменной х2 улучшения в объяснении дисперсии у не дало, т.е. коэффициент р2 = 0-

 

ПРОВЕРКА ГИПОТЕЗЫ Н0: р" = (Г (ТЕа ЧОУ)

Пусть имеются две выборки объема nxwn2. Для каждой из этих выборок оценено уравнение регрессии с к объясняющими переменными:

ОУ = 4)' + b{xl + ... + b'kxk

с необъясненной суммой квадратов USSX (v = «і - к - 1);

 

с необъясненной суммой квадратов USS2 (v = «2 - к - 1).

Проверяется нулевая гипотеза Н0: Р' = Р", т.е. все соответствующие коэффициенты этих уравнений равны друг другу.

Пусть оценено уравнение регрессии того же вида сразу для всех («] + п2) наблюдений с необъясненной суммой квадратов USS0 (v = nx + n2-k- 1).

Тогда рассматривается F- статистика:

_ USS0 - (USSX + USS2) щ+п2-2к-2

USSl+USS2    k + l

которая имеет распределение Фишера су1=£+1иу2 = л1+л2--2к-2 степенями свободы.

.F-статистика будет близка к нулю, если USS0 = USSi + USS2, т.е. если уравнения регрессии для обеих выборок одинаковы.

Если значимость F меньше стандартного значения, то 7/0 отклоняется, т.е. нельзя построить единое уравнение регрессии для обеих выборок.

4.3. МУЛЬТИКОЛЛИНЕАРНОСТЬ

Мультиколлинеарность — это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение R2).

Если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой.

При наличии корреляции один из пары связанных между собой факторов исключается либо в качестве объясняющего фактора берется какая-то их функция. Если статистически незначим лишь один фактор, то он должен быть исключен либо заменен другим показателем.

Для отбора факторов в модель регрессии и оценки их мультиколлинеарности можно использовать матрицу парных коэффициентов корреляции (расчет корреляционной матрицы предусмотрен в стандартном программном обеспечении).

В модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Упражнение 4.2. Пусть по данным бюджетного обследования семи случайно выбранных семей изучалась зависимость накоплений у от дохода Xi, расходов на питание х2 и стоимости имущества х3. Исходные данные (усл. ед.):

 

X,

40

55

45

30

30

60

50

*2

10

15

12

8

10

20

15

Х3

60

40

40

15

90

30

30

У

2

7

5

4

2

7

6

Используя компьютерную программу «Корреляция», получите следующую матрицу парных коэффициентов корреляции:

 

 

У

*i

*2

 

У

1

 

 

 

X,

0,85

1

 

 

 

0,81

0,93

1

 

х3

-0,65

-0,38

-0,28

1

Проанализируйте целесообразность включения в модель каждого фактора.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 |