Имя материала: Эконометрика

Автор: Кремер Н.Ш.

5.2. отбор наиболее существенных объясняющих переменных в регрессионной модели

Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образует пару объясняющих переменных, имеющую с Y наиболее высокий (скорректированный) коэффициент детерминации. На третьем шаге вводится в регрессию еще одна объясняющая переменная, которая вместе с двумя первоначально отобранными образует тройку объясняющих переменных, имеющую с Y наибольший (скорректированный) коэффициент детерминации, и т. д.

Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться соответствующий (скорректированный) коэффициент детерминации Л2 (более точно — минимальное значение /?2ІП).

 

► Пример 5.1. По данным п= 20 сельскохозяйственных районов области исследуется зависимость переменной Y — урожайности зерновых культур (в ц/га) от ряда переменных — факторов сельскохозяйственного производства:

Х — число тракторов (приведенной мощности на 100 га);

Х2 — число зерноуборочных комбайнов на 100 га;

Х$ — число орудий поверхностной обработки почвы на 100 га;

Х4 — количество удобрений, расходуемых на 1 га (т/га);

Х5 — количество химических средств защиты растений, расходуемых на 1 га (ц/га).

Исходные данные1 приведены в табл. 5.1.

1 Пример заимствован из [1]. Там же на с. 632 приведены полностью исходные данные.

В случае обнаружения мультиколлинеарности принять меры по ее устранению (уменьшению), используя пошаговую процедуру отбора наиболее информативных переменных.

Решение. По формуле (4.8) найдем вектор оценок параметров регрессионной модели b =(3,515; -0,006; 15,542; 60,110; 4,475; —2,932)', так что в соответствии с (4.9) выборочное уравнение множественной регрессии имеет вид:

j) = 3,515-0,006^1+15,542^2+0,110^3+4,475^4-2,932^5. (5,41)   (0,60)   (21,59)    (0,85)    (1,54) (3,09) В скобках указаны средние квадратические отклонения (стандартные ошибки) sb. коэффициентов регрессии Ьи вычисленные по

формуле (4.22). Сравнивая значения /-статистики (по абсолютной величине)  каждого коэффициента регрессии   р7   по формуле

 

tb         (/= 0,1,2,3,4,5), т. е. tbQ =0,65; tk =-0,01; th =0,72; th =0,13;

 

tb4 = 2,91; tbs = — 0,95 с критическим значением t0 95.l4 = 2,14, определенным по табл. II приложений на уровне значимости <х=0,05 при числе степеней свободы к = п — р — 1 = 20 — 5 — 1 = 14, мы видим, что значимым оказался только коэффициент регрессии £4 при переменной Х4 — количество удобрений, расходуемых на гектар земли.

Вычисленный по (4.33) множественный коэффициент детерминации урожайности зерновых культур Y по совокупности пяти факторов (X—Xs) сельскохозяйственного производства оказался равным Л£і2345 =0,5 1 7, т. е. 51,7\% вариации зависимой переменной

объясняется включенными в модель пятью объясняющими переменными. Так как вычисленное по (4.35) фактическое значение ^=3,00 больше табличного ^о,05;5;14=2,96, то уравнение регрессии значимо по ^-критерию на уровне <х=0,05.

По формуле (3.20) была рассчитана матрица парных коэффициентов корреляции:

 

Переменные

Y

Х

х2

Хз

х4

х5

Y

1,00

0,43

0,37

0,40

0,58*

0,33

Хх

0,43

1,00

0,85*

0,98*

0,11

0,34

Х2

0,37

0,85*

1,00

0,88*

0,03

0,46*

Хз

0,40

0,98*

0,88*

1,00

0,03

0,28

Ха

0,58*

0,11

0,03

0,03

1,00

0,57*

х5

0,33

0,34

0,46*

0,28

0,57*

1,00

Знаком* отмечены коэффициенты корреляции, значимые по /-критерию (3.46) на 5\%-ном уровне.

Анализируя матрицу парных коэффициентов корреляции, можно отметить тесную корреляционную связь между переменными Хх и Х2 (г12= 0,85), Х{ и Хъ (пз = 0,98), Х2 и Хъ (г23 = 0,88), что, очевидно, свидетельствует о мультиколлинеарности объясняющих переменных.

Для устранения мультиколлинеарности применим процедуру пошагового отбора наиболее информативных переменных.

7-й шаг. Из объясняющих переменных Х—Х$ выделяется переменная А4, имеющая с зависимой переменной Y наибольший коэффициент детерминации  /?2.7 (равный для парной модели

квадрату коэффициента корреляции г2). Очевидно, это переменная А4, так как коэффициент детерминации Щаг =гу4 =0,582 =0,336 — максимальный. С учетом поправки на несмещенность по формуле (4.34) скорректированный коэффициент детерминации Щл = 1 -—(і - 0,33б) = 0,299.

18

й шаг. Среди всевозможных пар объясняющих переменных А4, XjJ =1,2,3,5, выбирается пара (А4, A3), имеющая с зависимой переменной Y наиболее высокий коэффициент детерминации Ry.4j - Ry.43= 0,483     и    с    учетом    поправки    по (4.34)

 

^-43 = 1 -    (1 - 0,483) = 0,422.

й шаг. Среди всевозможных троек объясняющих переменных (А4, A3, A,), j = 1,2,5, наиболее информативной оказалась тройка (а4, a3, а5), имеющая максимальный коэффициент детерминации /?24з7 =/?2435 =0,513 и соответственно скорректированный коэффициент /г2435 = 0,422 .

Так как скорректированный коэффициент детерминации на 3-м шаге не увеличился, то в регрессионной модели достаточно ограничиться лишь двумя отобранными ранее объясняющими переменными А4 И A3.

Рассчитанное по формулам (4.8), (4.9) уравнение регрессии по этим переменным примет вид: j> = 7,29+3,48Jf3+3,48Jf4.

(0,66) (0,13) (1,07) Нетрудно убедиться в том, что теперь все коэффициенты регрессии значимы, так как каждое из значений /-статистики

,=^ = 11,0; t    ^48 =26,8; /,=^ = 3,25

0   0,66           3   0,13           4 1,07

больше соответствующего табличного значения /0 95;17=2,11.

Замечание. Так как значения коэффициентов корреляции весьма высокие (больше 0,8): гі2=0,85, гіз=0,98, Г2з=0,88, то, очевидно, из соответствующих трех переменных Х, Хі, A3 две переменные можно было сразу исключить из регрессии и без проведения пошагового отбора, но какие именно переменные исключить — следовало решать, исходя из качественных соображений, основанных на знании предметной области (в данном случае влияния на урожайность факторов сельскохозяйственного производства). ►

Кроме рассмотренной выше пошаговой процедуры присоединения объясняющих переменных используются также пошаговые процедуры присоединения—удаления и процедура удаления объясняющих переменных, изложенные, например, в [1]. Следует отметить, что какая бы пошаговая процедура ни использовалась, она не гарантирует определения оптимального (в смысле получения максимального коэффициента детерминации R2) набора объясняющих переменных. Однако в большинстве случаев получаемые с помощью пошаговых процедур наборы переменных оказываются оптимальными или близкими к оптимальным.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 |