Имя материала: Институт экономики переходного периода

Автор: Носко Владимир Петрович

2.8. проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериев

Приводимая ниже таблица содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.):

где Xj — значение показателя Xj в i-м наблюдении (i-му

наблюдению соответствует (1948 + i) год, и xt 1 = 1 (значения

«переменной» X1, тождественно равной единице). Будем, как

обычно, предполагать что   ,£12 ~ і. і. d. N(0,a2) ичто

Обращают на себя внимание выделенные P - значения. В соответствии с ними, проверка каждой отдельной гипотезы H0 : в 2 = 0, H0 : в 3 = 0 (даже при уровне значимости 0.10)

приводит к решению о ее неотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр ( в 2 или в 3 ) признается статистически

незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации.

По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы H0 : ^2 = @ 3 = 0 ,

конкретизирующей значения не какого-то одного, а сразу двух коэффициентов.

И вообще, как проверить гипотезу

 

(гипотеза значимости регрессии) в рамках нормальной линейной модели множественной регрессии

yi =#1 *i 1 +•••+#pXjp +£i , i =      n ,

с xt 1 = 1?

Соответствующий статистический критерий основывается на так называемой F-статистике

f _(RSSHo - RSS )/(р -1) RSS/(n - p)     ~ '

Здесь RSS — остаточная сумма квадратов, получаемая при оценивании полной модели (с p объясняющими переменными, включая тождественную единицу), a RSSHo — остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой H0 ограничениями на параметры. Но последняя (редуцированная) модель имеет вид

01 - y ,

так что

Rssho = It (у, ~ у, У = I (у, ~ у, У = tss .

i=1 i=1

yt = flj +st , i = 1,n ,

Следовательно,

F _{TSS - RSS)l(p -1) = ESS/{p -1) RSS/ (n - p)        RSS/ (n - p)

В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты — Mean Squares).

Если є ,,..., є    ~ i. i. d.  N(0,a2), то указанная F-

статистика, рассматриваемая как случайная величина, имеет при гипотезе H0 (т. е. когда действительно в 2 = ...= в p= 0) стандартное распределение   F(p - 1, n - p), называемое F-

распределением Фишера с (p-1) и (n-p) степенями свободы.

Чем больше отношение ESS RSS, тем больше есть оснований говорить о том, что совокупность переменных X2,...,Xp действительно помогает в объяснении изменчивости объясняемой переменной Y.

В соответствии с этим, гипотеза

Н0 :  02 = 03 =••• = 0 p = 0

отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня (1 -а) распределения F(p- 1, n -p), обозначаемая символом

F1-a{p ~ 1 n ~ p) .

Итак, гипотеза Н0 отвергается, если выполняется неравенство

ESS/ (p -1) ,

F =       —        '-> F (d

RSS/(n - p)> F1-a {P

При этом, вероятность ошибочного отвержения гипотезы H0 равна а.

Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также значение F указанной F-статистики и соответствующее QM^_P-3Ha4eHue(P-value), т. е. вероятность

Р [F(p -1, n -p)> F

В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию вычисленное (наблюдаемое) значение F-статистики равно F = 97.75, в то время как критическое значение

F0.95 (2, 9) = 4.26 .

H02 :  # 2 = 0 | и |H03 :  ^3 = 0|,

рассматриваемая сама по себе, в отрыве от второй, не отвергается.

Подобное положение встречается не так уж и редко и связано с проблемой мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание.

Что касается рассмотренных до этого примеров, то для них результаты использования F-статистики таковы.

Пример. Анализ данных об уровнях безработицы среди белого и цветного населения США приводит к следующим результатам:

R2 = 0.212 , F = 4.0446, Р-значение = 0.0626, так что при выборе а - 0.05 гипотеза H0 не отвергается, а при выборе

а - 0.10 отвергается.

Соответственно, Р -значение крайне мало — в распечатке результатов приведено значение 0.000000. Значит, здесь нет практически никаких оснований принимать составную гипотезу H0: в 2 -9 3 - 0 , хотя каждая из частных гипотез

Пример. Анализ зависимости спроса на куриные яйца от цены приводит к значениям

R2 = 0.513 , F = 13.7241, P -значение = 0.0026, так что гипотеза H0 отвергается, а регрессия признается статистически

значимой.

Пример. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом:

R2 = 0.900, F = 71.96, P -значение = 0.0000, регрессия признается статистически значимой.

Пример. Потребление свинины в США в зависимости от оптовых цен:

R2 = 0.054 , F = 0.6915, P -значение = 0.4219, так что гипотеза H0 не отвергается даже при выборе а = 0.10.

Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели простой (парной) линейной регрессии (p=2) вычисленные P -значения F-статистик совпадают с P -значениями t -статистик, используемых для проверки гипотезы вг = 0 . Факт такого совпадения отнюдь не случаен и может быть доказан с использованием преобразований, приведенных, например, в книге Доугерти (параграф 3.11).

Применение критериев, основанных на статистиках, имеющих при нулевой гипотезе F -распределение Фишера (F-критерии), отнюдь не ограничивается только что рассмотренным анализом статистической значимости регрессии. Такие критерии широко применяются в процессе подбора модели.

Пусть мы находимся в рамках множественной линейной

модели регрессии    

мр : Уі =&1xi 1 +•••+# p-qxi, p-g +---+&pxip +£i, i = 1 •• -,n

с р объясняющими переменными, и гипотеза Н0 состоит

в том, что в модели М р последние q коэффициентов равны

нулю, т. е.     

Но : 0 р -9 р-  p-q+1 - 0 .

Тогда при гипотезе Н0 (т. е. в случае, когда она верна) мы

имеем редуцированную модель     

Mp-q :     Уг  =віХг 1 +- + 9 p-q*i, p-q          ,    * = 1 -,П ,

уже с р - q объясняющими переменными.

Пусть RSS - остаточная сумма квадратов в полной модели М р, a RSSHo — остаточная сумма квадратов в редуцированной модели М p_q. Если гипотеза Н0 верна и выполнены стандартные   предположения   о  модели   (в частности,

..,£ n ~ i. i. d. N(o,a2)), то тогдаF-статистика

рассматриваемая как случайная величина, имеет при гипотезе H0 (т. е. когда действительно вp = вp-1 = ...= 0p-q+1= 0) F-распределение Фишера F (q, n-p) с q и (n-p) степенями свободы.

В рассмотренном ранее случае проверки значимости регрессии в целом мы имели q = 1, и при этом там имело равенство RSSH - RSS = ESS , которое не выполняется в общем

случае.

Пусть

ESS = TSS - RSS I — сумма квадратов, объясняемая полной

моделью М ,

j ESSH0 = TSS - RSSH 0 j — сумма квадратов, объясняемая

редуцированной моделью М p_q.

Тогда 

ESS - ESSH = RSSH - RSS ,

H 0      H 0 '

так что F-статистику можно записать в виде

f      (ESS - essh 0 )lq

RSS/(n - p) '

из которого следует,что F-статистика измеряет, в соответствующем масштабе, возрастание объясненной суммы квадратов вследствие включения в модель дополнительного количества объясняющих переменных.

Естественно считать, что включение дополнительных переменных существенно, если указанное возрастание объясненной суммы квадратов достаточно велико. Это приводит нас к критерию проверки гипотезы

 

основанному на F-статистике        

(RSSH0 - RSS)/q    (ESS - ESSH 0 )/q

F ~    RSS/(n - p)    ~    RSS/(n - p)

и отвергающему гипотезу H0 , когда наблюдаемое значение F этой статистики удовлетворяет неравенству

F > F1-a{p ~ 11, n ~ p),

где а — выбранный уровень значимости критерия (вероятность ошибки 1-го рода).

Пример. В следующей таблице приведены данные по США о следующих макроэкономических показателях:

DPI — годовой совокупный располагаемый личный доход;

C — годовые совокупные потребительские расходы; A — финансовые активы населения на начало календарного года

(все показатели указаны в млрд. долларов, в ценах 1982 г.).

вх +в2DPI, +6?3At +в4DPItl +et , t

1... ,11

где индексу t соответствует (1965 +1) год. Это модель с

4 объясняющими переменными:    

X1 = 1, X2 = DPI, X3 = A, X4 = DPI(-1);

символ DPI(-1) обозначает переменную, значения которой запаздывают на одну единицу времени относительно значений переменной, DPI0 = 1367,4. Оценивание этой модели дает следующие результаты:

Подпись: 0.904 -0.029

в

в

6» 4 =-0.024

P - value = 0.0028 ; P - value = 0.8387 ; P - value = 0.9337 ; RSS = 2095.3, TSS = 268835, R2 = 1

 

(RSS/TSS) = 0.9922

F — статистика критерия проверки значимости регрессии в целом

F = 297.04,    P - value = 0.0000.

Регрессия имеет очень высокую статистическую значимость. Вместе с тем, каждый из коэффициентов при двух последних переменных статистически незначим, так что, в частности, не следует придавать особого значения отрицательности оценок этих коэффициентов.

Используя t — критерий, мы могли бы попробовать удалить из модели какую-нибудь одну из двух последних переменных, и если оставшиеся переменные окажутся значимыми, то остановиться на модели с 3 объясняющими переменными; если же и в новой модели окажутся статистически незначимые переменные, то произвести еще одну редукцию модели.

Рассмотрим, в этой связи, модель  

|М2 : с, =вх + в2DPI, +въA, + є, , t = 1,...,І~С

с удаленной переменной DPI(-1) . Для нее получаем:

в 2 = 0.893 ,    P - value = 0.0001 ;

в 3 =-0.039 ,     P - value = 0.6486 ;

RSS = 2098.31, R2 = 0.9922 ;

F-статистика критерия проверки значимости регрессии в этой модели

F = 508.47,    P - value = 0.0000.

Поскольку здесь остается статистически незначимым ко-

эффициент при переменной A, можно произвести дальней-

шую редукцию, переходя к модели           

М3 : Ct =вх + в2DPI, +є, , t = 1,.„,11

Для этой модели

в 2 = 0.843 ,     P - value = 0.0000 ; RSS = 2143.57, R2 = 0.9920 ;

F-статистика критерия проверки значимости регрессии в этой модели

F = 1119.7,    P - value = 0.0000,

и эту модель в данном контексте можно принять за окончательную.

С другой стороны, обнаружив при анализе модели М1 (посредством применения t-критериев) статистическую незначимость коэффициентов при двух последних переменных, мы можем попробовать выяснить возможность одновременного исключения из этой модели указанных объясняющих переменных, опираясь на использование соответствующего F-критерия.

Исключение двух последних переменных из модели М1 соответствует гипотезе H0 : в 3 = в 4 = 0 ,

при которой модель М1 редуцируется сразу к модели М 3. Критерий проверки гипотезы H0 основывается на статистике

f _(RSSH 0 - RSS )/q

RSS/ (n - p) , где RSS — остаточная сумма квадратов в модели М1, RSSHo — остаточная сумма квадратов в модели М 3, q = 2 — количество зануляемых параметров, n - p = 11 - 4 = 7. Для наших данных получаем значение

(2143.57 - 2095.3V2

F = ±   ■          ^- = 0.08 ,

2095.3 7

которое следует сравнить с критическим значением F095(2,7) = 4.74. Поскольку F < F095(2,7), мы не отвергаем гипотезу Ий:в 3 = в 4 = 0 и можем сразу перейти от модели М1 к модели М 3.

Замечание. В рассмотренном примере мы действовали двумя способами:

Дважды использовали t -критерии, сначала приняв (не отвергнув) гипотезу IH0: в 4 = 01 в рамках модели М1, а затем

приняв гипотезу |H0: в 3 - 0в рамках модели М2.

Однократно использовали F-критерий, приняв гипотезу в рамках модели М1.

H0:0 3 = 0 4 = 0

Выводы при этих двух альтернативных подходах оказались одинаковыми. Однако, из выбора модели М3 в подобной

последовательной процедуре, вообще говоря, не следует что такой же выбор будет обязательно сделан и при применении F-критерия, сравнивающего первую и последнюю модели.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 |