Имя материала: Институт экономики переходного периода

Автор: Носко Владимир Петрович

2.6. доверительные интервалы для коэффициентов: реальные статистические данные

Итак, практическому построению доверительных интервалов для коэффициентов  в j  нормальной модели линейной

множественной регрессии  

E (S 2 ) =

а2

 

т. е. S2 — несмещенная оценка для а2.

Замечание. В частном случае p = 1 модель наблюдений

принимает вид         

yt =01 +є і , і = 1,n,

(случайная выборка из распределения N (0і,а2)). Несмещенной оценкой для а2 служит

S 2 _ RSS ~ n -1 .

Оценкой наименьших квадратов для параметра в 1 является 6* 1 = у , так что RSS = ^    - у) = TSS , и

n

 

S2 =^   = Var (y) .

            n -1     

Таким образом, выборочная дисперсия Var (у) переменной у, получаемая делением TSS именно на n - 1 (анена n ), является несмещенной оценкой для о2 в модели случайной выборки из нормального распределения, имеющего дисперсию о2. Этим и объясняется сделанный нами выбор нормировки при определении выборочных дисперсий и ковариаций.

При выполнении стандартных предположений отношение

|(n - p)S2 _ RSS

 

имеет стандартное распределение, называемое распределением хи-квадрат с (n-p) степенями свободы. Такое же распределение имеет сумма квадратов n — p случайных величин, независимых в совокупности и имеющих одинаковое

стандартное нормальное распределение. При п - р = 15 график функции плотности этого распределения имеет вид

0.08

Для обозначения распределения хи-квадрат с К степенями свободы используют символ ^(К).

на

заменить неизвестное нам значение

Итак, мы не знаем истинного значения а2 и поэтому в попытке построить доверительный интервал для в j вынуждены

D(e j ) = [а2( XTX) 1

его несмещенную оценку

 

Соответственно, вместо отношения

0,-0,

 

приходится использовать отношение

I . I

0,-0

s9,

Однако последнее отношение как случайная величина уже не имеет стандартного нормального распределения, поскольку в знаменателе теперь стоит не постоянная, а случайная величина.

Тем не менее, распределение последнего отношения также относят к стандартным, и оно известно под названием t-распределения Стъюдента с (n-p) степенями свободы,

Для распределения Стьюдента с К степенями свободы принято обозначение t (К). Квантиль уровня р такого распределения будем обозначать символом tp (K). График функции плотности распределения Стьюдента симметричен относительно нуля и похож на график функции плотности нормального распределения. Например, при К= он имеет следующий вид (левый график),

0.5-. 0.4. 0.3-

о

0.20.1 -

°4         ,           ,           ,           ,           ,           ,           ,           ,

-4         -2         0          2          4          ^-2       0          2 4

Z Z

Для сравнения, справа приведен график функции стандартного нормального распределения. Отличие графиков столь невелико, что визуально они почти неразличимы. Квантили этих двух распределений различаются более ощутимо: г0.95 = 1.645 , t0,5 (10) = 1.812 ;

z0975 = 1.960 , 10.975(10) = 2.228;

Zo.99 = 2.326, 10.99 (10) = 2.764;

Z0.995 = 2.576,   t0.995 (Ю) = 3.169.

Распределение Стьюдента имеет более тяжелые хвосты. Из приведенных значений квантилей следует, например, что случайная величина, имеющая стандартное нормальное распределение, может превысить значение 1.645 лишь с вероятностью 0.05. В то же самое время, с такой же вероятностью 0.05 случайная величина, имеющая распределение Стьюдента с 10 степенями свободы, принимает значения, большие, чем 1.812.

Впрочем, для значений K > 30 квантили распределения Стьюдента t(K) практически совпадают с соответствующими

квантилями стандартного нормального распределения N(0,1). Итак,

6,-6

j ~ t(n - p).

 

Поэтому для этой случайной величины выполняется соотношение

"t1_«(n - р) <

6,-6

< t1_„(n - р)

1 -а

 

так что с вероятностью, равной 1 -а, выполняется двойное неравенство

6,-6

< t1_„(n - р),

 

т. е.

в

71_f(n-р)sbj <6j<6j + t {п-p)s- .

Иными словами, с вероятностью, равной 1-а, случайный интервал

0          j   - Ц     " P) sb]    >0 j + *Ч ІП ~ P) Sbj

накрывает истинное значение коэффициента в j, т. е. является 95\%- доверительным интервалом для в j в случае, когда не известно истинное значение а2 дисперсии случайных ошибок є 1,..., є.п. В среднем, длина такого интервала больше, чем длина доверительного интервала с тем же уровнем доверия, построенного при известном значении а2.

Замечание. Выбор конкретного значения а определяет компромисс между желанием получить более короткий доверительный интервал и желанием обеспечить более высокий уровень доверия.

Попытка повысить уровень доверия 1 — а, выраженная в выборе меньшего значения а, приводит к квантили tJ_2L(п -р) с более высоким значением 1 -у, т. е. к большему значению t _а (п - р). Но длина доверительного интер-

2

вала пропорциональна t „ (п - р). Следовательно, увеличение

2

уровня доверия сопровождается увеличением ширины доверительного интервала (при тех же статистических данных).

Так, для п - р > 30 можно приближенно считать, что

t    — z

1          2          1 2

где zp — квантиль уровня р стандартного нормального

распределения. Соответственно, выбирая уровень доверия

1 — а равным 0.9, 0.95 или 0.99, мы получаем

для tx_a_(п - р) значения,     приблизительно равные

z095 = 1.64, z0975 = 1.96, z0995 = 2.58 . Это означает, что переход от уровня доверия 0.9 к уровню доверия 0.95 сопровождается увеличением длины доверительного интервала приблизительно в 1.2 раза, а дополнительное повышение уровня доверия до 0.99 увеличивает длину доверительного интервала еще примерно в 1.3 раза.

Теперь мы в состоянии перейти к построению интервальных оценок параметров моделей линейной регрессии для различного рода социально-экономических факторов на основании соответствующих статистических данных.

Пример. Вернемся к модели зависимости уровня безрабо-

тицы среди белого населения США от уровня безработицы

среди цветного населения. Запишем линейную модель наблю-

дений в виде 

БЕЦ = в1 + в2 ZVET +st , i = 1,n .

Получаем:   S2 = RSS/(n - 2) = 0.161231/(17 - 2) - 0.010749.

Коэффициент   62   оценивается   величиной   в 2 - 0.125265;

дисперсия d(() 2 j оценивается величиной s? = (0.062286)2.

Для построения 95\% — доверительного интервала для#2 остается найти квантиль уровня 1 - ■0205 = 0.975 распределения Стьюдента с n - p = 17 - 2 = 15 степенями свободы. Используя, например, Таблицу А.2 из книги Доугерти (стр.368), находим: 10975 (15) = 2.131. Соответственно, получаем 95\% -доверительный интервал для в 2 в виде

О 2   " ^0.975 (15Н ^2 ^0 2+ ^0.975 (15)«V

т. е.     

-0.0075 <6>2 < 0.2580 .

Для   6>    имеем   в 1 = 2.293843,   sb = 0.410396;   95\% -

доверительный интервал для в 1 имеет вид

в 1   - 10.975 (15) Sg1 <в, <в 1+ 10.975 (15) S^ ,

В связи с этим примером, отметим два обстоятельства.

(а)        Доверительный интервал для коэффициента в 2 допус-

кает как положительные, так и отрицательные значения этого

коэффициента.

(б)        Каждый из двух построенных интервалов имеет уро-

вень доверия 0.95; однако это не означает, что с той же веро-

ятностью 0.95 сразу оба интервала накрывают истинные зна-

чения параметров в 1, в 2.

Справиться с первым затруднением в данном примере можно, понизив уровень доверия до 0.90. В этом случае в выражении для доверительного интервала квантиль 10975 (15) = 2.131 заменяется на квантиль 1095 (15) = 1.753, так что левая граница доверительного интервала для в 2 становится положительной и равной 0.0164 . Однако это достигается ценой того, что новый доверительный интервал будет накрывать истинное значение параметра в2 в среднем только в 90 случаев из 100, анев 95 из 100 случаев.

Что касается второго затруднения, то наиболее простой путь взятия под контроль вероятности одновременного накрытия доверительными интервалами для в 1, в 2 истинных значений этих параметров связан с тем, что Р|  оба интервала накрывают 0 1 и 0 2 , соответственно } =

1 — P j хотя бы один из них не накрывает соответствующее 0 j   } =

1 — [ P j доверительный интервал для 0 1 не накрывает 0 1   } +

P|   доверительный интервал для 0 2 не накрывает 0 2   } -

P|  оба интервала не накрывают свои 0 j   |   ] =

11.4193 <в1 < 3.1684

1 — [a + a — PJ  оба интервала не накрывают свои 0 j   }   ] >

1 -а - а = 1 -2а .

Следовательно, если построить доверительный интервал для в 1 и доверительный интервал для в 2 с уровнями доверия

каждого, равными а* = а/2, то тогда правая часть полученной

цепочки соотношений будет равна 1 - 2а =1 - а .

Это означает, что в нашем примере мы можем гарантировать, что вероятность одновременного накрытия истинных значений в 1, в 2 соответствующими доверительными интервалами будет не менее 0.95, если возьмем а* = 0.025 . Но тогда при построении этих интервалов придется использовать вместо значения

t^(15) = 10.975(15)- 2.131

2

значение

t1 e.(15) =       (15) = 10.9875 (15) = 2.49,

1—2~ 2

так что каждый из исходных интервалов увеличится в 2.9/2.131 = 1.17 раза. Это, конечно, приводит к еще более неопределенным выводам относительно истинных значений параметров в 1, в 2.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 |