Имя материала: Математические методы в экономике

Автор: Замков Олег Олегович

16.3. анализ статистической значимости коэффициентов линейной регрессии

Величины у, соответствующие данным х. при некоторых теоретических значениях аир, являются случайными. Следовательно, случайными являются и рассчитанные по ним значения коэффициентов а и Ь. Их математические ожидания при выполнении предпосылок об отклонениях е( равны, соответственно, аир. При этом оценки тем надежнее, чем меньше их разброс вокруг а и р, то есть дисперсия. По определению дисперсии ЩЬ) = Л/(й-р)2; D(a) = М(а-а)2. Надежность получаемых оценок а и А зависит, очевидно, от дисперсии случайных отклонений е., но поскольку поданным выборки эти отклонения (и, соответственно, их дисперсия) оценены быть не могут, они заменяются при анализе надежности оценок коэффициентов регрессии на отклонения переменной у от оцененной линии регрессии e=y-o-bxr

Можно доказать (доказательство опускаем), что D(b) = Sb2 =

sl    ■   52*>'2 £e,J

Т (*, - х)2 D(a) = Sa2 = тр ,   _ -ч2 , где S2 = J         - мера разброса

зависимой переменной вокруг линии регрессии (необъясненная дисперсия). 5 и 5Л - стандартные отклонения случайных величин а и Ь. Полученный результат можно проинтерпретировать следующим образом.

Коэффициент b есть мера наклона линии регрессии. Очевидно, чем больше разброс значений у вокруг линии регрессии, тем больше (в среднем) ошибка в определении наклона линии регрессии. Если такого разброса нет совсем (є( = 0 и, следовательно, а2=0), то прямая определяется однозначно и ошибки в расчете коэффициентов а и b отсутствуют (а отсюда и значение S2, "замещающее" а2, равно нулю).

На рис. 16.2а отклонения в значениях переменной у от линии регрессии отсутствуют, и через три точки проводится та же прямая, что и через любые две из них. На рис. 16.2Ь через три точки проводится такая же линия регрессии, но колебания значений переменной у вокруг этой линии значительны. Поэтому через пары точек (1,2) и (1,3) проходят совершенно разные прямые, отличные от общей прямой. Следовательно, стандартные ошибки коэффициентов регрессии в этом случае будут значительными.

В знаменателе величины ЩЬ) стоит сумма квадратов отклонений х от среднего значения х. Эта сумма велика в том случае, если регрессия оценена на достаточно широком диапазоне значений переменной х, и в этом случае, при данном уровне разброса у., очевид

но, ошибка в оценке величины наклона прямой будет меньше, чем при малом диапазоне изменения переменной х. Попробуйте провести прямую по двум точкам: если х{ и хг лежат рядом, то даже небольшое изменение одного из у. существенно меняет наклон прямой (если х, и х2 далеки друг от друга - ситуация обратная).

Так, на рисунке 16.3 через пары точек (1,2) и (1а,2) проходят одни и те же прямые, в то же время разброс переменной х для первой из пар больше. Если у второй точки из каждой пары изменить значение переменной у (перевести ее в точку 2а или 2Ь), то наклон прямой для пары (1,2) изменится значительно меньше, чем для пары (1а,2).

Кроме того, чем больше (при прочих равных) число наблюдений п, тем больше И (xi ~ *)2 и, тем самым, меньше стандартная ошибка оценки. Дисперсия свободного члена уравнения регрессии равна

 

D(a) = D(b)— она пропорциональна D(b) и, тем самым, также

п

соответствует уже сделанным пояснениям о влиянии разброса у. вокруг регрессионной прямой и разброса х на стандартную ошибку. Чем сильнее меняется наклон прямой, проведенной через данную точку (х,у), тем больше разброс значений свободного члена, характеризующего точку пересечения этой прямой с осью у. Кроме того, дисперсия и стандартная ошибка свободного члена тем больше, чем больше средняя величина х2. При больших по модулю значениях х даже небольшое изменение наклона регрессионной прямой может вызвать большое изменение оценки свободного члена, поскольку в этом случае в среднем велико расстояние от точек наблюдений до оси у.

На рис. 16.4 через пары точек (1,2) и (3,4) проходит одна и та же прямая линия. Ее свободный член равен а. Для второй из этих пар значения переменной х больше по абсолютной величине (при одинаковом разбросе значений х и у). Если в первой из этих пар от точки 1 перейти к точке 1а, а во второй - от точки 3 к За, что вызвано одинаковыми изменениями одного из значений переменной у, то обе линии становятся горизонтальными. Изменения коэффициента наклона прямой одинаковы, но свободный член в первом случае становится равным ап а во втором - а2, - таким образом, он меняется значительно больше там, где больше абсолютные значения переменнойх

Формально значимость оцененного коэффициента регрессии b может быть проверена с помощью анализа его отношения к своему

стандартному отклонению Sh = JD(b). Эта величина в случае выполнения исходных предпосылок модели имеет t-распределение Стьюдента с (п-2) степенями свободы (п - число наблюдений). Она называется t-статистикой:

 

'--р=-г- <8)

Щь) ьь

Для /-статистики проверяется нулевая гипотеза, то есть гипотеза о равенстве ее нулю. Очевидно, / = 0 равнозначно b = 0, поскольку / пропорциональна Ь.

 

,д. Рассмотрим конкретный пример, уже затрагивавшийся в пред-^blVmeft главе. Пусть INF- темп инфляции, U - уровень безработи-,0> в США в 1931 - 1940 годы (10 наблюдений). Точки наблюдений

Чазаны на рис. 16.5. ^аЛ<1з рис. 16.5 можно видеть, что, возможно, есть некоторая отри-^ельная связь показателей INF и U, но вряд ли этот рисунок фДтверждает наличие статистически значимой линейной связи. Для

^Зверки этого вывода оценена парная регрессия 1NF= 5,07 - 0,32 U. ^енена величина

 

с 2 =

 

0,486.

S2

2 Xі

5>, -a-bxf

~          ^          *0,236 :

х, - X

(«-2)(Е^2-") 8(Е

 

> -0,658. Зададим уровень значимости 0,1 при

0тсюда'=-w

f0 ^сторонней альтернативной гипотезе (то есть если величина ЬфО, 1И1\>на может быть как положительной, так и отрицательной). Таб-fgpX[bi для r-статистик обычно публикуются для односторонней аль-^нативной гипотезы (t>0), поэтому найдем критическое значение ,п_' уровня значимости 0,05 (доверительная вероятность 0,95) с 2)=8 степенями свободы f    =1,860 и сравним с ним |?|=0,658.

INF

10

 

-15

12,5 15,0 17,5 20,0 22,5 25,0 27,5 U

 

Рисунок 16.5. Уровень инфляции (1NF) и безработицы (U) в США в 1931-1940 гг.

 

Поскольку |<|< 1,860, нулевая гипотеза {/ = 0} не может быть отвергнута при заданном уровне значимости. Иными словами, нельзя считать (грубо говоря), что уровень инфляции в рассматриваемый период значимо зависел от показателя безработицы. Если уровень значимости задать равным 0,3, то /8 0 85 = 1 ,108 > 0,658, - даже при такой слабой значимости нулевая гипотеза не может быть отвергнута.

Проверка значимости коэффициента парной линейной регрессии эквивалентна проверке значимости коэффициента корреляции переменных х и у. В этом можно убедиться, сравнив значения /-статистик для коэффициента корреляции в предыдущей главе и коэффициента регрессии Ь (пример рассматривается один и тот же). Эти значения одинаковы и равны -0,658. Соответственно, и уровень значимости у них одинаков.

При оценке значимости коэффициента линейной регрессии можно использовать следующее грубое правило. Если стандартная ошибка коэффициента больше его модуля (/ < 1), то он не может быть признан хорошим (значимым), поскольку доверительная вероятность здесь при двусторонней альтернативной гипотезе составляет лишь менее, чем приблизительно 0,7. Если стандартная ошибка меньше модуля коэффициента, но больше его половины (1 < t < 2), то сделанная оценка может рассматриваться как более или менее значимая. Доверительная вероятность здесь примерно от 0,7 до 0,95. Значение / от 2 до 3 свидетельствует о весьма значимой связи (дове-

CONS

2750

2500

 

2250

 

2000

1750

 

1500 I

1500

3000 DINC

 

 

Рисунок 16.6. Объем частного потребления (CONS, Q и располагаемого дохода (DINС, Y) в США в 1971-1990 гг. (млрд.долл., 1982 г.)

 

рительная вероятность от 0,95 до 0,99), и / > 3 есть практически стопроцентное свидетельство ее наличия. Конечно, в каждом случае играет роль число наблюдений; чем их больше, тем надежнее при прочих равных выводы о наличии связи и тем меньше верхняя граница доверительного интервала для данных числа степеней свободы и уровня значимости. Однако эти различия существенны лишь для малых п, а при п порядка 10 и более сформулированные правила приблизительно верны.

Для иллюстрации действительно значимой линейной связи показателей рассмотрим величины частного потребления и располагаемого дохода в США за 1971-1990 годы. Динамика этих показателей показана на рис. 16.6.

На рисунке 16.6 явно просматривается четкая линейная зависимость объема частного потребления от величины располагаемого дохода. Уравнение парной линейной регрессии, оцененное по этим данным, имеет вид: С= -217,6 + 1,007 У,. Стандартные ошибки для свободного члена и коэффициента парной регрессии равны, соответственно, 28,4 и 0,012, а /-статистики - -7,7 и 81,9. Обе они по модулю существенно превышают 3, следовательно, их статистическая значимость весьма высока. Впрочем, несмотря на то, что здесь удалось оценить статистически значимую линейную функцию потребления, в ней нарушены сразу две предпосылки Кейнса - уровень автономного потребления Са оказался отрицательным, а предельная склонность к потреблению превысила единицу. Очевидно, в рассматриваемый период наблюдался процесс "вытеснения" потреблением некоторых других составляющих ВНП (в частности - чистого экспорта).

16.4. Сравнение истинных и оцененных зависимостей

Соотношение между истинной зависимостью между переменными (в генеральной совокупности) и зависимостью, оцененной по выборочным данным проще всего показать на примере соотношения между доходами и расходами. Пусть, к примеру, в небольшом городке проживают сто семей (генеральная совокупность), доходы которых (Хк) можно отнести к одной из пяти групп (к = 1,...,5). Предположим также для простоты, что распределение людей по доходам - равномерное, то есть в каждую группу входят 20 семей. Собрав данные по расходам на члена семьи, нанесем их в виде точек на график, по вертикальной оси которого отложим расходы, а по горизонтальной - доходы.

На рис. 16.7 видно, что, во-первых, даже внутри группы с одним доходом расходы людей различны, что объясняется различием вкусов, потребностей, количеством членов в семье и другими факторами, которые не входят в число переменных, объясняющих расходы, и представляемыми в виде случайного (по отношению к доходам) компонента расходов. Во-вторых, можно заметить, что, в среднем, расходы растут с увеличением доходов.

Обозначая средние по к-й группе дохода (в генеральной совокупности) расходы М ЦХк, можно представить тенденцию увеличения расходов с доходами в виде положительной линейной зависимости

 

У

 

M[YX-a+p'X

t

 

*   ^^"^ *

4

Х     Xj x$

XA

Хъ X

 

11 О. О. Замков

М[}Х = а + $Х, (9)

которая предполагается истинной зависимостью между средними расходами и доходами. Для неусредненных расходов в эту зависимость следует добавить случайный член є, описывающий разброс расходов внутри группы с одним доходом, обусловленный действием всех остальных факторов, кроме доходов.

Y=a + $X+e. (10)

Эта зависимость предполагается истинной зависимостью между индивидуальными расходами и доходами (в генеральной совокупности).

Теперь обратимся к выборочным данным о расходах, собранным путем выборочного опроса части жителей городка. Считая выборку репрезентативной, предположим, для простоты, она включает по одному человеку из каждой группы дохода. Отображая выборочные точки на графике, мы можем провести через них линию регрессии, соответствующую уравнению Y = а + ЬХ, коэффициенты а и Ь в котором рассчитываются по обычным формулам линейной регрессии. Если учесть, что наблюдаемые значения У. не лежат на линии регрессии (а+ЬХк), то в это уравнение надо добавить выборочные случайные возмущения е (ek = Yk-a-bXk), являющиеся аналогами случайных возмущений є в генеральной совокупности:

Yk = a + bXk + ek. (11)

Таким образом, мы имеем две линейных регрессии: одну для генеральной совокупности, коэффициенты в которой обычно обозначаются греческими буквами, и другую для выборки, коэффициенты в которой обычно обозначаются латинскими буквами. Коэффициенты линейной зависимости для генеральной совокупности нам неизвестны, и мы должны их оценить, пользуясь выборочными данными. Коэффициенты выборочной линейной регрессии а и Ь являются выборочными оценками коэффициентов а и Р в генеральной совокупности.

Из рис. 16.8 видно, что выборочные линии регрессии имеют разный наклон и разные точки пересечения с осью У для различных выборок. Более того, при положительном наклоне генеральной регрессии наклон выборочной линии регрессии может оказаться для некоторых выборок отрицательным, что, однако, не будет свидетельствовать об истинной отрицательной связи исследуемых величин. Для того чтобы убедиться в этом, следует помимо коэффициентов регрессии находить их стандартные отклонения и г-статисти-ки, по которым можно судить о статистической значимости полученных выборочных коэффициентов регрессии.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 |