Имя материала: Математические методы в экономике

Автор: Замков Олег Олегович

17.1. проверка общего качества уравнения регрессии. коэффициент детерминации r1

Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции. Для случая парной регрессии это квадрат коэффициента корреляции переменных х и у. Коэффициент детерминации рассчитывается по формуле

R2 = 1

і

£(у,-502'

О)

Он характеризует долю вариации (разброса) зависимой переменной, объясненной с помощью данного уравнения. В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии. Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюдений п, то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменной у. Отношение остаточной и общей дисперсий представляет собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной, объясненной с помощью регрессии. Иногда при расчете коэффициента детерминации для получения несмещенных оценок дисперсии в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы; тогда

 

(3)

В числителе дроби, которая вычитается из единицы, стоит сумма квадратов отклонений наблюдений у. от линии регрессии, в знаменателе - от среднего значения переменной у. Таким образом, дробь эта мала (а коэффициент R2, очевидно, близок к единице), если разброс точек вокруг линии регрессии значительно меньше, чем вокруг среднего значения. МНК позволяет найти прямую, для которой сумма ej минимальна, а у = у представляет собой одну из возможных линий, для которых выполняется условие у = а + Ьх

(Ь = 0, а = у). Поэтому величина в числителе вычитаемой из единицы дроби меньше, чем величина в ее знаменателе, - иначе выбираемой по МНК линией регрессии была бы прямая у = у. Таким образом, коэффициент детерминации R2 является мерой, позволяющей определить, в какой степени найденная регрессионная прямая

Wr лучший результат для объяснения поведения зависимой переменной у, чем просто горизонтальная прямая у = у.

Смысл коэффициента детерминации может быть пояснен и немного иначе. Можно показать, что £    ~ У)2 - £*<2 + £ е*, где к

і і/'

"отклонение /-й точки на линии регрессии оту. В данной формуле ^личина в левой части может интерпретироваться как мера общего взброса (вариации) переменной у, первое слагаемое в правой части

как мера разброса, объясненного с помощью рефессии, и

h-opoe слагаемое Е е> - как мера остаточного, необъясненного разброса (разброса точек вокруг линии регрессии). Если разделить эту Формулу на ее левую часть и перегруппировать члены, то R2 =

 

£ ^ - -у, то есть коэффициент детерминации R2 есть доля объяс-

Ненной части разброса зависимой переменной (или доля объясненной дисперсии, если разделить числитель и знаменатель на а? или л-1). Часто коэффициент детерминации R2 иллюстрируют рис. 17.1.

 

Y

X

 

 

uss шр

і ess

 

 

tsV

 

tss ^ V

tss4—

_^Ухг

Рис. 17.1.

 

Здесь TSS (Total Sum of Squares) - общий разброс переменной у, ESS (Explained Sum of Squares) - разброс, объясненный с помощью регрессии, USS (Unexplained Sum of Squares) -разброс, необъяснен-Ный с помощью регрессии. Из рисунка видно, что с увеличением объясненной доли разброса коэффициент К2 приближается к единице. Кроме того, из рисунка видно, что с добавлением еще одной Переменной R1 обычно увеличивается, однако если объясняющие Переменные х{ и х2 сильно коррелируют между собой, то они объясняют одну и ту же часть разброса переменной у, и в этом случае грудно идентифицировать вклад каждой из переменных в объяснение поведения у.

Если существует статистически значимая линейная связь величин х и у, то коэффициент К2 близок к единице. Однако он может быть близким к единице просто в силу того, что обе эти величины имеют выраженный временной тренд, не связанный с их причинно-следственной взаимозависимостью. В экономике обычно объемные показатели (доход, потребление, инвестиции) имеют такой тренд, а темповые и относительные (производительности, темпы роста, доли, отношения) - не всегда. Поэтому при оценивании линейных регрессий по временным рядам объемных показателей (например, зависимости выпуска от затрат ресурсов или объема потребления от величины дохода) величина R2 обычно очень близка к единице. Это говорит о том, что зависимую переменную нельзя описать просто как равную своему среднему значению, но это и заранее очевидно, раз она имеет временной тренд.

Если имеются не временные ряды, а перекрестная выборка, то есть данные об однотипных объектах в один и тот же момент времени, то для оцененного по ним уравнения линейной регрессии величина R2 не превышает обычно уровня 0,6-0,7. То же самое обычно имеет место и для регрессии по временным рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безработицы, нормы накопления от величины процентной ставки, темпа прироста выпуска от темпов прироста затрат ресурсов. Таким образом, при построении макроэкономических моделей, особенно - по временным рядам данных, нужно учитывать, являются входящие в них переменные объемными или относительными, имеют ли они временной тренд.

Точную границу приемлемости показателя R2 указать сразу для всех случаев невозможно. Нужно принимать во внимание и число степеней свободы уравнения, и наличие трендов переменных, и содержательную интерпретацию уравнения. Показатель R2 может оказаться даже отрицательным. Как правило, это случается в уравнении без свободного членау= ]Ся *■ Оценивание такого уравнения

производится, как и в общем случае, по методу наименьших квадратов. Однако множество выбора при этом существенно сужается: рассматриваются не все возможные прямые или гиперплоскости, а только проходящие через начало координат. Величина R2 получится отрицательной втом случае, если разброс значений зависимой переменной вокруг прямой (гиперплоскости) у = у меньше, чем вокруг даже наилучшей прямой (гиперплоскости) из проходящих через начало координат. Отрицательная величина R? в уравнении у= 2~2о,х.

говорит о целесообразности введения в него свободного члена. Эта ситуация проиллюстрирована на рис. 17.2.

Линия 1 на нем - график уравнения регрессии без свободного члена (он проходит через начало координат), линия 2 - со свободным членом (он равен а0), линия 3 - у = у. Горизонтальная линия 3 дает гораздо меньшую сумму квадратов отклонений е., чем линия 1, и поэтому для последней коэффициент детерминации R2 будет отрицательным.

 

Подпись: х

 

является наилучшей по МНК и, следовательно, величина _у статистически независима от х. Поэтому проверяется нулевая гипотеза для показателя F, который имеет хорошо известное, табулированное распределение - распределение Фишера. Для проверки этой гипотезы при заданном уровне значимости по таблицам находится критическое значение FK ит, и нулевая гипотеза отвергается, если F> FKpum. Пусть, например, при оценке парной рефессии по 15 наблюдениям

13

R2 — 0,7. В этом случае F - 0,7 • оТз * 30,3. По таблицам для

распределения Фишера с (1; 13) степенями свободы найдем, что при 5\%-ном уровне значимости (доверительная вероятность 95\%) критическое значение /"равно 4,67, при 1\%-ном - 9,07. Поскольку F=30,3>FK , нулевая гипотеза в обоих случаях отвергается. Если в той же ситуации R2 = 0,5, то F— 13, и предположение о незначимости связи отвергается и здесь. Таким образом, для того, чтобы отвергнуть гипотезу о равенстве нулю одновременно всех коэффициентов линейной регрессии, коэффициент детерминации не должен быть очень близким к единице; его критическое значение для данного числа степеней свободы уменьшается при росте числа наблюдений и может стать сколь угодно малым. В то же время величина коэффициента R2 (точнее, рассчитанной по нему /"-статистики, поскольку последняя учитывает число наблюдений и число объясняющих переменных) может служить отражением общего качества рефессионной модели.

Отметим, что в случае парной рефессии проверка нулевой гипотезы для t - статистики коэффициента регрессии равносильна проверке нулевой гипотезы для /"-статистики (и, соответственно, показателя R2). В этом случае /-"-статистика равна квадрату /-статистики. В случае парной рефессии статистическая значимость величин R2 и /-статистики коэффициента рефессии определяется коррелирован-ностью переменных хиу. Самостоятельную важность показатель R2 приобретает в случае множественной линейной рефессии.

Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной рефессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это особенно важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число.

Пусть, например, вначале была оценена множественная линейная регрессия у = а0 + а,х, + а2х2 + ... + а хт по п наблюдениям с т объясняющими переменными, и коэффициент детерминации равен R2. Затем последние к переменных исключены из числа объясняющих, и по тем же данным оценено уравнение у=Ьа + bix[ + b2x2 + ... + bmkxmk, для которого коэффициент детерминации равен ft,2 (он обязательно уменьшился, поскольку каждая дополнительная переменная объясняет часть, пусть небольшую, вариации зависимой переменной). Для того чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов регрессии при исключенных

R? - Rj

переменных, рассчитывается величина F= ■

1 -R

т

име-

ющая распределение Фишера с (к, п-т-) степенями свободы. По таблицам, при заданном уровне значимости, находится критическое значение F-статистики, и если ее рассчитанное значение превосходит критическое, то нулевая гипотеза отвергается. В таком случае исключать сразу из числа объясняющих все к переменных некорректно. F-статиетика оказывается относительно большой, если велика разность (R2-R22). В этом случае исключение данного набора к объясняющих переменных приводит к слишком большому сокращению доли объясненной дисперсии зависимой переменной, и поэтому недопустимо. Если, наоборот, эта доля сокращается незначительно, то F-статистика невелика, нулевая гипотеза не отвергается, и указанные к переменных могут быть исключены из уравнения регрессии. Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких (к) новых объясняющих переменных. В этом слу-

R

т

к - 1

чае рассчитывается /--статистика F= ——р--         ^          , имею-

щая распределение F(k,n-m-k-), и если она превышает критичес-

кий уровень, то включение новых переменных объясняет сущес-

твенную часть необъясненной ранее дисперсии зависимой перемен-

ной у. Отметим лишь, что добавлять новые переменные целесооб-

разно, как правило, по одной.

В вопросе о добавлении объясняющих переменных в уравнение регрессии полезным может оказаться рассмотрение R2 с поправкой

 

на число степеней свободы: Кг = 1

 

£е'2

і

 

Ей-»2]

і

п - т - 1

 

п - 1

Обычный К2 (без поправки) всегда растет при добавлении новой переменной; в К1 с поправкой растет величина т, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной мало, то R2 с поправкой может уменьшиться. Если это так, то добавлять переменную нецелесообразно.

/"-статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений. Пусть имеются две выборки, содержащие, соответственно, п] и п2 наблюдений. Для каждой из этих выборок оценено уравнение регрессии вида у = а0 + ^х, + я2х2 + ... + атхт. Пусть суммы квадратов отклонений y.t от линий регрессии равны для них, соответственно, .У, и Sr Проверяется нулевая гипотеза, заключающаяся в том, что все соответствующие коэффициенты этих уравнений равны друг другу, то есть что уравнение регрессии для этих выборок одно и то же. Пусть оценено уравнение регрессии того же вида сразу для всех (я,+л2) наблюдений, и сумма квадратов отклонений y.t от линии регрессии равна для него S0. Тогда рассчитывается F-

(S0 - 5, - S2) (л, + пг - 2т - 2)

статистика по формуле F = —тт,    с—'     т          Г         • Она

^ у '     (5, + S2)          (m + 1)

имеет распределение Фишера с (т+, л1+«2-2/и-2) степенями свободы. F-статистика будет близкой к нулю, если уравнение регрессии для обеих выборок одинаково, поскольку в этом случае S=S+Sr Если же ее расчетное значение велико (то есть больше критического значения при данном уровне значимости), то нулевая гипотеза отвергается. Описанная процедура важна для ответа на вопрос, можно ли за весь рассматриваемый в модели период времени построить единое уравнение регрессии, или же нужно разбить его на части и на каждой из частей строить свое уравнение регрессии.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 |