Имя материала: Математические методы в экономике

Автор: Замков Олег Олегович

16.5. множественная линейная регрессия

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. В таком случае зависимость у =J[x) означает, что х - вектор, содержащий т компонентов: х - (хг х,, ... , хш). Задача оценки статистической взаимосвязи переменных у и х = (х,, х,, ... , xj формулируется аналогично случаю парной регрессии. Записывается функция у = У(а,х)+є, где а - вектор параметров, є - случайная ошибка. Предполагается, что эта функция связывает переменную у с вектором независимых переменных х для данных генеральной совокупности. Как и в случае парной регрессии, предполагается, что ошибки е; являются случайными величинами с нулевым математическим ожиданием и постоянной дисперсией; є, и є статистически независимы при ij. Кроме того, для проверки статистической значимости оценок а обычно предполагается, что ошибки є( нормально распределены. Поданным наблюдений выборки размерности «требуется оценить значения параметров а, то есть провести параметризацию выбранной формулы (спецификации) зависимости.

Мы будем говорить о линейной зависимости у от х, то есть о множественной линейной регрессии. Теоретическое уравнение регрессии имеет вид:

у = а0 +а,х, +а,х2 + ... +атхп + є. (12)

Здесь а - вектор неизвестных параметров размерности (т + 1). Пусть имеется п наблюдений вектора х и зависимой переменной у. Для того, чтобы формально можно было решить задачу, то есть найти некоторый наилучший вектор параметров, должно быть п > т+. Если это условие не выполняется, то можно найти бесконечно много разных векторов коэффициентов, при которых линейная формула связывает между собой х и удля имеющихся наблюдений абсолютно точно. Если, в частном случае, п = т+1 (например, при двух объясняющих переменных в уравнении у = а0+а{хі+агх2 и трех

її* наблюдениях), то оценки коэффициентов а рассчитываются единственным образом - путем решения системы линейных уравнений {д'у.=а0+а|л1у.+а^.+...+а/ях/яу; у=1,2,...,и - индекс наблюдения}. Так, через три точки-наблюдения в трехмерном пространстве можно провести единственную плоскость определяемую параметрами а^а^а.,. Если число наблюдений больше минимально необходимого, то есть и > т+, то уже нельзя подобрать линейную формулу, в точности удовлетворяющую всем наблюдениям, и возникает необходимость оптимизации, то есть выбора наилучшей формулы-приближения для имеющихся наблюдений. Положительная разность (п-т-) в этом случае называется числом степеней свободы. Если число степеней свободы мало, то статистическая надежность оцениваемой формулы невысока. Так, если проведена плоскость "в точности" через имеющиеся три точки наблюдений, любая четвертая точка-наблюдение из той же генеральной совокупности будет практически наверняка лежать вне этой плоскости, возможно - достаточно далеко от нее. Обычно при оценке множественной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений по крайней мере в 3 раза превосходило число оцениваемых параметров.

Задача построения множественной линейной регрессии состоит в нахождении (/и+1)-мерного вектора а, элементы которого есть оценки соответствующих элементов вектора а. Критерии оценивания, как и в случае парной регрессии, могут быть различными; мы будем вновь использовать метод наименьших квадратов (МНК).

Уравнение регрессии с оцененными параметрами имеет вид

у = а0 + вЛ + а^г + ... + а^т + е, (13) и критерием для нахождения вектора (а) является minEe<2.

і

Оцененное уравнение должно описать как общий тренд (тенденцию) изменения зависимой переменной у, так и отклонения от этого тренда. Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменной у, но и отделить влияние каждого из факторов, рассматриваемых как объясняющие переменные.

При выполнении предпосылок 1)-4) относительно ошибок е, оценки параметров множественной линейной регрессии являются несмещенными, состоятельными и эффективными. Отклонение зависимой переменной у в у'-м наблюдении от линии регрессии, ер записывается следующим образом: е. = у.-ап- а.х., - а-х-, -...-ах.. Обозначим сумму квадратов этих величин, которую нужно минимизировать в соответствии с методом наименьших квадратов, через Q.

Q = Е ei = Е СУ>. - Ц, + ЕаЛ/-»2 -> min.

(14)

 

Минимизируемая функция Qявляется квадратичной относительно неизвестных величин а.. Необходимым условием ее минимума является равенство нулю всех ее частных производных по а.. Частные производные квадратичной функции являются линейными функциями, и, приравнивая их всех к нулю, мы получим систему из (т+) линейных уравнений с (т+) неизвестными. Такая система имеет обычно единственное решение (за исключением особого случая, когда столбцы ее линейно зависимы и решения нет или их бесконечно много; однако данные реальных статистических наблюдений к такому особому случаю, вообще говоря, никогда не приводят). Данная система называется системой нормальных уравнений. Ее решение в явном виде удобнее всего выписать в векторно-мат-ричной форме, иначе оно становится слишком громоздким. Векторно-матричная запись и вывод решения системы нормальных уравнений приведены в Приложении; при начальном ознакомлении с проблемой оно может быть опущено.

Для анализа статистической значимости полученных коэффициентов множественной линейной регрессии необходимо, как и в случае парной регрессии, оценить дисперсию и стандартные отклонения коэффициентов а..

12 е'

В случае парной регрессии D(b) = Sb2 = (л - 2)£(х. - х)2> в

 

щем случае Дяр = ^ Jт           jy^. (гДе ^ - диагональный элемент

матрицы (ЛТЯ)"1 - см. Приложение). Соответственно, стандартное отклонение £ = ^ОЦ), и для проверки нулевой гипотезы для каждого из коэффициентов а рассчитываются, как и в случае парной

рефессии, /-статистики: / = -ф, имеющие распределение Стьюдента

щ

с (п-т-1) степенями свободы.

Если (п-т-1), то есть число степеней свободы, достаточно велико (не менее 8 - 10), то при 5\%-ном уровне значимости и двусторонней альтернативной гипотезе критическое значение /-статистики приблизительно равно двум. Здесь, как и в случае парной рефессии, можно приближенно считать оценку незначимой, если /-статистика по модулю меньше единицы, и весьма надежной, если модуль /-статистики больше трех. Другие критерии качества полученного уравнения рефессии будут рассмотрены в следующей главе. Там же будут приведены и примеры статистического анализа значимости коэффициентов множественной линейной рефессии.

ПРИЛОЖЕНИЕ Расчет вектора коэффициентов множественной линейной регрессии

Пусть е = у. - а0 - atxn - а2ха - ... - атх.т, где / - индекс наблюдения. Сумма квадратов отклонений е. может быть записана как произведение вектор-строки

{е.} = еТна вектор-столбец {е.} = е(ет - вектор-столбец, транспонированный в строку). Вектор-столбец е, в свою очередь, может быть записан как е = у - Ха, где у - вектор-столбец наблюдений зависимой переменной, Х - матрица п (m+l), в которой каждая из п строк представляет наблюдение вектора значений независимых переменных х:

1 хп хп ... хш

X =

1 хгх хгг

 

1 х„г

а - вектор-столбец (aQ, о,,..., aj.

Отсюда Q = ете = (у-Ха)т(у-Ха) = уту - атХту - утХа + aWXa = уту - 2атХГу + атХтХа. Мы воспользовались здесь тем, что (у - Ха)т = уг- (Ха)т; (Ха)г= атХт; атХту = утХа.

Все эти свойства легко проверить, расписав поэлементно все матрицы и выполнив с ними нужные действия.

Теперь нужно записать необходимые условия экстремума выражения Q. Оно состоит в равенстве нулю всех частных производных

Вектор ~ можно записать компактно как Щ = -2Хту + 2(ХгХ)а.

Это можно показать следующим образом: пусть (ХТХ) = X - матрица (m+l) (m+l);

х'п

Q, = атХ-а =

Хц

I

хп

xlJII'l

 

Xm*l.l   Xm*l,2   ■•• Xm*l.tn*l

 

/         J           J           I           I        J V

Отсюда легко видно, что -=— = 2z2 afo то есть      = 2(ХтХ)а.

оа,       < да

Ясно также, что если обозначить вектор Хту = у', то ату' =    аЛ и

 

оа

Поскольку Q = уГу-2ату'+ Q., и ^-^=0 (так как угу - константа),

да

4^ = 0 => -2Р> + 2(ХгХ)а = 0 => Л7)' = таї, откуда

ой

а = (ХТХ)> Хту.

Здесь (ХГХ)'1 - матрица, обратная к (ХГХ), то есть такая, которая при умножении на матрицу (ХГХ) дает единичную матрицу. Таким образом, мы получили формулу расчета вектора коэффициентов регрессии в векторно-матричной записи.

Вопросы к главе 16

Что такое линейная регрессия?

Что такое спецификация и параметризация уравнения регрессии? Как они осуществляются?

Какими могут быть критерии качества оценки линейной регрессии?

В чем сущность метода наименьших квадратов (МНК)?

Сформулируйте общую задачу статистической оценки параметров на примере оценки параметров линейной регрессии.

Каковы предпосылки о свойствах отклонений зависимой переменной от теоретической линии регрессии?

Сформулируйте свойства несмещенности, состоятельности и эффективности оценок параметров. Обладают ли этими свойствами оценки.параметров линейной регрессии, полученные с помощью МНК?

В чем различие, смысловое и количественное, теоретических значений коэффициентов регрессии а и р и их оценок а и Ь1

Какие факторы влияют на величину стандартных ошибок коэффициентов ПИЙ?

Как связан коэффициент регрессии b с коэффициентом корреляции величин хи у?

Имеют ли коэффициенты aw b размерность?

Какой показатель характеризует долю объясненной с помощью регрессии дисперсии в общей дисперсии зависимой переменной?

Каким образом проверяется нулевая гипотеза для коэффициента регрессии W.

Стандартная ошибка коэффициента b равна Ь/2. Можно ли в этом случае говорить о наличии зависимости у от х? Если можно, то что именно?

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 |