Имя материала: Эконометрика

Автор: Кремер Н.Ш.

4.2. оценка параметров классической регрессионной модели методом наименьших квадратов

Для оценки вектора неизвестных параметров р применим метод наименьших квадратов. Так как произведение транспонированной матрицы е' на саму матрицу е

е,е = (е1 е2...еп)

 

- *2

е2

ef +ЄЇ+.

i=

enJ

 

Знаком «'» обозначается операция транспонирования матриц.

83

то условие минимизации остаточной суммы квадратов запишется в виде:

S = £(ух, ~Уі)2 = £е? = e'e = (Y-Xb)Y-Xb)^mm. (4.3)

/=] /=1

Учитывая, что при транспонировании произведения матриц получается произведение транспонированных матриц, взятых в обратном порядке, т.е. (Xby^b'X; после раскрытия скобок получим:

S = Y'Y - b'XY -Y'Xb + b'X'Xb.

Произведение Y'Xb есть матрица размера (1хп)[пх(р+1)]х х[(/И-1)х1]=(1х1), т.е. величина скалярная, следовательно, оно не меняется при транспонировании, т.е. Y'Xb = (Y'Xb)' = b'X Y. Поэтому условие минимизации (4.3) примет вид:

S = YY - Ib'XY + b'X'Xb -> min.

(4.4)

( dS  dS    dS Л

На основании необходимого условия экстремума функции нескольких переменных S(bo, b9...9 bp), представляющей (4.3), необходимо приравнять нулю частные производные по этим переменным или в матричной форме — вектор частных производных

dS

db

дЬг) dh db„

Для вектора частных производных доказаны следующие формулы1 (§ 11.10):

—ф'с) = с,    —(Ъ'АЪ) = 2АЬ9 дЪ    } db

1 Справедливость приведенных формул проиллюстрируем на примере

где b и с — вектор-столбцы; А — симметрическая матрица, в которой элементы, расположенные симметрично относительно главной диагонали, равны.

Подпись: = 3b]+ 4Ь2 иПодпись: Ъ2Подпись: V4/Подпись: , с
г2 Зуи
Подпись: 3 V4y

Подпись: = с
Подпись: Ъх
Ъ2)
Подпись: 3 5Пусть   Ъ =

 

Ь'АЬ = ффг)

 

v4y

Так   как   Ь'с = (b2)

3 5

= 2Щ +6ЪхЪ2+ ЪЪ,  то — (Ь'с) = —(ЪЪх+ 4Ь2) = дЪ дЪ

Поэтому, полагая с= X'Y, а матрицу А = Х'Х (она является симметрической — см. (4.6)), найдем

as

= -2XY"+2X'Xb = 0,

db

откуда получаем систему нормальных уравнении в матричной форме для определения вектора Ь:

X'Xb = XY.

(4.5)

Найдем матрицы, входящие в это уравнение1. Матрица Х'Х представляет матрицу сумм первых степеней, квадратов и попарных произведений п наблюдений объясняющих переменных:

 

 

XX =

f 1 1

х\ х2 Хр Х2р

S

п

 

Z*«

Z*«

1

хп хпр J

( хп

1

1 х21

 

1

х„1 ...

z*.p

^4ХІХІр

Хр^

Х2р Хпр J

 

(4.6)

Ztf

w J

 

к Л Xip           Z XiXip

f 1

х\

 

(V

 

 

 

Уг

 

)

кУ»;

 

, ЦулРу

Матрица X' Y есть вектор произведений п наблюдений объясняющих и зависимой переменных:

(4.7)

1    ... 1

х2     ••• Хп

Хр Х2р

XY =

п

Здесь под знаком Z подразумевается .

/=1

В частном случае из рассматриваемого матричного уравнения (4.5) с учетом (4.6) и (4.7) для одной объясняющей переменной (р=1) нетрудно получить уже рассмотренную выше

 

(h Л

 

 

J

 

 

 

систему нормальных уравнений (3.5). Действительно, в этом случае матричное уравнение (4.5) принимает вид:

п !><•

.1*' I*/2.

откуда непосредственно следует система нормальных уравнений (3.5).

Для решения матричного уравнения (4.5) относительно вектора оценок параметров b необходимо ввести еще одну предпосылку 6 (см. с. 61) для множественного регрессионного анализа: матрица X' X является неособенной, т. е. ее определитель не равен нулю. Следовательно, ранг матрицы Х'Х равен ее порядку, т.е. г(Х'Х)=р+. Из матричной алгебры известно (см. § 11.4), что г(Х' Х)—г(Х), значит, г(Х)=р+1, т. е. ранг матрицы плана X равен числу ее столбцов. Это позволяет сформулировать предпосылку 6 множественного регрессионного анализа в следующем виде:

6. Векторы значений объясняющих переменных, или столбцы матрицы плана X, должны быть линейно независимыми, т. е. ранг матрицы X — максимальный (г (Х)=р+1).

Кроме того, полагают, что число имеющихся наблюдений (значений) каждой из объясняющих и зависимой переменных превосходит ранг матрицы X, т. е. n>r (X) или п>р+1, ибо в противном случае в принципе невозможно получение сколько-нибудь надежных статистических выводов.

Ниже, в § 4.3, рассматривается ковариационная матрица вектора возмущений ]Г є , являющаяся многомерным аналогом дисперсии одной переменной. Поэтому в новых терминах1 приведенные ранее (с. 61, 82 и здесь) предпосылки для множественного регрессионного анализа могут быть записаны следующим образом 2:

В модели (4.2) є — случайный вектор, X — неслучайная (детерминированная) матрица.

АГ(є)=Оя.

1          В случае одной объясняющей переменной отпадает необходимость в записи под символом х второго индекса, указывающего номер переменной.

2          При первом чтении этот материал может быть опущен. Еп — единичная матрица п-то порядка; 0„ — нулевой вектор размера п.

3,4. £є=М(сє')=а2£„.

5.         є — нормально распределенный случайный вектор, т.е.

s~Nn{0;a2En).

6.         r(X) = p+Kn.

Как уже отмечено в § 4.1, модель (4.2), удовлетворяющая приведенным предпосылкам 7—6, называется классической нормальной линейной моделью множественной регрессии; если же среди приведенных не выполняется лишь предпосылка 5 о нормальном законе распределения вектора возмущений є, то модель (4.2) называется просто классической линейной моделью множественной регрессии.

Решением уравнения (4.5) является вектор

b = (X'X)~lXY, (4,8)

где (Х'Х)~Х — матрица, обратная матрице коэффициентов системы (4.5), X'Y — матрица-столбец, или вектор, ее свободных членов.

Теорема Гаусса—Маркова, рассмотренная выше для парной регрессионной модели, оказывается верной и в общем виде для модели (4.2) множественной регрессии:

При выполнении предпосылок1 множественного регрессионного анализа оценка метода наименьших квадратов b = (Х'Х)~Х X'Y является наиболее эффективной, т. е. обладает наименьшей дисперсией в классе линейных несмещенных оценок (Best Linear Unbiased Estimator, или BLUE)2.

Зная вектор 6, выборочное уравнение множественной регрессии представим в виде:

У = Х'0Ь, (4.9)

где у — групповая (условная) средняя переменной Упри заданном векторе значений объясняющей переменной

Х'0=(1   х10   х20   ••• хр0).

1          Не включая предпосылку 5 — требование нормальности закона распределения вектора возмущений є, которая в теореме Гаусса—Маркова не требуется.

2          Доказательство теоремы приведено в § 4.4.

3          В этом примере использованы данные примера 3.1 с добавлением результатов наблюдений над новой объясняющей переменной Х2, при этом старую переменную Хиз примера 3.1 обозначаем теперь Х.

► Пример 4.1. Имеются следующие данные3 (условные) о сменной добыче угля на одного рабочего Y (т), мощности пласта

Х (м) и уровне механизации работ Xi(\%), характеризующие процесс добычи угля в 10 шахтах.

Предполагая, что между переменными Y, Х и Хі существует линейная корреляционная зависимость, найти ее аналитическое выражение (уравнение регрессии Г по Х и Х^).

Решение. Обозначим

 

 

f5]

 

(

8

5)

7 =

10

,   х =

1

11

8

 

,8,

 

,1

12

7,

(напоминаем, что в матрицу плана X вводится дополнительный столбец чисел, состоящий из единиц).

Для удобства вычислений составляем вспомогательную таблицу.

Теперь

ґ10   94    63 Ї 94  908 603 ч63  603 417,

(см. суммы в итоговой строке табл. 4.2);

'5^

10

X'Y =

12

v8y

1 1 8 11 5 8

 

( 6\%Л 664 445

1

Матрицу А Х—{Х'Х) 1 определим по формуле А~]=т—гА,

А

где А — определитель матрицы XX; А присоединенная к матрице Х'Х. Получим

матрица,

 

(рекомендуем читателю убедиться в этом самостоятельно).

Теперь в соответствии с (4.8) умножая эту матрицу на вектор

' 68^

ХУ =

664 445

 

получим Ъ

С учетом (4.9) уравнение множественной регрессии имеет вид: у =—3,54+0,854xi+0,367x2. Оно показывает, что при увеличении только мощности пласта Х (при неизменном Xj) на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ Х2 (при неизменной Х) — в среднем на 0,367 т.

Добавление в регрессионную модель новой объясняющей переменной Х2 изменило коэффициент регрессии Ь (ГПО Х) с 1,016 для парной регрессии (см. пример 3.1) до 0,854 — для множественной регрессии. В этом никакого противоречия нет, так как во втором случае коэффициент регрессии позволяет оценить прирост зависимой переменной Y при изменении на единицу объясняющей переменной Х в чистом виде, независимо от Xj. В случае парной регрессии Ь учитывает воздействие на Y не только переменной Х, но и косвенно корреляционно связанной с ней переменной Xi- ^

На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии bj и коэффициенты эластичности Ej (j = 1,2,..., р):

bj=bj^; (4.10) sy

 

EJ=bJJ- (4-И)

Стандартизованный коэффициент регрессии b) показывает, на сколько величин sy изменится в среднем зависимая переменная Y при увеличении только у-й объясняющей переменной на sXj , а

коэффициент эластичности Ej — на сколько процентов (от средней) изменится в среднем Yпри увеличении только Xj на 1\%.

► Пример 4.2.

По данным примера 4.1 сравнить раздельное влияние на сменную добычу угля двух факторов — мощности пласта и уровня механизации работ.

Решение. Для сравнения влияния каждой из объясняющих переменных по формуле (4.10) вычислим стандартизованные коэффициенты регрессии:

Ъ[ = 0,8539 • — = 0,728; Ъ'2 = 0,3670 • ^ = 0,285, 1,83 1,83

а по формуле (4.11) — коэффициенты эластичности:

Ех = 0,8539 • — = 1,180; Е2 = 0,3670 • — = 0,340. 6,8 6,8

(Здесь мы опустили расчет необходимых характеристик переменных:

хх = 9,4; х2 = 6,3; у = 6,8; sXl = 1,56; sX2 = 1,42; sy = 1,83.)

Таким образом, увеличение мощности пласта и уровня механизации работ только на одно  sXl   или на одно sX2

увеличивает в среднем сменную добычу угля на одного рабочего соответственно на 0,728^ или на 0,285^, а увеличение этих переменных на 1\% (от своих средних значений) приводит в среднем к росту добычи угля соответственно на 1,18\% и 0,34\%. Итак, по обоим показателям на сменную добычу угля большее влияние оказывает фактор «мощность пласта» по сравнению с фактором «уровень механизации работ». ►

 

Преобразуем вектор оценок (4.8) с учетом (4.2):

ъ = (х'ху] хх$ + є) = (хзг)-1 (лгаг)Р + (Х'Х)-Х Х'г =

= Е$ + (Х'Х)~хХ'г,

или

Ь = Р + (ХХ)-1Х'г, (4.12)

т.е. оценки параметров (4.8), найденные по выборке, будут содержать случайные ошибки.

Так как математическое ожидание оценки Ъ равно оцениваемому параметру р, т. е.

М(Ь) = М[Р + (XX У1 Х'г = М(Р) + (Х'Х)~Х Х'М(е) = Р,

ибо в силу (3.23) М(г)=0, то, очевидно, что вектор b есть несмещенная оценка параметра р.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 |