Имя материала: Эконометрика

Автор: В.С. Мхитарян

4. примеры решения типовых задач

 

4.1. Корреляционный анализ Анализ взаимосвязи социально-экономических показателей группы стран

В ходе корреляционного анализа выявляется статистическая взаимосвязь между признаками и отбираются переменные для включения в регрессионную модель. Предпосылками корреляционного анализа являются случайность признаков и нормальный многомерный закон их совместного распределения. Поэтому необходимым условием для его проведения является однородность выборки, простейший способ обеспечения которой -группировка объектов по общности их основных свойств.

По данным 1995 года о 20 бывших и нынешних социалистических странах, взятых из таблицы ПРИЛОЖЕНИЯ 1, рассчитана матрица выборочных парных коэффициентов корреляции

 

 

Х1

Х2

Х3

Х4

Х5

Х6

Х7

Х8

Х9

 

1

-0,879

-0,758

-0,556

0,767

-0,600

0,826

-0,580

0,698

Х2

 

1

0,817

0,710

-0,591

0,631

-0,676

0,406

-0,514

Х3

 

 

1

0,717

-0,515

0,664

-0,615

0,433

-0,466

Х4

 

 

 

1

-0,249

0,624

-0,329

0,313

-0,057

Х5

 

 

 

 

1

-0,604

0,963

-0,865

0,851

Хб

 

 

 

 

 

1

-0,658

0,612

-0,419

Х7

 

 

 

 

 

 

1

-0,833

0,906

Х8

 

 

 

 

 

 

 

1

-0,637

Х9

 

 

 

 

 

 

 

 

1

Исследуемый признак - xi - детская смертность (число умерших младенцев на 1000 новорожденных). Требуется:

Проверить значимость каждого из коэффициентов на уровне значимости а = 0,05.

Определить признаки, наиболее важные для объяснения вариации исследуемой переменной, рассчитать выборочные частные коэффициенты корреляции исследуемого признака с каждым из признаков при фиксированном значении остальных. Найти интервальные оценки частных коэффициентов корреляции, определить значимость коэффициентов. Сравнить частные коэффициенты корреляции с соответствующими парными и сделать выводы относительно роли исключенной переменной в изменении степени тесноты статистической связи, характеризуемой этими коэффициентами корреляции.

Рассчитать значение множественного коэффициента корреляции исследуемого признака с выбранными в п.2 признаками. Найти коэффициент детерминации, проверить его значимость.

Решение:

1) Определим по таблице Фишера-Йейтса критическое значение гкр для одного из наиболее часто использующихся уровней значимости а=0,05. С учетом объема выборки n=20 находим число степеней свободы v=n-2=18. По данным таблицы получаем гкр = 0,444.

Для выборочных парных коэффициентов корреляции Гц, абсолютная величина которых превосходит критическое значение, отвергается гипотеза о равенстве нулю соответствующих им истинных коэффициентов корреляции (H0: Pij=0), и они считаются значимыми. Остальные истинные значения коэффициентов корреляции от нуля существенно не отличаются. Подчеркнем значимые коэффициенты корреляции

 

 

X1

Х2

Х3

Х4

Х5

Х6

Х7

Х8

Х9

 

1

-0,879

-0,758

-0,556

0,767

-0,600

0,826

-0,580

0,698

Х2

 

1

0,817

0,710

-0,591

0,631

-0,676

0,406

-0,514

Х3

 

 

1

0,717

-0,515

0,664

-0,615

0,433

-0,466

Х4

 

 

 

1

-0,249

0,624

-0,329

0,313

-0,057

Х5

 

 

 

 

1

-0,604

0,963

-0,865

0,851

Хб

 

 

 

 

 

1

-0,658

0,612

-0,419

Х7

 

 

 

 

 

 

1

-0,833

0,906

Х8

 

 

 

 

 

 

 

1

-0,637

Х9

 

 

 

 

 

 

 

 

1

 

С вероятностью 1-а=0,95 можно утверждать наличие статистически значимой связи между i-м и j-м признаками, выборочный парный коэффициент корреляции которых rij значим. Связь между другими признаками с такой мерой уверенности не установлена (что, впрочем, не дает оснований говорить о ее отсутствии).

2) Среди признаков, которые могут обусловливать вариацию детской смертности, выделим уровень грамотности населения (Х4) и среднее число детей в семье (Х9). Соответствующие парные коэффициенты корреляции значимы и свидетельствуют о наличии существенной связи между этими переменными и исследуемой переменной. Ограничив корреляционную модель исследуемой переменной и двумя выбранными признаками, запишем для нее матрицу парных коэффициентов корреляции, взяв значения коэффициентов из общей корреляционной матрицы

r14(9)

 

где A;j - алгебраическое дополнение элемента r;j матрицы выборочных парных коэффициентов корреляции.

В данном случае, благодаря небольшой размерности матрицы, несложно получить расчетное соотношение в аналитическом виде

г          —        Г14 ~ Г19Г49

Г14(9) -    ; .

V(1 - r129)(1 - 4)

После подстановки значений получаем

-0,556 - 0,698 • (-0,057)

r14(9) -   ,        = -0,722 .

- 0,6982)(1 - (-0,057)2)

Аналогично определяем другой выборочный частный коэффициент корреляции

 

r19(4) =    і    19     14 49       і  r19(4) = 0,803 . - r124)(1 - 4)

Выборочные частные коэффициенты корреляции r14(9) и r19(4) не отличаются по знаку от соответствующих парных коэффициентов r14 и r19, но превосходят их по абсолютной величине. Следовательно, исключаемый признак x9 ослабляет взаимосвязь между признаками Х1 и Х4, а признак Х4 ослабляет связь признаков Х1 и Х9.

Рассчитаем интервальные оценки парных коэффициентов корреляции. Определяемая значением выборочного коэффициента корреляции величина z = ^1пу+~-, называемая

z-преобразованием Фишера, распределена приближенно нормально с математическим

1, 1+ Р      Р                     -   2 1

ожиданием z = — ln—-+—-— и дисперсией а2 = , где m - число исключенных ве-

2   1 -р   2(n -1)           n - m - 2

личин, р - истинное значение коэффициента корреляции. Интервальная оценка для нормально распределенной величины определяется выражением

 

где 0(t Y) - интеграл Лапласа, ,   ^ 7 + r r

z =— ln           1          несмещенная оценка математического ожидания.

2   7 - r   2(n - 7)

Для выборочного частного коэффициента корреляции r14(9)= -0,722 получаем z = -0,931. Можно использовать приближенное значение без поправки на несмещенность, оп

ределяемое по таблице z-преобразования Фишера, z'«-0,91. Используя последнее значение и определив по таблице нормального закона распределения для 0(t Y ) = 1-а=0,95 величину t Y=1,96, получаем

P(-1,4 < z < -0,42) = 0,95.

По таблице z-преобразования Фишера находим значения коэффициента корреляции р, соответствующие границам интервала величины z, и определяем его интервальную оценку

P(-0,89 < р14(9) < -0,40) = 0,95.

В интервале возможных значений частного коэффициента корреляции нуль не содержится, поэтому с вероятностью 0,95 можно утверждать, что частный коэффициент корреляции нулю не равен. Диапазон возможных значения частного коэффициента корреляции показывает, что между детской смертностью и уровнем грамотности взрослого населения существует обратная линейная статистическая зависимость, степень тесноты которой либо умеренная, либо сильная.

Аналогично получим интервальную оценку для другого частного коэффициента корреляции

P(0,71< р19(4) < 0,92) = 0,95.

Этот коэффициент также является значимым, а диапазон его значений указывает на прямую зависимость детской смертности от среднего числа детей в семье.

Рассчитаем значение выборочного множественного коэффициента корреляции исследуемого признака x1 по формуле

R =

R         . .

1          , где R - определитель матрицы выборочных парных коэффициентов кор-

Ri

41

реляции.

Расчетное аналитическое соотношение будет иметь вид

R1

 

1 - 4

r14 + 2Г14Г49Г19

(-0,556)2 + 0,6982 - 2 • (-0,556) • 0,698 • (-0,057)

—        -                       „          —               = 0,869 .

1 - (-0,057)2

 

Подставим значения выборочных парных коэффициентов корреляции и получим

 

R1

Рассчитанный коэффициент является выборочным значением множественного коэффициента корреляции - максимального среди взятых по модулю парных коэффициентов корреляции переменной x1 с линейными комбинациями признаков x4 и x9. Квадрат множественного коэффициента корреляции - коэффициент детерминации р2(49) - показывает долю дисперсии исследуемой случайной переменной, обусловленную вариацией включенных в модель признаков. Выборочное значение коэффициента детерминации R2 = r1^49)= 0,755. Остальные 24,5\% дисперсии исследуемой переменной обусловлены действием признаков, не включенных в модель. С помощью F-критерия определим значимость коэффициента детерминации, проверив гипотезу H0: р2(49) = 0. Вычислим значение F-статистики

F   =     Х1(49) ' ^

н   (1 - Г12(49))/(20 - 3)

 

Рассчитанное значение F = 26,16 сравним с критическим Ркр = 3,59, найденным по

таблице Фишера - Снедекора для уровня значимости а = 0,05 и числа степеней свободы числителя v1 = 2 и знаменателя v 2 = n - 3 = 17.

Так как рассчитанное значение превышает критическое, проверяемая гипотеза отвергается, и с вероятностью 1-а=0,95 можно утверждать, что множественный коэффициент корреляции р1(49) не равен нулю. Следовательно, существует статистически значимая связь детской смертности с уровнем грамотности взрослого населения и средним числом детей в семье.

4.2. Регрессионный анализ Регрессионная модель уровня детской смертности

В ходе регрессионного анализа выявляется форма и параметры зависимости одного из признаков, называемого зависимой переменной, от других - объясняющих переменных, считающихся неслучайными величинами. Зависимая переменная представляет собой наиболее важный из практических соображений признак. Отбор признаков для использования в качестве объясняющих переменных производится на основе анализа их содержательной сущности и результатов корреляционного анализа. При этом из признаков, связанных зависимостью, близкой к неслучайной функциональной, выбирают какой-либо один во избежание эффекта мультиколлинеарности объясняющих переменных. Выбор вида уравнения регрессии определяется сущностью изучаемого явления. Простейшей из регрессионных моделей является линейная. Оценка параметров уравнения входит в число важнейших задач регрессионного анализа. Наряду с нахождением значений параметров оценивается их точность, проверяется значимость уравнения и его коэффициентов.

По данным 1995 года о 20 бывших и нынешних социалистических странах, взятых из таблицы ПРИЛОЖЕНИЯ 1, наряду с приведенной выше матрицей выборочных парных коэффициентов корреляции, построены уравнения регрессии. В этих уравнениях зависимой переменной является социально значимый признак Х1 - детская смертность (число умерших младенцев на 1000 новорожденных). В качестве объясняющих переменных использованы признаки в различных комбинациях

 

y = 99,891 - 0,225х3 - 0,957х4 + 0,215х6 + 12,994х9 ;        r2=0,774; f=12,883;

(42,430)   (0,200)      (0,564)     (1,005) (3,738)

y = 31,134 - 0,497x3 + 9,939x9 ;       R2=0,726; F=22,556;

(12,652)   (0,128) (3,241)

y = 30,980 - 0,445x3 - 0,493x6 +9,661x9;     R2=0,730; F=14,455;

(12,945)  (0,161)   (0,989) (3,362)

y = 121,093 - 1,354x4 + 15,099x9 ;   R2=0,775; F=26,159.

(31,207)     (0,314) (2,718)

Для каждого уравнения рассчитаны значения коэффициентов детерминации и F-статистик. Под коэффициентами приведены значения их выборочных средних квадра-тических отклонений.

Требуется:

Используя критерий Фишера, проверить на уровне а=0,05 значимость каждого из уравнений регрессии. В значимых уравнениях рассчитать значения t-статистик всех коэффициентов. Переписать уравнения регрессии, указывая под коэффициентами значения t-статистик.

По таблице распределения Стьюдента определить tq, - критическое значение t-статистики для каждого из уравнений на уровне значимости а=0,05. Проверить значимость коэффициентов уравнения регрессии.

Выбрать из предложенных уравнений наилучшее. Рассчитать интервальные оценки его коэффициентов. Произвести анализ уравнения.

Решение:

Для каждого из уравнения определим F^, - критическое значение F-статистики по таблице Фишера - Снедекора при уровне значимости а = 0,05 и числе степеней свободы числителя р, а знаменателя v=n-p-1, где р - число регрессоров в уравнении. Получаем

 

Значения F-статистик всех уравнений превышают соответствующие критические значения. Следовательно, все уравнения являются статистически значимыми.

Для проверки значимости коэффициентов проверим гипотезу о равенстве нулю каждого истинного значения в каждого из них H0: в=0. Для этого вычислим по выборочному значению b каждого коэффициента и его выборочному среднему квадратическому отклонению S статистику

t -      - b н- s -s.

Для первого коэффициента первого уравнения tн - 99,891/42,430 - 2,354 . Вычислим значения остальных t-статистик и запишем уравнения с указанием их значений

 

y = 99,891 - 0,225x3 - 0,957x4 + 0,215x6 + 12,994x9 ;       R2=0,774; F=12,883; (2,354)    (-1,125)     (-1,696)     (0,210) (3,476)

y = 31,134 - 0,497x3 + 9,939x9 ;       R2=0,726; F=22,556;

(2,461)  (-3,856) (3,067)

y = 30,980 - 0,445x3 - 0,493x6 +9,661x9;     R2=0,730; F=14,455;

(2,393)  (-2,770)  (-0,499) (2,871)

y = 121,093 - 1,354x4 + 15,099x9 ;   R2=0,775; F=26,159.

(3,880)   (-4,309) (5,554)

Критические значения t-статистик обычно лежат в интервале от 2 до 3. Рассчитаем их для каждого уравнения по таблице распределения Стьюдента для уровня значимости а=0,05 и числа степеней свободы v=n-p-1, где p - число регрессоров в уравнении.

1кр1(0,05;15) = 2,131;    ^(0,05;17) = ^(0,05;17) = 2,110;    t^(0,05;16) = 2,120.

Сравним абсолютные величины t-статистик с критическими значениями.

Если |t н |> tкр, то с вероятностью 1-а=0,95 истинный коэффициент уравнения регрессии нулю не равен, и соответствующий признак влияет на вариацию зависимой переменной. В противном случае предположение о нулевом значении коэффициента и, следовательно, об отсутствии влияния регрессора на поведение зависимой переменной не противоречит имеющимся данным, и такой коэффициент считается незначимым.

Выделим значимые коэффициенты в каждом уравнении

 

y = 99,891 - 0,225Х3 - 0,957х4 + 0,215х6 + 12,994х9; t^=2,131; R2=0,774; F=12,883; (2,354)   (-1,125)    (-1,696)     (0,210) (3,476)

y = 31,134 - 0,497x3 + 9,939x9;        t^=2,110; R2=0,726; F=22,556;

(2,461)    (-3,856) (3,067)

y = 30,980 - 0,445x3 - 0,493x6 +9,661x9;     ^=2,120; R2=0,730; F=14,455;

(2,393)    (-2,770)    (-0,499) (2,871)

y = 121,093 - 1,354x4 + 15,099x9;    t^=2,110; R2=0,775; F=26,159.

(3,880)    (-4,309) (5,554)

Во втором и четвертом уравнениях все коэффициенты значимы.

 

3) Для практического использования пригодны лишь уравнения со значимыми коэффициентами при регрессорах. Выберем из соответствующих данному условию уравнений то, которое характеризуется наибольшей величиной коэффициента детерминации R ,

 

y = 121,093 - 1,354x4 + 15,099x9;     t^=2,110;   R2=0,775; F=26,159. (3,880)     (-4,309) (5,554)

Рассчитаем интервальные оценки его коэффициентов

Р(Ь - taSb < Р < Ь + taSb) = Y.

По таблице распределения Стьюдента для доверительной вероятности у=1-а =0,95 найдем с учетом числа степеней свободы v=n-k-1 значение ta = t0;05 = 2,110. С учетом приведенных в исходных данных значений выборочных средних квадратических отклонений Sb коэффициентов определим интервальную оценку коэффициента Ь0

Р(Ь0 - taSb0 < Р < Ь0 + taSb0) = Y,

P(121,093 - 2,110 • 31,207 < Д, < 121,093 + 2,110 • 31,207) = 0,95, P(55,246 < в0 < 186,940) = 0,95 и остальных коэффициентов

P(-2,017 < Д < -0,691) = 0,95, P(9,364 <Р2 < 20,834) = 0,95 .

Нуль не содержится ни в одном из рассчитанных интервалов возможных значений коэффициентов уравнения регрессии, что еще раз свидетельствует о значимости каждого из коэффициентов.

С увеличением уровня грамотности населения на один процент детская смертность снижается в среднем на 1,354 событий на 1000 новорожденных, при этом с вероят

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 |