Имя материала: Эконометрика Автор: В.С. Мхитарян 4. примеры решения типовых задач
4.1. Корреляционный анализ Анализ взаимосвязи социально-экономических показателей группы стран В ходе корреляционного анализа выявляется статистическая взаимосвязь между признаками и отбираются переменные для включения в регрессионную модель. Предпосылками корреляционного анализа являются случайность признаков и нормальный многомерный закон их совместного распределения. Поэтому необходимым условием для его проведения является однородность выборки, простейший способ обеспечения которой -группировка объектов по общности их основных свойств. По данным 1995 года о 20 бывших и нынешних социалистических странах, взятых из таблицы ПРИЛОЖЕНИЯ 1, рассчитана матрица выборочных парных коэффициентов корреляции
Исследуемый признак - xi - детская смертность (число умерших младенцев на 1000 новорожденных). Требуется: Проверить значимость каждого из коэффициентов на уровне значимости а = 0,05. Определить признаки, наиболее важные для объяснения вариации исследуемой переменной, рассчитать выборочные частные коэффициенты корреляции исследуемого признака с каждым из признаков при фиксированном значении остальных. Найти интервальные оценки частных коэффициентов корреляции, определить значимость коэффициентов. Сравнить частные коэффициенты корреляции с соответствующими парными и сделать выводы относительно роли исключенной переменной в изменении степени тесноты статистической связи, характеризуемой этими коэффициентами корреляции. Рассчитать значение множественного коэффициента корреляции исследуемого признака с выбранными в п.2 признаками. Найти коэффициент детерминации, проверить его значимость. Решение: 1) Определим по таблице Фишера-Йейтса критическое значение гкр для одного из наиболее часто использующихся уровней значимости а=0,05. С учетом объема выборки n=20 находим число степеней свободы v=n-2=18. По данным таблицы получаем гкр = 0,444. Для выборочных парных коэффициентов корреляции Гц, абсолютная величина которых превосходит критическое значение, отвергается гипотеза о равенстве нулю соответствующих им истинных коэффициентов корреляции (H0: Pij=0), и они считаются значимыми. Остальные истинные значения коэффициентов корреляции от нуля существенно не отличаются. Подчеркнем значимые коэффициенты корреляции
С вероятностью 1-а=0,95 можно утверждать наличие статистически значимой связи между i-м и j-м признаками, выборочный парный коэффициент корреляции которых rij значим. Связь между другими признаками с такой мерой уверенности не установлена (что, впрочем, не дает оснований говорить о ее отсутствии). 2) Среди признаков, которые могут обусловливать вариацию
детской смертности, выделим уровень грамотности населения (Х4) и среднее число
детей в семье (Х9). Соответствующие парные коэффициенты корреляции значимы и
свидетельствуют о наличии существенной связи между этими переменными и
исследуемой переменной. Ограничив корреляционную модель исследуемой переменной
и двумя выбранными признаками, запишем для нее матрицу парных коэффициентов
корреляции, взяв значения коэффициентов из общей корреляционной матрицы r14(9)
где A;j - алгебраическое дополнение элемента r;j матрицы выборочных парных коэффициентов корреляции. В данном случае, благодаря небольшой размерности матрицы, несложно получить расчетное соотношение в аналитическом виде г — Г14 ~ Г19Г49 Г14(9) - ; . V(1 - r129)(1 - 4) После подстановки значений получаем -0,556 - 0,698 • (-0,057) r14(9) - , = -0,722 . - 0,6982)(1 - (-0,057)2) Аналогично определяем другой выборочный частный коэффициент корреляции
r19(4) = і 19 14 49 і r19(4) = 0,803 . - r124)(1 - 4) Выборочные частные коэффициенты корреляции r14(9) и r19(4) не отличаются по знаку от соответствующих парных коэффициентов r14 и r19, но превосходят их по абсолютной величине. Следовательно, исключаемый признак x9 ослабляет взаимосвязь между признаками Х1 и Х4, а признак Х4 ослабляет связь признаков Х1 и Х9. Рассчитаем интервальные оценки парных коэффициентов корреляции. Определяемая значением выборочного коэффициента корреляции величина z = ^1пу+~-, называемая z-преобразованием Фишера, распределена приближенно нормально с математическим 1, 1+ Р Р - 2 1 ожиданием z = — ln—-+—-— и дисперсией а2 = , где m - число исключенных ве- 2 1 -р 2(n -1) n - m - 2 личин, р - истинное значение коэффициента корреляции. Интервальная оценка для нормально распределенной величины определяется выражением
где 0(t Y) - интеграл Лапласа, , ^ 7 + r r z =— ln 1 несмещенная оценка математического ожидания. 2 7 - r 2(n - 7) Для выборочного частного коэффициента корреляции r14(9)= -0,722 получаем z = -0,931. Можно использовать приближенное значение без поправки на несмещенность, оп ределяемое по таблице z-преобразования Фишера, z'«-0,91. Используя последнее значение и определив по таблице нормального закона распределения для 0(t Y ) = 1-а=0,95 величину t Y=1,96, получаем P(-1,4 < z < -0,42) = 0,95. По таблице z-преобразования Фишера находим значения коэффициента корреляции р, соответствующие границам интервала величины z, и определяем его интервальную оценку P(-0,89 < р14(9) < -0,40) = 0,95. В интервале возможных значений частного коэффициента корреляции нуль не содержится, поэтому с вероятностью 0,95 можно утверждать, что частный коэффициент корреляции нулю не равен. Диапазон возможных значения частного коэффициента корреляции показывает, что между детской смертностью и уровнем грамотности взрослого населения существует обратная линейная статистическая зависимость, степень тесноты которой либо умеренная, либо сильная. Аналогично получим интервальную оценку для другого частного коэффициента корреляции P(0,71< р19(4) < 0,92) = 0,95. Этот коэффициент также является значимым, а диапазон его значений указывает на прямую зависимость детской смертности от среднего числа детей в семье. Рассчитаем значение выборочного множественного коэффициента корреляции исследуемого признака x1 по формуле R = R . . 1 , где R - определитель матрицы выборочных парных коэффициентов кор- Ri 41 реляции. Расчетное аналитическое соотношение будет иметь вид R1
1 - 4 r14 + 2Г14Г49Г19 (-0,556)2 + 0,6982 - 2 • (-0,556) • 0,698 • (-0,057) — - „ — = 0,869 . 1 - (-0,057)2
Подставим значения выборочных парных коэффициентов корреляции и получим
R1 Рассчитанный коэффициент является выборочным значением множественного коэффициента корреляции - максимального среди взятых по модулю парных коэффициентов корреляции переменной x1 с линейными комбинациями признаков x4 и x9. Квадрат множественного коэффициента корреляции - коэффициент детерминации р2(49) - показывает долю дисперсии исследуемой случайной переменной, обусловленную вариацией включенных в модель признаков. Выборочное значение коэффициента детерминации R2 = r1^49)= 0,755. Остальные 24,5\% дисперсии исследуемой переменной обусловлены действием признаков, не включенных в модель. С помощью F-критерия определим значимость коэффициента детерминации, проверив гипотезу H0: р2(49) = 0. Вычислим значение F-статистики F = Х1(49) ' ^ н (1 - Г12(49))/(20 - 3)
Рассчитанное значение F = 26,16 сравним с критическим Ркр = 3,59, найденным по таблице Фишера - Снедекора для уровня значимости а = 0,05 и числа степеней свободы числителя v1 = 2 и знаменателя v 2 = n - 3 = 17. Так как рассчитанное значение превышает критическое, проверяемая гипотеза отвергается, и с вероятностью 1-а=0,95 можно утверждать, что множественный коэффициент корреляции р1(49) не равен нулю. Следовательно, существует статистически значимая связь детской смертности с уровнем грамотности взрослого населения и средним числом детей в семье. 4.2. Регрессионный анализ Регрессионная модель уровня детской смертности В ходе регрессионного анализа выявляется форма и параметры зависимости одного из признаков, называемого зависимой переменной, от других - объясняющих переменных, считающихся неслучайными величинами. Зависимая переменная представляет собой наиболее важный из практических соображений признак. Отбор признаков для использования в качестве объясняющих переменных производится на основе анализа их содержательной сущности и результатов корреляционного анализа. При этом из признаков, связанных зависимостью, близкой к неслучайной функциональной, выбирают какой-либо один во избежание эффекта мультиколлинеарности объясняющих переменных. Выбор вида уравнения регрессии определяется сущностью изучаемого явления. Простейшей из регрессионных моделей является линейная. Оценка параметров уравнения входит в число важнейших задач регрессионного анализа. Наряду с нахождением значений параметров оценивается их точность, проверяется значимость уравнения и его коэффициентов. По данным 1995 года о 20 бывших и нынешних социалистических странах, взятых из таблицы ПРИЛОЖЕНИЯ 1, наряду с приведенной выше матрицей выборочных парных коэффициентов корреляции, построены уравнения регрессии. В этих уравнениях зависимой переменной является социально значимый признак Х1 - детская смертность (число умерших младенцев на 1000 новорожденных). В качестве объясняющих переменных использованы признаки в различных комбинациях
y = 99,891 - 0,225х3 - 0,957х4 + 0,215х6 + 12,994х9 ; r2=0,774; f=12,883; (42,430) (0,200) (0,564) (1,005) (3,738) y = 31,134 - 0,497x3 + 9,939x9 ; R2=0,726; F=22,556; (12,652) (0,128) (3,241) y = 30,980 - 0,445x3 - 0,493x6 +9,661x9; R2=0,730; F=14,455; (12,945) (0,161) (0,989) (3,362) y = 121,093 - 1,354x4 + 15,099x9 ; R2=0,775; F=26,159. (31,207) (0,314) (2,718) Для каждого уравнения рассчитаны значения коэффициентов детерминации и F-статистик. Под коэффициентами приведены значения их выборочных средних квадра-тических отклонений. Требуется: Используя критерий Фишера, проверить на уровне а=0,05 значимость каждого из уравнений регрессии. В значимых уравнениях рассчитать значения t-статистик всех коэффициентов. Переписать уравнения регрессии, указывая под коэффициентами значения t-статистик. По таблице распределения Стьюдента определить tq, - критическое значение t-статистики для каждого из уравнений на уровне значимости а=0,05. Проверить значимость коэффициентов уравнения регрессии. Выбрать из предложенных уравнений наилучшее. Рассчитать интервальные оценки его коэффициентов. Произвести анализ уравнения. Решение: Для каждого из уравнения определим F^, - критическое значение F-статистики по таблице Фишера - Снедекора при уровне значимости а = 0,05 и числе степеней свободы числителя р, а знаменателя v=n-p-1, где р - число регрессоров в уравнении. Получаем
Значения F-статистик всех уравнений превышают соответствующие критические значения. Следовательно, все уравнения являются статистически значимыми. Для проверки значимости коэффициентов проверим гипотезу о равенстве нулю каждого истинного значения в каждого из них H0: в=0. Для этого вычислим по выборочному значению b каждого коэффициента и его выборочному среднему квадратическому отклонению S статистику t - - b н- s -s. Для первого коэффициента первого уравнения tн - 99,891/42,430 - 2,354 . Вычислим значения остальных t-статистик и запишем уравнения с указанием их значений
y = 99,891 - 0,225x3 - 0,957x4 + 0,215x6 + 12,994x9 ; R2=0,774; F=12,883; (2,354) (-1,125) (-1,696) (0,210) (3,476) y = 31,134 - 0,497x3 + 9,939x9 ; R2=0,726; F=22,556; (2,461) (-3,856) (3,067) y = 30,980 - 0,445x3 - 0,493x6 +9,661x9; R2=0,730; F=14,455; (2,393) (-2,770) (-0,499) (2,871) y = 121,093 - 1,354x4 + 15,099x9 ; R2=0,775; F=26,159. (3,880) (-4,309) (5,554) Критические значения t-статистик обычно лежат в интервале от 2 до 3. Рассчитаем их для каждого уравнения по таблице распределения Стьюдента для уровня значимости а=0,05 и числа степеней свободы v=n-p-1, где p - число регрессоров в уравнении. 1кр1(0,05;15) = 2,131; ^(0,05;17) = ^(0,05;17) = 2,110; t^(0,05;16) = 2,120. Сравним абсолютные величины t-статистик с критическими значениями. Если |t н |> tкр, то с вероятностью 1-а=0,95 истинный коэффициент уравнения регрессии нулю не равен, и соответствующий признак влияет на вариацию зависимой переменной. В противном случае предположение о нулевом значении коэффициента и, следовательно, об отсутствии влияния регрессора на поведение зависимой переменной не противоречит имеющимся данным, и такой коэффициент считается незначимым. Выделим значимые коэффициенты в каждом уравнении
y = 99,891 - 0,225Х3 - 0,957х4 + 0,215х6 + 12,994х9; t^=2,131; R2=0,774; F=12,883; (2,354) (-1,125) (-1,696) (0,210) (3,476) y = 31,134 - 0,497x3 + 9,939x9; t^=2,110; R2=0,726; F=22,556; (2,461) (-3,856) (3,067) y = 30,980 - 0,445x3 - 0,493x6 +9,661x9; ^=2,120; R2=0,730; F=14,455; (2,393) (-2,770) (-0,499) (2,871) y = 121,093 - 1,354x4 + 15,099x9; t^=2,110; R2=0,775; F=26,159. (3,880) (-4,309) (5,554) Во втором и четвертом уравнениях все коэффициенты значимы.
3) Для практического использования пригодны лишь уравнения со значимыми коэффициентами при регрессорах. Выберем из соответствующих данному условию уравнений то, которое характеризуется наибольшей величиной коэффициента детерминации R ,
y = 121,093 - 1,354x4 + 15,099x9; t^=2,110; R2=0,775; F=26,159. (3,880) (-4,309) (5,554) Рассчитаем интервальные оценки его коэффициентов Р(Ь - taSb < Р < Ь + taSb) = Y. По таблице распределения Стьюдента для доверительной вероятности у=1-а =0,95 найдем с учетом числа степеней свободы v=n-k-1 значение ta = t0;05 = 2,110. С учетом приведенных в исходных данных значений выборочных средних квадратических отклонений Sb коэффициентов определим интервальную оценку коэффициента Ь0 Р(Ь0 - taSb0 < Р < Ь0 + taSb0) = Y, P(121,093 - 2,110 • 31,207 < Д, < 121,093 + 2,110 • 31,207) = 0,95, P(55,246 < в0 < 186,940) = 0,95 и остальных коэффициентов P(-2,017 < Д < -0,691) = 0,95, P(9,364 <Р2 < 20,834) = 0,95 . Нуль не содержится ни в одном из рассчитанных интервалов возможных значений коэффициентов уравнения регрессии, что еще раз свидетельствует о значимости каждого из коэффициентов. С увеличением уровня грамотности населения на один процент детская смертность снижается в среднем на 1,354 событий на 1000 новорожденных, при этом с вероят |