Имя материала: Математические методы в экономике

Автор: Замков Олег Олегович

15.4. соотношения между экономическими переменными. линейная связь. корреляция

Различные экономические показатели как на микро-, так и на макроуровне не являются независимыми, а связаны между собой; например, цена какого-либо товара и величина спроса на этот товар, объем производства и прибыль фирмы, располагаемый доход и объем личного потребления, инфляция и безработица.

Если не принимать во внимание стохастическую природу экономических данных, то для описания взаимосвязей различных экономических и финансовых показателей между собой применяется функциональный подход. Связь одного из показателей с другими показателями описывается с помощью функций одной y=j{x) или нескольких переменных у=Дхгх2,...,хп). Такой подход применяется там, где вероятностный характер экономических процессов малосущественен для принятия решений.

На самом деле взаимосвязи показателей в экономике редко имеют простой функциональный вид, поскольку на интересующий нас показатель кроме явно учитываемых объясняющих переменных влияет еще множество других факторов, существующих в действительности, но не учитываемых явно в модели; часть из этих факторов -случайные. Это обусловливает стохастическую природу как некоторых экономических переменных, так и взаимосвязей между ними. Стохастические взаимосвязи переменных можно описать с помощью частотных (вероятностных) или корреляционных характеристик.

15.4.1. Вероятностные соотношения: совместная частота (вероятность), условная частота (вероятность), статистическая независимость случайных переменных

Под совместной частотой v(x,y) двух случайных величин X и Y мы понимаем относительную частоту события, состоящего в том, что величины Хи Кпринимают одновременно значения х и >>соответственно. В пределе, когда число наблюдений стремится к бесконечности, совместная частота переходит в совместную вероятность Р(х,у). Однако совместная частота или вероятность не являются характеристиками именно взаимосвязи случайных переменных, поскольку их значения определяются не только синхронностью изменения исследуемых случайных величин, но и частотой, с которой переменные принимают фиксированные значения. Поэтому для характеристики взаимосвязи случайных переменных чаще используют другую характеристику - условную частоту или вероятность.

Под условной частотой v(yx) двух случайных величин Y и X мы понимаем относительную частоту события, состоящего в том, что величина К принимает значение упри условии, что величина Хуже приняла значение х. В пределе, когда величины Хи Кпринимают все возможные значения из генеральной совокупности, условная частота переходит в условную вероятность Ру[х).

Если величины Хи ^связаны функциональной зависимостью, например, Y=X2, то условная частота (вероятность) Ру=х2х) равна единице, так как в 100\% случаях (с вероятностью единица) значению Xбудет соответствовать значение Y=X1.

В противоположном случае, когда величины Л" и К совершенно не связаны между собой, условная частота v(yx) никак не будет зависеть от значения х и будет совпадать с частотой появления значения у, v(y). При этом совместная частота будет пропорциональна частотам появления значений х и у: v(x,y)=v(x)v(y). То же относится и к совместной вероятности независимых случайных величин Рх,у)=Рх)-Ру). Данное равенство является формальным определением независимости случайных величин х и у. они называются независимыми, если равенство Р(х,у) = Р(х) Р(у) выполняется для любых значений х и у.

Если Хи Г независимы, то M[XY = MXMY, a DX+Y = DX + D[Y.

15.4.2. Анализ линейной статистической связи экономических данных. Корреляция

В экономических исследованиях одной из основных задач является анализ зависимостей между переменными. Зависимость может быть строгой (функциональной) либо статистической. Алгебра и математический анализ занимаются изучением функциональных зависимостей, то есть зависимостей, заданных в виде точных формул. Но любая такая зависимость в определенной степени является абстракцией, поскольку в окружающем мире, частью которого является экономика, значение конкретной величины не определяется неизменной формулой ее зависимости от некоторого набора других величин. Всегда есть несколько величин, которые определяют главные тенденции изменения рассматриваемой величины, и в экономической теории и практике ограничиваются тем или иным кругом таких величин (объясняющих переменных). Однако всегда существует и воздействие большого числа других, менее важных или трудно идентифицируемых факторов, приводящее к отклонению значений объясняемой (зависимой) переменной от конкретной формулы ее связи с объясняющими переменными, сколь бы точной эта формула ни была. Нахождение, оценка и анализ таких связей, идентификация объясняющих переменных, построение формул зависимости и оценка их параметров являются не только одним из важнейших разделов математической статистики. Это своего рода искусство, учитывающее в каждой конкретной области знаний (в частности, в экономике, о которой идет речь), ее внутренние законы и потребности. Но это также и наука, поскольку выбираемый и оцениваемый вид формулы должен быть объяснен в терминах данной области знаний.

Пусть требуется оценить связь между переменными Хи Y(например, связь показателей безработицы и инфляции в данной стране за определенный период времени). В частности, может стоять вопрос, связаны ли между собой эти показатели, и при положительном ответе на него, естественно, встает задача нахождения формулы этой связи. Основой для ответа на этот вопрос являются статистические данные о динамике этих показателей (годовые, квартальные, месячные и т.п.). Эти данные представляют собой некоторую, предположительно - случайную, выборку из генеральной совокупности, то есть из совокупности всех возможных сочетаний показателей инфляции и безработицы в сложившихся условиях.

Таким образом, вывод о наличии связи для всей генеральной совокупности нужно делать по выборочным данным, что само по себе уже делает ответ на поставленный вопрос небезусловным. Более того, по данным выборки ответить на вопрос в приведенной постановке, то есть о наличии связи "вообще", невозможно. Действительно, через любые N точек на плоскости всегда можно провести полином степени N- и объявить, что найдена точная формула связи. Однако опыт подсказывает, что если бы мы получили еще одну точку-наблюдение, то она наверняка не удовлетворяла бы найденной формуле. Поэтому вопрос о наличии связи между переменными (в частности - экономическими) следует ставить как вопрос о наличии конкретной формулы (спецификации) такой связи, устойчивой к изменению числа наблюдений. При этом нужно понимать, что ответ на этот вопрос по данным выборки не может быть однозначным и категоричным.

Простейшей формой зависимости между переменными является линейная зависимость, и проверка наличия такой зависимости, оценивание ее индикаторов и параметров является одним из важнейших направлений приложения математической статистики.

Рассмотрим вначале вопрос о линейной связи Двух переменных

Связаны ли между собой линейно переменные Л"и У?

Какова формула связи переменных Хм У?

В первом случае переменные Хм К выступают как равноправные, здесь нет независимой и зависимой переменных. Во втором случае речь может идти о нахождении зависимости одной переменной от другой, например об оценивании формулы Y=a+bX (где а и b - неизвестные коэффициенты такой зависимости). В этом случае переменная Л"является независимой (объясняющей), а переменная Y - зависимой (объясняемой). Вопрос о нахождении формулы зависимости можно ставить после положительного ответа на вопрос о существовании такой зависимости, но эти два вопроса можно решать и одновременно.

Для ответа на поставленные вопросы существуют специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о наличии или отсутствии линейной связи между переменными. В первом случае это коэффициент корреляции величин Хм К, во втором случае - коэффициенты линейной регрессии а и Ь, их стандартные ошибки и /-статистики, по значениям которых проверяется гипотеза об отсутствии связи величин Хм Y.

Вначале объясним логику появления такого показателя, как коэффициент корреляции. Предположим, что между переменными X и ^существует линейная связь. Наличие такой связи можно интерпретировать следующим образом. Если переменная X принимает значения большие, чем ее среднее значение, и связь положительна

 

(на языке формул это означает, что коэффициент b положителен), то значение переменной К также должно быть больше ее среднего значения и соотношение отклонений А'и Кот их средних значений должно быть постоянным. Если в этом случае переменная А'принимает значение меньше, чем ее среднее значение, то и значение К должно быть меньше ее среднего с тем же коэффициентом пропорциональности этих отклонений. Если связь переменных А'и Котри-цательна, то положительное отклонение А'от среднего значения должно сочетаться с отрицательным отклонением Кот ее средней, а отрицательное отклонение А"от среднего значения - с положительным отклонением Кот ее средней - при постоянном соотношении этих отклонений. Если линейной связи между переменными А'и Y нет, то положительные отклонения переменной А" от ее среднего значения могут (хотя и не обязательно будут) сочетаться как с положительными, так и с отрицательными отклонениями Кот ее среднего, то же можно сказать и про отрицательные отклонения А" от среднего.

15.4.3. Коэффициент корреляции для выборки и генеральной совокупности

В качестве меры для степени линейной связи двух переменных используется коэффициент их корреляции. Приведем вначале формулу выборочного коэффициента корреляции переменных А'и К:

1

-£ (** " х)(ук - у)

Y

(3)

X

По формуле коэффициента корреляции видно, что он будет положителен, если отклонения переменных А' и Кот своих средних значений имеют, как правило, одинаковый знак, и отрицательным - если разные знаки.

Коэффициент корреляции является безразмерной величиной (так как размерности числителя и знаменателя есть размерности произведения X Y) его величина не зависит от выбора единиц измерения обеих переменных. Величина коэффициента корреляции меняется от -1 в случае строгой линейной отрицательной связи до +1 в случае строгой линейной положительной связи. Случаи положительной и отрицательной корреляции переменных (с близкими по модулю к единице коэффициентами корреляции) показаны на рис. 15.8. Близкая к нулю величина коэффициента корреляции говорит об отсутствии линейной связи переменных, но не об отсутствии связи между ними вообще. Это ясно из правой части рис. 15.8, где X и Y, очевидно, связаны друг с другом (лежат на одной окружности), но их коэффициент корреляции близок к нулю. Последнее вытекает их того, что каждой паре одинаковых отклонений переменной А'от ее среднего значения соответствуют равные по абсолютной величине положительное и отрицательное отклонения переменной Кот ее среднего. Соответственно, произведения этих отклонений "гасят" друг друга в числителе формулы коэффициента корреляции, и он оказывается близким к нулю. Заметим, что в числителе формулы для выборочного коэффициента корреляции величин Л" и Кстоит их показатель ковариации:

covJx,y = -Jl>* ~x)(yk- у). (4)

Этот показатель, как и коэффициент корреляции, характеризует степень линейной связи величин X и Y, и он также равен нулю, если эти величины независимы. Однако, в отличие от коэффициента корреляции, показатель ковариации не нормирован - он имеет размерность, и его величина зависит от единиц измерения величин Хн Y. В статистическом анализе показатель ковариации сам по себе используется редко; он фигурирует обычно как промежуточный элемент расчета коэффициента корреляции.

Мы вели до сих пор речь о выборочном коэффициенте корреляции величин X и Y, который рассчитывается для оценки степени линейной связи этих величин по данным выборки. При этом истинным показателем степени линейной связи величин X и К для закона распределения, имеющегося на генеральной совокупности, является теоретический коэффициент корреляции рху, оценкой которого является выборочный коэффициент корреляции. Коэффициент корреляции для генеральной совокупности определяется следующим образом:

 

_ соу(Х.У)

?ху     a{X)a(Y)- ^> Стоящий в числителе этой формулы показатель ковариации величин X и /определяется следующим образом:

cov[A-, Y = M(X-M[X])i Y-M Y)]. (6)

Используя показатель ковариации, удобно записать формулу для дисперсии суммы случайных величин Хп Y:

D{X+ Y = D[X + D[ Y + 2-cov[X, У|. (7)

Исходя из определения коэффициента корреляции, покажем, что он равен 1 или -1 при строгой линейной зависимости величин Хи Y и равен нулю в случае их независимости.

Пусть Y=a+bX. Тогда

М[(Х- M{X])(Y- M[Y) = М(Х- М[Х])(а + ЬХ- М[а + ЬХ]) = =М[(Х - МХ)(а + ЬХ - М[а - М[ЬХ) = = М(Х - МХ])(а + ЬХ - Ма - МЬХ)) = = М[(Х- МХ])Ь(Х- ЩХ) = bD[X.

 

Очевидно также, что D Y=Da+bX]-b2D[X, и рху = „[х|^[у] =

b

■т^т, то есть коэффициент корреляции равен 1 при положительном

коэффициенте b и равен -1 при отрицательном Ь. Если Хи /независимы, то

со\Х,У] = МЦХ- М[Х){ У- МУ) = М[Х - М[Х\] MY - M[Y\] = 00 = 0,

но необязательно наоборот.

Итак, равный нулю коэффициент корреляции для генеральной совокупности говорит об отсутствии линейной связи рассматриваемых величин. Однако он не свидетельствует об отсутствии их связи вообще. В случае равенства нулю показателя корреляции, например, величин уровней инфляции и безработицы (а это действительно практически так для периода 1970-х - 1980-х годов для экономики США) нужно не говорить сразу о независимости этих показателей в данный период, а попытаться построить более сложную модель их связи, учитывающую, возможно, как нелинейность самой зависимости, так и наличие в ней запаздываний во времени (лагов), а также инерционность динамики соответствующих величин.

10. О. О. Замков

15.4.4. Оценивание параметров и проверка гипотез о корреляции случайных переменных

Далее, в анализе коэффициента корреляции возникает следующий вопрос. Если он равен нулю для генеральной совокупности, это вовсе не значит, что он в точности будет равен нулю для выборки. Наоборот, он обязательно будет отклоняться от истинного значения, но чем больше такое отклонение, тем менее оно вероятно при данном объеме выборки. Таким образом, при каждом конкретном значении коэффициента корреляции величин А"и К для генеральной совокупности выборочный коэффициент корреляции является случайной величиной. Следовательно, случайной величиной является также любая его функция, и требуется указать такую функцию, которая имела бы одно из известных распределений, удобное для табличного анализа. Для выборочного коэффициента корреляции г такой функцией является f-статистика, рассчитываемая по / ' _ 2

формуле t — г-1—~—— и имеющая распределение Стьюдента с (п-2)

 

степенями свободы. Число степеней свободы меньше числа наблюдений на 2, поскольку в формулу выборочного коэффициента корреляции входят средние выборочные значения А" и У, для расчета которых используются две линейные формулы их зависимости от наблюдений случайных величин. Сразу уточним, что для коэффициента корреляции будет проверяться нулевая гипотеза, то есть гипотеза о равенстве его нулю в генеральной совокупности. Эта гипотеза отвергается, если выборочный коэффициент корреляции слишком далеко отклонился от нулевого значения, то есть произошло событие, которое было бы маловероятным в случае pXY—0.

Здесь, конечно, очень важно понять, что конкретно значат слова "слишком далеко" и "маловероятное событие". В последнем случае нужно задать вероятность такого события, которая называется в статистике "уровень значимости". Чаше всего задается уровень значимости 1\% или 5\%. Если для некоторого показателя проверяется гипотеза о том, что его истинное значение равно нулю, то данная гипотеза отвергается в том случае, если оценка показателя по данным выборки такова, что вероятность получения такого или большего (по модулю) ее значения меньше, чем 1\% или 5\% соответственно.

На рис. 15.9 дана иллюстрация проверки нулевой гипотезы для коэффициента корреляции, которая может быть использована для рассмотрения общей схемы проверки статистических гипотез. Здесь Я0 - гипотеза о том, что истинное значение коэффициента корреляции равно нулю, альтернативная ей гипотеза Я, - что оно не равно

нулю. Функция f2 - функция плотности вероятности распределения Стьюдента в случае, если нулевая гипотеза верна (она максимальна при Z=0, где Z- случайная величина выборочного коэффициента корреляции). Заштрихованная область - это область больших по абсолютной величине (маловероятных при выполнении гипотезы #0);шачений выборочного коэффициента корреляции. Если последнее все-таки попало в эту область, то Я0 отвергается. Площадь заштрихованной области, равная а, - уровень значимости, или вероятность того, что туда попадет величина Znpn выполнении Я0.

Рассмотрим процедуру и примеры проверки нулевой гипотезы для коэффициента корреляции на конкретном примере. Этот пример поможет показать логику и процедуру проверки статистических гипотез вообще. Взяты 10 наблюдений показателей инфляции и безработицы в США за 1931-1940 годы, для них рассчитан выборочный коэффициент корреляции, составивший -0,227. Связь отрицательная, что соответствует теории (кривая Филлипса), но значима ли она? Проверим гипотезу Нп: р=0 о равенстве нулю истинного значения коэффициента корреляции. Для проверки гипотезы Н№ как уже говорилось, следует использовать f-статистику с п-2 степенями свободы.

rJn - 2

 

Сравнивая определенное по выборочным данным значение статистики / с критическими точками, определяемыми по таблицам распределения Стьюдента, мы можем принять или отвергнуть нулевую гипотезу. В нашем примере /-статистика составляет -0,66. Зададим уровень значимости а=0,05, то есть 5\%. Критическая (заштрихованная) область состоит из двух одинаковых "хвостов", площадь каждого из которых составляет 0,025. Рассмотрим таблицы вероятности того, что величина /-статистики превысит уровень z, то есть попадет в правый "хвост" распределения. Вероятность попасть только в правый "хвост", то есть в одностороннюю критическую область, равна а/2, в нашем случае 0,025. Из таблицы найдем, что критическое значение z составляет 2,306. Это означает, что мы отвергли бы нулевую гипотезу только если |г|>2,306, а в нашем случае |г|=0,66. Итак, в нашем случае не исключается, что истинное значение коэффициента корреляции равно нулю, то есть на основе данной выборки не удалось сделать вывод о наличии статистически значимой линейной связи показателей инфляции и безработицы в США. Нельзя, впрочем, здесь сделать вывода и об отсутствии такой связи.

Вопросы к главе 15

Какой вид (аналитический и графический) имеют плотность распределения вероятности и функция распределения стандартного равномерного распределения, определенного на интервале 0 <х< 1?

Какой вид (аналитический и графический) имеют плотность распределения вероятности и функция распределения стандартного нормального распределения?

В чем важность нормального распределения для экономического анализа?

Что такое распределение Стьюдента? Где и как оно применяется?

Что такое совместная, предельная и условная вероятности двух событий А и В? Каковы их определения и связь между ними?

Как определяется независимость событий?

Укажите основные вероятностные характеристики двух случайных величин и соотношения между ними.

Что такое ковариация и коэффициент корреляции двух случайных величин? Какое свойство случайных величин они характеризуют?

В каких случаях понятия некоррелированности и независимости двух случайных величин эквивалентны, а в каких различны?

Приведите пример совместной плотности распределения вероятности двух случайных величин и нарисуйте их линии уровня для различных значений коэффициента корреляции этих величин.

Как проверяется гипотеза о некоррелированности двух случайных величин?

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 |