Имя материала: Институт экономики переходного периода

Автор: Носко Владимир Петрович

1.2. две переменные: меры изменчивости и связи

В приводимой ниже таблице 1.2 указаны уровни безработицы (в \%) среди белого и цветного населения США в период с марта 1968 г. по июль 1969 г. (месячные данные). В первом столбце расположены номера последовательных наблюдений (i = 1 для марта 1968 г., i =17 для июля 1969 г.), во втором столбце - значения BELi уровня безработицы среди белого населения в i -ом месяце, а в третьем - значения ZVETi уровня безработицы среди цветного населения в i -ом месяце.

8

3.1

7.3

17

3.2

6.4

9

3.0

6.5

 

 

 

Рассмотрим, прежде всего, графики изменения уровней безработицы в обеих группах в течение указанного периода времени (Рис. 1.2).

Первое впечатление от просмотра этих графиков - уровень безработицы среди цветного населения существенно выше и изменяется со временем со значительными колебаниями; уровень безработицы среди белого населения изменяется плавно и в довольно узком диапазоне. Рис. 1.2

8-,        ,

Для того, чтобы использовать обозначения, соответствующие общепринятой практике, мы обозначим через x1,x2,...,x17 последовательно наблюдаемые уровни безработицы среди цветного населения, а через y1,y2,...,y17 - соответствующие им уровни безработицы среди белого населения США, так что мы можем говорить о наблюдаемых значениях двух переменных: переменной x - уровня  безработицы среди цветного населения, и переменной у - уровня безработицы среди белого населения.

Наиболее простыми показателями, характеризующими последовательности x1,x2,...,x17 и yj,у2,...,у17, являются их средние значения (means)

1 17

x = —/ 17 ТІ

x

 

17

 

y

1 17

17 S y

y1 + y2 +---+y

17

17

а также дисперсии (точнее, выборочные дисперсии

sample variances)       

Подпись: 1Var{x) =          ~Y,(xi ~x)2

n -1

1    17 2

характеризующие степень разброса значений Л1,Л2,...,Л17 (у1,у2,...,у17) вокруг своего среднего x ( у , соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений. Отсюда обозначение Var (variance). Впрочем, более естественным было бы измерение степени разброса значений переменных в тех же единицах, в которых измеряется и сама переменная. Эту задачу решает показатель, называемый стандартным отклонением (standard deviance - Std.Dev.) переменной x (переменной у), определяемый соотношением

Std.Dev.(x) = ./Var(x),

(Std.Dev.(y) = у/ Var(y), соответственно).

Вычисления по указанным формулам приводят к значениям x =6.576, Std.Dev.(x) = 0.416; y - 3.118, Std.Dev.(y) = 0.113. Иными словами, уровень безработицы среди цветного населения, в среднем, более, чем в два раза превышает уровень безработицы среди белого населения. Стандартные отклонения, соответственно, относятся приблизительно как 4:1, что указы

вает на гораздо более сильную изменчивость ("вариабельность") уровня безработицы среди цветного населения. Разма-хи колебаний уровней равны, соответственно, 7.3 - 5.7 = 1.6 и 3.3 - 3.1 = 0.2.

Удобным графическим средством анализа данных является диаграмма рассеяния (scatterplot), на которой в прямоугольной системе координат располагаются точки xi, yi, i = 1, 2, n, где n - количество наблюдаемых пар значений переменных x и y . В нашем примере n = 17, и диаграмма рассеяния имеет вид Рис. 1.3

о о

3.4 3.3 3.2

ООО о

 

О         ООО о

ООО

о

3.0 2.9

2.8 і     і           і           і і

5.5       6.0       6.5       7.0 7.5

 

ZVET

Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение о том, что существует некоторая объективная тенденция линейной связи между значениями переменных x и y, выражаемой соотношением y = « + /?•x,

где x — уровень безработицы среди цветного, a y — среди белого населения. В то же время, указанное соотношение выражает всего лишь тенденцию: реально наблюдаемые значения yi отличаются от значений y = « + /?•xi, на величину

yt =(а + р-xt) + є,, i = 1,n.

Последнее соотношение определяет линейную модель наблюдений, тогда как соотношение y = « + /?•x

определяет линейную модель связи между рассматриваемыми переменными.

Заметим, однако, что видимая степень проявления вытяну-тости облака точек на диаграмме рассеяния (при наличии линейной связи между переменными) существенно зависит от выбора единиц измерения переменных x и y. Поэтому, во-первых, желательно при построении диаграммы выбирать масштабы и интервалы изменения переменных таким образом, чтобы диаграмма имела вид квадрата и чтобы на диаграмме имелись точки, достаточно близко расположенные к каждой из четырех границ квадрата. Во-вторых, желательно иметь какие-то числовые характеристики, которые отражали бы действительное наличие вытянутости облака точек вдоль наклонной прямой и не зависели от шкал, в которых представлены значения переменных.

Одна из характеристик такого рода связана с разбиением диаграммы рассеяния горизонтальной и вертикальной прямыми на 4 прямоугольника.

Разбивающие диаграмму прямые (секущие) проводятся через точку (x,y), так что если точка (xt,yt) лежит правее вертикальной секущей, то отклонение xi — x имеет знак плюс, а если левее, то знак минус. Аналогично, если точка (xt, yi) лежит выше горизонтальной секущей, то отклонение yi - y имеет знак плюс, а если она расположена ниже этой секущей, то знак минус (см. Рис. 1.4). Рис. 1.4

3.4

 

3.3

 

3.2

BEL

3.1

COO

3.0

 

2.9

 

2.8

5.5

6.0

6."5

7.0

7.5

 

ZVET

Пусть m++ — количество таких точек среди (xi,yi),...,(xn,yn), для которых xt -x > 0 и yt -y > 0 (верхний правый прямоугольник); m+_ — количество точек, для которых xi - x > 0 и yi - y < 0 (нижний правый прямоугольник); m_+ — количество точек, для которых xi - x < 0 и yi - y > 0 (верхний левый прямоугольник); m__ - количество точек, для которых xi — x < 0 и yi — y < 0 (нижний левый прямоугольник). В нашем примере, m++ = 4, m+_ = 4, m_+ = 3 (точки, соответствующие наблюдениям с номерами 6 и 17, имеют совпадающие координаты), m__ - 6 (точки, соответствующие наблюдениям с номерами 9 и 10, имеют совпадающие координаты), так что количество точек с совпадающими знаками отклонений xi — x и yi — y равно m++ + m_ _ - 10, ако-личество точек, у которых знаки отклонений различны, равно m+_ + m_+ - 7 .

Количество точек с совпадающими знаками отклонений от средних значений составляет 10/17=0.59, т. е. около 59\% общего числа точек, и это служит некоторым указанием на наличие вытянутости облака точек в направлении прямой, имеющей положительный угловой коэффициент. Если бы большинство составляли точки с противоположными знаками отклонений от средних значений, то это служило бы объективным указанием на наличие вытянутости облака точек в направлении прямой, имеющей отрицательный угловой коэффициент. Последняя ситуация часто наблюдается при рассмотрении зависимости спроса на товар от его цены.

Более распространенным является определение степени выраженности линейной связи между произвольными переменными x и у, принимающими значения xi и уі, i = 1,n,

посредством (выборочного) коэффициента корреляции (sample correlation coefficient)

r =

xy

Cov (x, y)

-yjVar (x )V Var (y)

Величина Cov(x, у), стоящая в числителе, определяется сои называется (выборочной) ковариацией переменных x и y,

так что, формально,

Cov(x, x) - Var(x),    Cov(y,y) - Var(y).

Если указанная тенденция выражена на диаграмме рассеяния довольно ясно, то значения rxy по абсолютной величине

близки к единице (т. е. значения rxy близки к +1 или к -1). Если

же наличие линейной тенденции связи обнаруживается на диаграмме рассеяния с трудом, то тогда значения rxy близки к нулю. Как мы увидим позднее, значения rxy уже не зависят от выбора шкал измерения переменных x и y (если, конечно, эти шкалы линейны).

В   нашем   примере    Var{x)- 0.1732,    Var(yy)- 0.0128,

Cov(x, y) = 0.0204 , откуда находим

rv =      = 0.4608,

^ V0.1732V0.0128

т. е. получаем значение rxy , расположенное приблизительно посередине между 0 и 1. Замечание

Мы определили Var и Cov, деля соответствующие суммы квадратов на n-1. Это имеет свое объяснение, которое пока выходит за рамки нашего обсуждения. Вместе с тем, в разных руководствах по эконометрике Var и Cov определяются по-разному. Деление на n - 1 используется, например, в книгах До-угерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книге Магнуса, Катышева и Пересецкого (1997) соответствующие суммы квадратов делятся не на n - 1, ана n. К счастью, и Cov и Var будут играть у нас лишь вспомогательную роль, а величина более существенного для нас коэффициента корреляции rxy не зависит от того, каким из двух способов мы будем определять Var и Cov, лишь бы только при определении обеих этих характеристик использовался один и тот же способ.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 |