Имя материала: Институт экономики переходного периода

Автор: Носко Владимир Петрович

Часть 2. статистические выводы при стандартных предположениях о вероятностной структуре ошибок в линейной модели наблюдений 2.1. вероятностное моделирование ошибок

Мы уже неоднократно сталкивались с вопросом о том, сколь существенно величина коэффициента корреляции (детерминации) должна отличаться от нуля, чтобы можно было говорить о действительно существующей линейной связи между исследуемыми переменными.

Если оцененное значение эластичности потребления некоторого товара оказалось несколько больше единицы, то возникает вопрос о том, сколь надежным является заключение о том, что потребление этого товара эластично по ценам.

Если мы будем использовать подобранную прямую

y = ос + Р x

для прогнозирования значений yi для новых наблюдений xi, t=n+1,...,n +k, то сколь надежными будут такие прогнозы?

Если у нас нет теоретических (экономических) оснований для выбора между моделью в уровнях переменных и моделью в логарифмах уровней, то как выбрать одну из этих моделей на основании одних только наблюдений?

Ответы на эти и другие подобные вопросы невозможны, если мы не сделаем некоторых более или менее подробных предположений о структуре последовательности ошибок є 1,..., є.п, участвующих в определении модели наблюдений

|y,. =a + /3xt +st , i = 1,...,n .1

Базовая, и наиболее простая модель для последовательности є 1,...,єп предполагает, что є 1,...,єп — независимые случайные величины, имеющие одинаковое распределение (i. i. d. — independent, identically distributed random variables).

Для нас (пока!) достаточно представлять случайную вели-

чину Z как переменную величину, такую, что до наблюдения

ее значения невозможно предсказать это значение абсолютно

точно, и, в то же время, для любого z, -со < z <со, определена

вероятность  

F (z) = P{Z < z]

того, что наблюдаемое значение переменной Z не превзойдет z; 0 < F(z) < 1. Функция F(z) , — со < z < со , называется функцией распределения случайной величины Z (c. d. f. — cumulative distribution function).

Говоря об ошибках є 1,...,sn как о случайных величинах,

мы, соответственно, понимаем указанную линейную модель наблюдений таким образом, что

а)         существует (теоретическая, объективная или в виде тен-

денции) линейная зависимость значений переменной y от зна-

чений переменной x с вполне определенными, хотя обычно и

не известными исследователю, значениями параметров а и /3;

б)         эта линейная связь для реальных статистических данных

не является строгой: наблюдаемые значения yi переменной y

отклоняются от значений y~i, указываемых моделью линейной

связи

>~. =а + f3xi , i = 1,п ;

в)         при заданных (известных) значениях xi конкретные

значения отклонений

= yi ~ Уі , i ^ Ъ...,п ,

не могут быть точно предсказаны до наблюдения значений yi даже если значения параметров а и/3 известны точно;

г)         для каждого z, -со < z < со, определена вероят-

ность F(z} того, что наблюдаемое значение отклонения є і не

превзойдет z, причем эта вероятность не зависит от номера наблюдения;

д)         вероятность того, что наблюдаемое значение отклоне-

ния є і в і-м наблюдении не превзойдет z, не зависит от того,

какие именно значения принимают отклонения в остальных n -1 наблюдениях.

В дальнейшем, говоря о той или иной случайной величине Z, мы будем предполагать существование функции p(z) , -оо < z <со,  принимающей только неотрицательные

значения и такой, что

площадь под кривой V = p(z)

в прямоугольной системе координат zOv (точнее, площадь, ограниченная сверху этой кривой и снизу — горизонтальной осью Oz ) равна 1,

для любой пары значений z1, z2 с z1 < z2, вероятность

P{z1 < Z < z2 }

численно равна площади, ограниченной снизу осью Oz, сверху — кривой v = p(z), слева — вертикальной прямой z - z1, справа — вертикальной прямой z - z2 (т. е. равна части площади под кривой v = p(z), расположенной между точками z - z1 и z - z2).

3)         для любого z0 , -оо <z0 <да, вероятность F(z0) того,

что наблюдаемое значение Z не превзойдет z0, равна площа-

ди, ограниченной снизу осью Oz, сверху — кривой v = p(z) и

справа — вертикальной прямой z - z0, т. е. равна части площади под кривой v = p(z) , расположенной левее точки z - z0.

Заметим, что при этом выполняется следующее важное со-

отношение]   

P{zi < Z<z2} = F(z2) - F(zi) .

(Действительно, вероятность F(z2) численно равна части площади под кривой v = p(z) , расположенной левее точки z - z2, а эта часть складывается из части площади под кривой, расположенной левее точки z - z1 и части площади под кривой, расположенной между точками z - z1 и z - z2, так что

F(z2) = F(zi) + P{zi < Z <z2} ,

откуда и следует заявленное соотношение.) Кроме того, P{Z > z} = 1 - F(z) .

(Действительно, F (z) + P{Z > z} = 1 ,

поскольку слева складываются части площади под кривой v = p(z) , расположенные, соответственно, левее и правее точки z, так что в сумме они составляют всю площадь под этой кривой, а вся площадь под кривой v = p(z) как раз и равна 1.)

Функция p(z) связана с функцией распределения случайной Be^n^HH^_Z_£2£I5°.^e.522M2_

p (z) =  ,  F (z) =)p (t) dt

—CO

и называется функцией плотности вероятности случайной величины Z (p.d.f. — probability density function). Для

краткости, мы часто будем говорить о функции p(z) как о функции плотности или о плотности распределения случайной величины Z .

Возьмем два непересекающихся интервала значений переменной z : zj < z < zj + c и z2 < z < z2 + c. Рассмотрим два варианта распределения вероятности случайной величины Z: равномерное распределение на отрезке 0 < z < 2 и треугольное распределение на том же отрезке. Графики функций плотности для этих двух вариантов имеют следующий вид:

Равномерное распределение

0.5

0   i1 i1+c z2 i2+c     2       і    0   i1  i1+ci2  i2+c     2 і

Площади заштрихованных прямоугольников на первом графике численно равны вероятностям того, что случайная величина Z, имеющая равномерное распределение на отрезке 0 < z < 2 ,   примет  значения   в  пределах   zj < z < zx + c и

z2 < z < z2 + c, соответственно. Поскольку основания и высоты этих прямоугольников равны, то равны и их площади, т.е. равны указанные вероятности.

Площади заштрихованных трапеций на втором графике численно равны вероятностям того, что случайная величина Z , имеющая треугольное распределение на отрезке 0 < z < 2 , примет значения в пределах zj < z < zj + c и z2 < z < z2 + c, соответственно. Высоты этих трапеций равны, однако стороны трапеции, расположенной правее, больше сторон трапеции, расположенной левее. Поэтому и площадь трапеции, расположенной правее, больше площади трапеции, расположенной левее. А это означает, в свою очередь, что вероятность того, что случайная величина Z , имеющая треугольное распределение на отрезке 0 < z < 2, примет значения в пределах z2 < z < z2 + c, больше вероятности того, что эта случайная величина Z примет значения в пределах z1 < z < z1 + c.

Таким образом, функция плотности указывает на более вероятные и менее вероятные интервалы значений случайной величины. Если случайная величина Z имеет равномерное распределение на отрезке 0 < z < 2 , то для нее все интервалы значений, имеющие одинаковую длину и расположенные целиком в пределах отрезка 0 < z < 2 , имеют одинаковые вероятности (т. е. вероятности попадания значений случайной величины на эти интервалы одинаковы). Если же случайная величина Z имеет треугольное распределение на отрезке 0 < z < 2 , то для нее интервалы значений, имеющие одинаковую длину и расположенные целиком в пределах отрезка 0 < z < 2 , имеют, вообще говоря, различные вероятности: вероятность того, что случайная величина примет значение в интервале, расположенном ближе к центральному значению z = 2, больше вероятности того, что случайная величина примет значение в интервале, расположенном ближе к одному из концов отрезка 0 < z < 2 .

Обсудим несколько более точно вопрос о том, что мы понимаем под независимостью нескольких случайных величин. Пусть мы имеем п случайных величин Z1, Z2,..., Zn, имеющих

одинаковую функцию распределения F(z). Мы говорим, что

эти случайные величины независимы в совокупности, если для любого набора пар a1 < b1, a2 < b2,..., ап < Ьп, где ai и bi могут быть равны также —оо и +со,

P{«1 < Z1 < Ьи a2 < Z2 < b2,•••, an < Zn ^ bn } =

P{ax < Z1 < 61 }• P{a2 < Z2 < b2 }■■■ P{an < Zn < bn} .

При таком предположении условная вероятность того, что, например,  an < Zn < bn, при условии, что a1 < Z1 < b1, an_1 < Zn_1 < bn_1, равна безусловной вероятности того, что an < Zn < bn, т. е. вероятности, вычисляемой без задания ука-

занногоусловия:       

< Zn < bn I a < Z1 < b1,^, an_1 < Zn_1 < bn_1}

            = P{an < Zn < bn}.    

(Вертикальная черта в этой формуле указывает на то, что первая вероятность — условная; справа от вертикальной черты записано условие, при котором вычисляется эта вероятность.) Иначе говоря, на распределение вероятности случайной величины Zn не влияет информация о значениях случайных величин Z1,Z2,...,Zn_1. И вообще, на распределение вероятностей случайной величины Zj не влияет информация о значениях случайных величин Zk с k ^ j.

Если случайные величины Z1, Z2,..., Zn имеют одинаковое распределение F (заданное или функцией распределения или функцией плотности) и независимы в совокупности, то часто это обозначают в записи следующим образом:

Z1,...,Zn - і.і.d., Z~F .

Возвращаясь к модели наблюдений yt =а + pxt      , і = 1,n ,

и предполагая, что £1,...,£n — независимые случайные

величины, имеющие одинаковое распределение (i. i. d), мы

должны теперь сделать еще и предположение о том, каким

именно является это одинаковое для всех є 1,...,sn распределение.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 |