Имя материала: Эконометрика для начинающих (Дополнительные главы)

Автор: Носко Владимир Петрович

1.6.2. мультиномиальная модель

В целом ряде случаев не существует естественного упорядочения альтернатив, благодаря которому и возникает монотонная связь между непрерывной латентной переменной и наблюдаемой переменной, принимающей конечное количество значений.

Пусть мы имеем K таких альтернатив (мы занумеруем их в произвольном порядке числами 1, к, K) и пусть г -й субъект исследования приписывает k -й альтернативе полезность uik, так что

 

где xlk =(xakх1р^ ), а \% (г = 1, к, n , k = K) - независимые в совокупности (и независимые от xik) случайные величины, имеющие одинаковое распределение.

Предположим, что г -й субъект выбирает альтернативу k , если для него эта альтернатива имеет максимальную полезность. В этом случае мы полагаем Уг = k . Тогда (условная при заданных значениях , k = 1,..., K) вероятность того, что г -й субъект выберет альтернативу k , равна

Р{у, = к } = Р^гк = = max^ и1} j = Р jxTlkp + єік > j= max ^Ц j + єг] jJ.

Выразить такую вероятность в явном виде весьма проблематично. Однако если предположить, что общим для всех случайных величин єк является стандартное распределение экстремальных значений (максимума) I-го типа с функцией распределения

G(z) = exp(- e~z j, - oo < z < °° , (это распределение часто называют также распределением Гумбеля), то формула для вычисления вероятности  Р{уг = к} принимает достаточно простой вид, а именно:

 

exWilP)+ expxi 2Р)+ — + expXiKP)

Заметим, однако, что если и числитель и знаменатель правой части последнего выражения разделить на exp^/?), то получим

Р{ = к}=       (т    eXp(xfJ-X4 т          ГП.

1 + exp x2jj - xTiJ)+ — + exp [xTK j - xjifij

Следовательно, каким бы ни было значение линейной комбинации

xT1p, вероятность Р{уг = к } будет зависеть только от разностей

[xTi2p- xT1j),a, {xTK//- xTie). Это обстоятельство приводит к естественной нормализации, при которой полагают

xFi1JJ = 0, 1 = 1,n , так что тогда

 

1 + exp rx;2Jj+ — + exp ГxTKjj

Такую модель разные авторы называют по-разному. Так, в книгах [Verbeek (2000)] и [Amemiya (1985)] об этой модели говорится как о мультиномиальной логит-модели (multinomial logit model). В книгах [Green (1993)] и [Davidson, MacKinnon (1993)] эта модель именуется условной логит-моделью (conditional logti model), а под мультиномиальной логит-моделью подразумевается модель

Р   = k=      .       .      exp(xTek)        , ,

^     1   exp(xT в)+ exp(xJ/32)+... + exp(xT eK У в   которой   объясняющие   переменные   специфичны   только в отношении самих субъектов исследования (но не в отношении альтернатив), а специфичными в отношении альтернатив являются

коэффициенты модели. Соответственно, здесь ek = (в k, —, вр k У -

вектор коэффициентов при объясняющих переменных в представлении функции полезности для k -й альтернативы:

uik = вkxa + L + Ар,kxip + \% = xT в + £ik,  г =1, —, n .

Последняя модель под названием мультиномиальной логит-модели появляется и в пакете EVIEWS. Поскольку в этой модели хг не зависят от альтернативы, являясь собственными атрибутами субъекта, то

Pv = k=       .    .   exp(xf (ek-в1)) „

^      1 "1 + exptf (в2-в))+ l + exp(xf (eK-в1))' так что эта вероятность   зависит только от разностей в2 - в1 ,

—, вК — в, и для нормализации можно положить вектор в равным нулевому вектору. При такой нормализации

Р{Уг   k }   1 + exp(xf в2).-L+ exp(xf AK )

В этом случае (условная при фиксированных xij , j = 1, —, р, г = 1, —, n) совместная вероятность получения конкретного набора наблюдений У1, —, уп (конкретного набора значений 1, —, K) равна произведению

Ь(в) = Ь(рхъ..., xn ) = ПП

i =1k=1

ехр(х]вк) 1 + exp(xT в2)+ l + exp(xT вК))

и эта функция как функция правдоподобия является объектом максимизации по в. Результатом такой максимизации являются оценки      максимального      правдоподобия      для векторов

коэффициентов вk = (ви, —,вp,k)T, k = 1,...,К . П р и м е р

Рассмотрим смоделированную ситуацию, в которой, как и в последней модели, переменные специфичны только в отношении самих субъектов исследования.

Пусть xi1 = 1, xi 2 - типичное количество посещений продуктового магазина в неделю i -й семьей (от 1 до 7), xi3 -среднемесячный доход на одного члена i -й семьи (от 50 до 250 у.е.). Выбранная модель порождения данных имитирует поведение 1000 семей, проживающих в одном и том же многоэтажном доме и приобретающих продукты в трех продуктовых магазинах, ближайших к этому дому. Каждая семья отдает предпочтение одному из трех магазинов, так что мы имеем здесь 3 альтернативы. Магазины различаются тремя сравнительными характеристиками: ассортиментом (наименее разнообразный из трех, наиболее разнообразный из трех, промежуточный), удаленностью от дома (наибольшая, наименьшая, средняя) и уровнем цен (максимальный, минимальный, средний). Альтернативы были занумерованы числами 1,2,3 произвольным образом. В итоге была получена следующая нумерация.

 

 

Характеристики k-го магазина

k

Ассортимент            Удаленность       Уровень цен

1

Богатый                  Максимальная Средний

2

Бедный                   Минимальная Минимальный

3

Промежуточный        Средняя Максимальный

Предполагается, что г -я семья приписывает k -й альтернативе полезность uk, где

Uik = ДЛ! + в2Хг2 + в3Хг3 + \% ,    г = I — ,1000,

где єік (г = 1, —,1000,k = 1,2,3) - независимые в совокупности (и независимые от x j ) случайные величины, имеющие одинаковое распределение с функцией распределения

G(z) = exp^ e~z) , - oo < z < °° . При этом мы используем нормализацию

ви = 0, в12 = 0, в13 = 0. Остальные коэффициенты выбраны следующим образом:

в21 =-0.8, в22 = 1.0, в23 =-0.0032,

в31 =-0.4, в32 = 0.3, в33 = 0.0032, так что функции полезности для трех альтернатив имеют вид

 

ut2 = - 0.8 + x,2 - 0.0032xi3 +е,2,

ui3 = - 0.4хг1 + 0.3хг2 + 0.0032хг3 +el3.

Их поведение иллюстрирует следующий график.

-8

 

U2

U3

В соответствии с моделью порождения данных, 1 -я семья выбирает альтернативу   к , если для этой семьи альтернатива  к имеет максимальную полезность. В этом случае полагаем уг = к . Результаты оценивания методом максимального правдоподобия:

Все оцененные коэффициенты, за высокую статистическую значимость.

имеют

 

Сравним истинные и оцененные значения коэффициентов:

 

 

Истинное значение

Оценка

 

-0.8

-1.655130

 

1.0

1.270612

 

-0.0032

-0.001778

взі

-0.4

-1.031242

А32

0.3

0.439590

взз

0.0032

0.006283

 

Знаки оцененных коэффициентов соответствуют знакам истинных значений коэффициентов. Кроме того, соблюдается упорядочение значений соответственных коэффициентов, имеющих одинаковые знаки:

Д21 <Д31 и Д21 <Д31 • Д22 > Д32    и   Д22 > Д32 •

На основании полученных оценок коэффицентов можно вычислить прогнозные значения вероятностей РУі = k} предпочтения альтернатив k = 1,2,3, полагая

РУ = = }= 1 + ехр^Д)^Ц(хГ д3), и, используя эти прогнозные значения, дать предсказание номера альтернативы, которую предпочтет семья из рассматриваемого дома с заданной частотой посещения продуктового магазина и заданным уровнем месячного дохода на одного члена семьи. Можно, например, предсказывать для -й семьи в качестве предпочтительной альтернативу k , если

Применяя такое правило к нашему примеру, получаем следующие

Подпись: группа отдающихподразумевается семей),

семей (среди предпочтение

 

 

Объемы групп

Подпись:
700

600

500 4

400

300

200

100

0

 

] Истинные | Прогнозные

12 3

k

 

Предсказанные объемы групп правильно воспроизводят упорядочение между наблюдаемыми размерами групп: в обоих случаях максимальное количество семей предпочитает альтернативу 2 и минимальное количество семей предпочитает альтернативу 1.

 

Хотя индивидуальные прогнозы и не являются главной целью в подобных исследованиях, мы все же приведем сводную таблицу количеств правильных и неправильных прогнозов для значений У, = 1,2,3.

 

 

У,=1

У, =2

У і =3

У, =1

48

26

72

У, =2

11

550

42

У, =з

42

88

121

Таким образом, из 1000 прогнозов правильными оказались 719, т.е. 71.9\%. При этом значения yi = 1 правильно прогнозируются в 48 случаях из 146, т.е. только в 32.9\% случаев, тогда как значения yi = 2 правильно прогнозируются в 91.2\% случаев; значения yi = 3 правильно прогнозируются в 48.2\% случаев. П р и м е р

В следующей ситуации, в отличие от предыдущих примеров, одна из переменных специфична только в отношении альтернатив, а другая зависит и от альтернативы и от субъекта.

Пусть storeSk - количество магазинов в k -м (из трех) торговом центре, distik - расстояние от места проживания i -й семьи до k -го торгового центра. Выбранная модель порождения данных имитирует поведение 1000 семей, предпочитающих совершать покупки в этих трех торговых центрах. Каждая семья отдает предпочтение одному из трех торговых центров, так что мы имеем здесь 3 альтернативы. Альтернативы были занумерованы числами 1,2,3 произвольным образом.

Здесь переменная storesk специфична только в отношении альтернатив, тогда как значения переменной distik зависят и от альтернативы и от конкретной семьи.

Предполагается, что i -я семья приписывает k -й альтернативе полезность uik,

Uik = l^1storeSk + в2а^& +£ik ,    i = 1 — ,1000 ,

где єік (i = 1,...,1000,k = 1,2,3) - независимые в совокупности (и независимые от storesk и distik) случайные величины, имеющие одинаковое     распределение      с      функцией распределения G(z) = exp(- e~z),- oo < z < °° . Коэффициенты выбраны следующим образом:

А = 0.6, в = -1.о,

так что функции полезности для трех альтернатив имеют вид

ua = 0.6stores1 - dista +єі1,

Uj2 = 0.6stores2 -disti2 +є,2 ,

ui3 = 0.6stores3 - disti3 +єі3. В соответствии с моделью порождения данных, i -я семья выбирает альтернативу   k , если для этой семьи альтернатива  k имеет максимальную полезность. В этом случае полагаем yi = k .

Результаты оценивания методом максимального правдоподобия:

Coefficient        Std. Error      z-Statistic Prob.

А

0.932414

0.061646

15.12519

0.0000

А

-1.521518

0.101902

-14.93120

0.0000

Будем опять предсказывать для i -й семьи в качестве предпочтительной альтернативу k , если

Р{ = k }> Р{ = l }, l * k.

Применяя такое правило к нашему примеру, получаем следующие результаты.

 

Альтернатива (k)

1

2

3

Истинный объем

 

 

 

группы k

674

275

51

Прогноз объема

 

 

 

группы k

681

272

47

Следующая диаграмма отображает содержимое таблицы.

 

Объемы групп

Подпись: I Истинные I Прогнозные
800 700 600 500 400 300 200 100 0

 

Ш

12 3

 

 

З а м е ч а н и е 1

Как мы уже отмечали выше, в рассмотренной нами мультиномиальной логит-модели, в которой объясняющие переменные специфичны только в отношении самих субъектов исследования,

Р{ = к }=      ,   .   ^ jk      j) „

^ =   ^ = 1 + exp(xT (j2 -j))+ — + exp(xX (jK - jj)) •

Отсюда вытекает, что

РУ, = к } = exp(xT(fik -j

Ру, = m }   exp (x Г (jjm -j

т. е. отношение вероятностей выбора альтернатив к и m определяется только параметрами уравнений для полезностей этих двух альтернатив и собственными атрибутами i -го субъекта и не зависит от параметров уравнений для полезностей остальных K — 2 альтернатив.

 

З а м е ч а н и е 2

Если рассматривается условная логит-модель (с постоянными значениями коэффициентов во всех K уравнениях полезности), в которой объясняющие переменные специфичны в отношении альтернатив, то, как уже говорилось выше, в такой ситуации

{      ^   ехр(хТр)+ ••• + ехр(хгКр))

так что здесь

P{y, = k } = exp(xfk в) =     ((т     T )в)

~Ы                Т =         1  T   а = eXP\Xik — X,m )Р),

т. е. отношение вероятностей выбора альтернатив k и m определяется только общим параметром уравнений для полезностей различных альтернатив и значениями в i -м наблюдении объясняющих переменных, соответствующих k -й и m -й альтернативам. Это отношение не зависит от значений в i -м наблюдении объясняющих переменных, соответствующих остальным K — 2 альтернативам. Такое свойство независимости оказывается нежелательным во многих ситуациях.

 

З а м е ч а н и е 3

Пусть среди объясняющих переменных в условной логит-модели (с постоянными значениями коэффициентов во всех K уравнениях полезности) имеются переменные, специфичные только в отношении субъектов (т.е. значения этих переменных для i -го субъекта не зависят от альтернативы). Пусть, соответственно,

x,k = v,k, w, ^

где      - вектор значений для і -го субъекта переменных, значения

т

которых зависят от альтернативы, а wi - вектор значений для і -го субъекта переменных, значения которых не зависят от альтернативы; соответственно разбивается и вектор коэффициентов:

 

Тогда

РУ = k }=     (т     ^+ ~ =

ехруау+ wi д)+ ^ + exp[viKy+ wi 0j

= ехр(^Ы

exp(v'T1r)+ ■■■ + exp(v;Kr)'

так что эта вероятность не зависит от значений переменных, специфичных только в отношении субъектов.

Чтобы (в рамках модели с постоянным вектором коэффициентов) учесть возможное влияние таких переменных на вероятности P{yi = k}, модель надо модифицировать. Одним из возможных способов модификации является создание группы дамми переменных для альтернатив (DUMMY для альтернативы k принимает значение 1, если   yi = k, и принимает значение 0 в

противном случае) и умножение каждой из них на переменные, не зависящие от альтернатив. Тем самым достигается изменение коэффициентов при этих переменных в зависимости от альтернатив.

1.7. Цензурированная модель регрессии (тобит-модель)

 

Развивая пример с наличием или отсутствием у семьи собственного автомобиля, представим, что мы имеем следующие данные. Для семей, имеющих автомобиль, известна стоимость этого автомобиля st (если в семье несколько автомобилей, то st -суммарная стоимость этих автомобилей). Таким образом, здесь мы наблюдаем пары  (xi, price _ observedi), где  xi  - среднедушевой

месячный доход i-й семьи,

Г st,       если i - я семья имеет автомобиль, price _ observedi = <

[ 0,      если i - я семья не имеет автомобиля.

Обратимся к смоделированной выборке, состоящей из 1000

семей со среднедушевым месячным доходом от 100 до 1600 у.е. Для

удобства    наблюдения    переупорядочены    в    соответствии в

возрастанием xt, так что x1 < x2 < • • • < x1000.

Диаграмма рассеяния для этих данных имеет весьма специфический вид:

Обращает на себя внимание большое количество точек, расположенных на оси абсцисс. Таких точек 418, и это означает, что 418 из 1000 рассматриваемых семей не имеет собственного автомобиля. В то же время среди семей, владеющих автомобилем, минимальное значение цены автомобиля равно 2002 у.е., и это может просто означать, что на автомобильном рынке, в том числе и вторичном, просто нет автомобилей с ценой менее 2000 у.е.

Как проводить статистический анализ подобных данных? Можно попытаться, например, использовать все 1000 наблюдений и оценить по этим наблюдениям методом наименьших квадратов линейную статистическую модель

price _ observed^ = а + jxt + є.

Следующий график позволяет сравнить значения price _ observedt, прогнозные значения, получаемые по первой модели (по 1000 наблюдениям), т.е.

pricef _1000i =a + jjxt = -2427.821 + 6.915595xi, и прогнозные значения, получаемые по второй модели (по 582 наблюдениям), т.е.

pricef _5821 =a + jjxt = -1037.189 + 6.119677xi.

Конечно, имея такую картину, мы вряд ли можем говорить об адекватном представлении данных этими двумя моделями. Желательно было бы построить модель процесса, который мог породить такого рода данные. Для этой цели можно опять использовать идею латентной переменной, но в данной ситуации скорее следовало бы говорить о частично наблюдаемой переменной.

Обращаясь к той же выборке, состоящей из 1000 семей, рассмотрим линейную модель наблюдений

price* = a + fixi + <j£i,    і = 1,n,

в которой price* - цена, которую уплатила за покупку автомобиля

(автомобилей) і-я семья, если эта семья имеет автомобиль, или цена, которую уплатила бы за покупку автомобиля і-я семья, не имеющая автомобиля, если бы эта семья решила приобрести автомобиль. Естественно предполагать, что при этом в > 0 , так что возрастание

Xj приводит в среднем к возрастанию price*. Однако существенное

влияние других ненаблюдаемых факторов, объединяемых в случайную   составляющую,   может   приводить   к значительным отклонениям     переменной      price*      от     "средней линии"

price* =a + /3x.   Возможные   отрицательные   значения price*

свидетельствуют о наличии факторов, в той или иной степени препятствующих планированию каких бы то ни было расходов на покупку автомобиля.

Предположим теперь, что i-я семья покупает автомобиль по цене

price*,   если   последняя   превышает   минимально возможную

стоимость у автомобиля на рынке (первичном и вторичном), т.е. если price* > у.

В такой модели наблюдений значения переменной price*

наблюдаются лишь для части наблюдений - только для семей, имеющих автомобиль. Для остальных семей известно только, что

price <у. Такие данные называют цензурированными (в данном случае данные цензурированы слева на уровне у), а саму модель

получения этих данных называют цензурированной линейной моделью. При этом мы наблюдаем цензурированную переменную

[ price*',     если price*] > у,

если price i < у.

В    нашем    примере    диаграмма    рассеяния переменных

xi, price _ censored i   принимает вид

Подпись: 1800
x

 

Если значение у известно, то вместо переменной price* можно рассмотреть переменную yt = price* - у.

Значения последней также наблюдаются только для семей, имеющих автомобиль. Для остальных семей положим yi = 0, так что

[price* - у, если price* > у,

^ 0,               если price* < у.

Диаграмма рассеяния переменных xi, yi в нашем примере имеет вид

Теперь мы можем поставить вопрос о подходящем методе оценивания параметров цензурированных линейных моделей.

Обычно при рассмотрении подобных ситуаций опираются на предположение нормальности распределения ошибок єі. (Впрочем, имеющиеся пакеты статистических программ позволяют проводить статистический анализ и для других распределений ошибок. Например, в пакете EVIEWS допускается использование вместо нормального распределения ошибок логистического распределения и распределения экстремальных значений первого типа.)

Будем предполагать, что мы имеем дело с некоторым показателем у*, значения которого наблюдаются только при условии у* > 0 (в нашем примере в качестве такого показателя выступала переменная price* — 2000). Пусть в правую часть модели для этого показателя включаются p объясняющих переменных (показателей, характеризующих i-й субъект), т.е.

у* =в1ха + ••• + 9pXip      ,  i =      n ,

и ошибки є1,...,єп - независимые в совокупности (и независимые от , j = 1,..., p )    случайные    величины,    имеющие одинаковое

нормальное распределение єі ~ N(о,<72). Наблюдаемыми являются значения Xj, j = 1,..., p, і = 1,..., n , и значения переменной yi,

y , если у, > 0, 0,   если y* < 0.

О такой цензурированной модели регрессии говорят как о стандартной тобит-модели (tobit model).

В стандартной тобит-модели для фиксированных значений Xj, j =      p , имеем

y* ~ N (6а-1+L+6pxip1

и

E (y* Ix j, j = ^1 , . * * , p)= 6>1xi1 + L+6pxip,

т. е.

E (y*x, )= xf6,

где, как и ранее, обозначено xi = (x^,...,xip)f, 6 = (61,...,6p)f . В нашем примере значение коэффициента 6j определяет изменение ожидаемой суммы расходов на (возможную) покупку автомобиля для семьи с вектором показателей xi = (x^,...,xip)fпри увеличении на единицу значения j -го показателя.

Если для оценивания коэффициентов 6j использовать только наблюдения с у, > 0, то получаем усеченную модель регрессии

Уі =6Л1 + ••• + 6pxXp +є,  i = 1,...,

где п1 - количество семей, имеющих автомобиль (среди всех п рассматриваемых семей).  Конечно, при переходе  к усеченной

 

модели придется заново перенумеровать используемые наблюдений. В такой модели для значений w > 0 имеем

n

ру* > о}

руі < w}=p{y{ < Ау] > °}= ^гМг

где

 

Яв   У*. -xT6   w-xT6

а

а

 

Ф

 

T

w - xT в

Ф

( xTe^

а

а

и

P{y]> °}= і - р\^1< W-M = 1 - Ф

 

а

Ф

 

v а J

Если взять теперь производную dP{y, < w}}dw, то получим функцию плотности распределения случайной величины yi (условного при заданном xt):

Ф

( xTe^

а

а

v а J

Отсюда получаем выражение для условного математического ожидания у :

E{y,x, )= j wpy. (w)dw = xT в + аЯ

о

( xTe^

v а J

где обозначено Я( z) = <p(z)/     ).

Таким образом, E(yixi) - нелинейная функция от xi и p, причем E(yi|xi )> xTe.

Рассмотрим теперь другой подход к оцениванию коэффициентов исходной модели

У* =eix,i + ••• + Qpx,p + £,, i =      n , при   котором   неполные   наблюдения   не   отбрасываются, а учитываются при оценивании. В рамках этого подхода мы берем в качестве объясняемой переменную

lxje + є,, если xje + є, > 0

'   [ 0,            если xfe + є, < 0

В этом случае

P[y, = 0 x, } = Р[є,<- xfe}= Ф

 

 

xT0

 

 

 

 

= 1 - Ф

 

I a J

а для w > 0

 

Ф

a                    a I

Это приводит к следующему выражению для условного математического ожидания yi:

E (y,x, ) = 0 •

1 - Ф

 

v a JJ

+

0

 

о

dw^ Ф

 

v a J

 

9 + оЯ

Ф

v a JJ

V a J

Оно отличается от выражения для E(y,xt) в усеченной модели

умножением последнего на Ф

 

v a J

т.е. на величину, меньшую

единицы. Раскрывая скобки в правой части, получаем представление

+ оА

Ф

о

v a J

v a J

 

■xTe-Ф

V ° J

V ° J

Предельный эффект изменения переменной xij равен

dE(yx,^      

dxv   VJ "V a j

т.е. меньше значения коэффициента 0j в исходной модели: он получается умножением этого коэффициента на вероятность того, что у* > 0 .

Заметим в связи с этим, что если i~(ji|xi) — условное математическое ожидание значения yi в усеченной модели, то для него

dE(ylxi)

■ = в] [1 -zX(z)— Я2(z)],

dx.

где

Я( z) = p(z )1 ),

z=

xT0 a

Продолжим рассмотрение смоделированной выборки, состоящей из 1000 семей, 582 из которых имеют автомобиль. Подберем к тем же данным усеченную и цензурированную модели.

Заметим, что если переменная у* = price* — 2000 порождается

моделью у* =а + pxt +£j,   i = 1,... ,1000, то сама переменная price*

порождается моделью price* = (а + 2000) + pxt + et. Поэтому достаточно произвести оценивание коэффициентов модели у* =a + /3xi +ei, опираясь на данные (xi,yi). Такое оценивание приводит к следующим результатам.

price* =-3710.678 + 8103471 xt (усеченная модель),

price* =-4041.883 + 8.363125xt (цензурированная модель).

Дисперсии случайных составляющих оцениваются, соответственно, как 1822.273 и 1823.565. Заметим, что "теоретическая" модель, по которой генерировались данные, имела вид

price* =-3600 + 8 x, +1800 ut,

где u1,k, u1000 - независимые случайные величины, имеющие одинаковое стандартное нормальное распределение N(0,1).

На следующем графике для сравнения показаны значения переменной price* и прогнозные значения для этой переменной, полученные по оцененной усеченной модели (price _ starf _ trun) и по оцененной цензурированной модели (price_starf _cens ).

14000 12000 10000 8000 6000

4000 2000 0

-2000 -4000 -6000 -8000 J

Отметим, что прогнозные значения, полученные по двум оцененным моделям, весьма близки.

На следующем графике представлены значения переменной yi и

ожидаемые значения переменной yi, рассчитанные по двум оцененным моделям.

Отметим, что для значений xi > 1330 ожидаемые значения yi, рассчитанные по цензурированной модели, больше ожидаемых значений yi, рассчитанных по модели; однако это различие практически незаметно. В то же время, для значений xi < 1330 ожидаемые значения yt, рассчитанные по цензурированной модели, меньше ожидаемых значений yi, рассчитанных по усеченной модели, причем это различие становится весьма заметным при уменьшении значений xt.

Заметим еще, что ожидаемые значения yi, рассчитанные и по усеченной и по цензурированной модели, положительны для всех 1000 наблюдений, тогда как это не выполняется для линейных моделей, подобранных методом наименьших квадратов

Так, оценивание обычным методом наименьших квадратов модели yt =a + pxt + et по всем 1000 наблюдениям дает следующую картину:

о Y . YF_OLS_1000 a YF_OLS_582

Одним из показателей качества прогноза произвольного временного ряда zt, i = 1,..., n , является средняя абсолютная процентная ошибка  (MAPE - mean squared absolute error), определяемая следующим образом. Если Zi — прогнозное значение для zi, то

MAPE ■■

1

n

i =1

z

Сравним качество полученных альтернативных прогнозов для yi с точки зрения средней абсолютной процентной ошибки.

 

Модель

OLS 582

OLS 1000

Truncated

Censored

MAPE \%

118.46

99.86

126.69

71.96

 

Как видно из этой таблицы, наилучшее качество имеют прогнозы, полученные с использованием цензурированной модели регрессии.

 

Обратим внимание на еще одно обстоятельство. Мы уже отмечали, что

E [ytxt ) =

(

 

xfe + аЯ

 

 

v ° JJ

 

Ф

 

 

v а J

■E(yx1) ф

v а J

где i~(ji|xi) — условное математическое ожидание значения yi в усеченной модели. Отсюда мы получаем следующее разложение:

dE (yxt)

Эх..

 

= Ф

 

 

v ° J

dE(yixi)

 

+ E(yxt )•

эФ

v ° J

Первое слагаемое отражает изменение в ожидаемых значениях

:Pyi > 0},   а второе

 

yt > 0,   взвешенное   с  весом Ф

v ° J

изменение вероятности P{yi > 0}, взвешенное с весом, равным E(yi xi). Заметим в этой связи, что

эФ

1

а

V

Эх у а

v а J

 

1

 

В нашем примере і?(уг-|хг.) изменяется следующим образом (по

1800

оси абсцисс на этом и на следующих 5 графиках откладываются значения среднемесячного дохода на одного члена семьи):

ЭРу, > 0}

Производная =                 изменяется следующим образом:

Эх 1

3

2.5 Н

2 1.5

1

0.5 0

0

1800

TERM 2

В сумме они дают функцию

ЭЕ(у,х,)

= в} •ф

v а J

9

7]

6

5

4 -3 -2 1 0

0

1800

D_EXPECTED_Y

Следующий график позволяет сравнить влияние единичного возрастания дохода на ожидаемые значения yi во всей популяции (D_EXPECTED_Y) и среди семей с у, > 0 (D_E_Y>0).

 

9п

D_EXPECTED_Y ■ D_E_Y>0

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 |