Имя материала: Эконометрика

Автор: А.И.Орлов

Природы

 

Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства и использовании разнообразных сумм элементов выборок и функций от них, как в классической статистике, а на применении показателей различия, мер близости, метрик, поэтому существенно отличается от классического. В статистике нечисловых данных выделяют общую теорию и статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один связан со средними величинами и асимптотическим поведением решений экстремальных статистических задач, второй - с непараметрическими оценками плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная часть настоящей главы.

Понятие плотности в пространстве произвольной природы X требует специального обсуждения. В пространстве X должна быть выделена некоторая специальная мера /и, относительно которой будут рассматриваться плотности, соответствующие другим мерам, например, мере V, задающей распределение вероятностей некоторого случайного элемента \% . В таком случае v{A) = Р(^ є А)

для любого случайного события А. Плотность f(x), соответствующая мере v - это такая функция, что

v(A) = jf(x)dju

А

для любого случайного события А. Для случайных величин и векторов мера /и -это объем множества А, в математических терминах - мера Лебега. Для дискретных случайных величин и элементов со значениями в конечном множестве X в качестве меры /и естественно использовать считающую меру, которая событию А ставит в соответствие число его элементов. Используют также нормированную случайную меру, когда число точек в множестве А делят на число точек во всем пространстве X. В случае считающей меры значение плотности в точке х совпадает с вероятностью попасть в точку х, т.е. f(x) = P(<f = х). Таким образом, с рассматриваемой точки зрения стирается грань между понятиями «плотность вероятности» и «вероятность (попасть в точку)».

Как могут быть использованы непараметрические оценки плотности распределения вероятностей в пространствах нечисловой природы? Например, для решения задач классификации (диагностики, распознавания образов - см. главу 5). Зная плотности распределения классов, можно решать основные задачи диагностики - как задачи выделения кластеров, так и задачи отнесения вновь поступающего объекта к одному из диагностических классов. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа /с-средних или динамических сгущений. В задачах собственно диагностики (дискриминации, распознавания образов с учителем) можно принимать решения о диагностике объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки.

Методы оценивания плотности вероятности в пространствах общего вида предложены и первоначально изучены в работе [31]. В частности, в задачах диагностики объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена - Розенблатта (этот вид оценок и его название впервые были введены в статье [31] ). Они имеют вид:

 

Пп Пп ' Х) 1<і<п Пп

где К: Rl+ —» Rl - так называемая ядерная функция, xj, \%2, хп є X - выборка, по которой оценивается плотность, d(xj , х) - показатель различия (метрика, расстояние, мера близости) между элементом выборки хг и точкой х, в которой оценивается плотность, последовательность hn показателей размытости такова, что hn —> 0 и nh„ —» со при п —> со , a rjn(hn,x) - нормирующий множитель,

обеспечивающий выполнение условия нормировки (интеграл по всему пространству от непараметрической оценки плотности fn(x) по мере /и должен равняться 1). Ранее американские исследователи Парзен и Розенблатт использовали подобные статистики в случае X = R1 с d(xi, х) = х,■ - х .

Введенные описанным образом ядерные оценки плотности - частный случай так называемых линейных оценок, также впервые предложенных в работе [31]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае, но, разумеется, с помощью совсем иного математического аппарата.

Свойства непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в некотором пространстве произвольного вида. В этом пространстве предполагаются заданными показатель различия d и мера /и . Одна из основных идей рассматриваемого подхода состоит в том, чтобы согласовать их между собой. А именно, на их основе построим новый показатель различия di , так называемый "естественный", в терминах которого проще формулируются свойства непараметрической оценки плотности. Для этого рассмотрим шары Lt(x) = {yeX:d(y,x)<t} радиуса *>0 и их меры Fx(t) = /л (Lt(x)). Предположим, что Fx(t) как функция t при фиксированном х непрерывна и строго возрастает. Введем функцию di(x,y) = Fx(d(x,y)). Это - монотонное преобразование показателя различия или расстояния, а потому di(x,y) - также показатель различия (даже если d - метрика, для d неравенство треугольника может быть не выполнено). Другими словами, d(x,y), как и d(x,y), можно рассматривать как показатель различия (меру близости) между х и у.

Для вновь введенного показателя различия d}(x,y) введем соответствующие шары Lu (х) - {у є X: dx (у, х) < t). Поскольку обратная функция F

Jx(t) определена однозначно, то Ьи(х) = {уєХ:dl(y,x)<F~1(t)} = LT(x), где Т = F~

1 x(t). Следовательно, справедлива цепочка равенств FJx(t) = ju (L]t(x)) = ju (Ьт(х)) =

Fx(FJx(t)) = t.

Переход от d к di напоминает классическое преобразование, использованное Н.В. Смирновым при изучении непараметрических критериев согласия и однородности, а именно, преобразование г/ = F(J;), переводящее случайную величину £, с непрерывной функцией распределения F(x) в случайную величину г/, равномерно распределенную на отрезке [0,1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения. Преобразование d= Fx(d) зависит от точки х, что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в отдельно взятой точке.

Функцию d](x,y), для которой мера шара радиуса t равна t, называем в соответствии с работой [31] «естественным показателем различия» или «естественной метрикой». В случае конечномерного пространства Rk и евклидовой метрики d имеем d](x,y) = cudk (х,у), где си - объем шара единичного радиуса в Rk.

Подпись: Поскольку можно записать, что
^ d(xt ,х)^
Подпись: =*1К где

 

r dx (хг.,х)Л

Кх (и) = К

 

то переход от одного показателя различия к другому, т.е. от d к dj соответствует переходу от одной ядерной функции к другой, т.е. от К к К. Выгода от такого перехода заключается в том, что утверждения о поведении непараметрических оценок плотности приобретают более простую формулировку.

Теорема 5. Пусть d - естественная метрика, плотность f непрерывна в точке х и ограничена на всем пространстве X, причем f(x)>0, ядерная функция К(и) удовлетворяет простым условиям регулярности

1 со

J K(u)du = 1, J (I К(и) I+К2 (u))du < оо.

о о

Тогда r/n(hn,x) = nhn , оценка f„(x) является состоятельной, т.е. fn(x)—> f(x) по вероятности при п->со и, кроме того,

-|-СО

im(nhnDfn(x)) = f(x)K2(u)du.

О

Теорема 5 доказывается методами, развитыми в работе [31]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, в частности, о поведении величины ап = M(fn(x)-f(x))2 - среднего квадрата ошибки, и об оптимальном выборе показателей размытости h„ . Для того, чтобы продвинуться в решении этого вопроса, введем новые понятия. Для случайного элемента Х(со) со значениями в Xрассмотрим т.н. круговое распределение G(x,t) = P{d(X(со), x)<t} и круговую плотность g(x,t)= G't(x,t).

Теорема 6. Пусть ядерная функция К(и) непрерывна и финитна, т.е. существует число Е такое, что К(и)=0 при и>Е. Пусть круговая плотность является достаточно гладкой, т.е. допускает разложение

t2         t3 tk

g(x,t) = f(x) + tg't(x,0) + —g"tt (x,0) + —g"ttt (x,0) + ... + —g$ (x,0) + o(hk )

2          3! k

при некотором k, причем остаточный член равномерно ограничен на [0,hEJ.

Пусть

Е

^u'K(u)du - 0,і - 1,2,..., А: -1.

о

Тогда

an=[Mfn(x)-f(x)]2+Dfn(x)

2

nh

Подпись: h2'    ' 1= h2k uk K(u)du     (gk(k)(x,0))2 + ^-^-J К 2 (u)du + о

V о      J           nn n    0           V         я J

(

п 2k+l

Доказательство теоремы 6 проводится с помощью разработанной в статистике объектов нечисловой природы математической техники, образцы которой представлены, в частности, в работе [31]. Если коэффициенты при основных членах в правой части последней формулы не равны 0, то величина а п

(

достигает минимума, равного  ап = О

, при  hn = п 2k+l.  Эти выводы

V )

совпадают с классическими результатами, полученными ранее рядом авторов для весьма частного случая прямой Х= R1 (см., например, монографию [32, с.316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра К(и).

Непараметрические оценки плотности в конечных пространствах. В случае конечных пространств естественных метрик не существует. Однако можно

получить аналоги теорем 5 и 6, переходя к пределу не только по объему выборки п, но и по новому параметру дискретности т.

Рассмотрим некоторую последовательность Хт , т = 1,2,...- конечных пространств. Пусть в Хт заданы показатели различия dm . Будем использовать нормированные  считающие  меры   /ит,   ставящие  в  соответствие каждому

подмножеству А долю элементов всего пространства Хт , входящих в А. Как и ранее, рассмотрим как функцию t объем шара радиуса t, т.е. ^ия(0 = Mm(ІУ є Хт : dm(x,y) < ґ}).Введем аналог естественного показателя различия dlm(x,у) - Fmx(dm(x,у)). Наконец, рассмотрим аналоги преобразования Смирнова F^x(t) = ^im({yeXm:dlm(x,y)<t}). Функции F^(t), в отличие от

ситуации предыдущего раздела, уже не совпадают тождественно с t, они кусочно-постоянны и имеют скачки в некоторых точках t;, і =1,2,..., причем в этих точках

 

Теорема 7. Пусть точки скачков равномерно сближаются, т.е. max(£. -) —> 0 при т —> со (другими словами, sup | F^x(t) -t —> 0 при т^>оо).

Тогда существует последовательность параметров дискретности тп такая, что при предельном переходе п —> со,т —> со,т> тп справедливы заключения

теорем 5 и 6.

Пример 1. Пространство Хт=2а(т) всех подмножеств конечного множества    а{т)    из   т   элементов   допускает   (см.   монографию [3]) аксиоматическое введение метрики d(A,B) = card(AAB)/2m, где Л - символ симметрической разности множеств. Рассмотрим непараметрическую ядерную оценку плотности типа Парзена - Розенблатта

/™(л)=-]-Ё*

пп, і

2card(AAXt)-m

h„   { 4т

где Ф(-) - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 7 с тп = (In rif.

Пример    2.    Рассмотрим    пространство    функций     /: Yr —>Z,

 

определенных   на   конечном   множестве    Yr-{l/r, 21 r,...,(r— X)l г, 1}, со

 

значениями в конечном множестве  Z   = {0,   lq,2lq,..., (q - 1) / q,   1} .

 

Это пространство можно интерпретировать как пространство нечетких множеств (см. о нечетких множествах, напаример, монографии [3,10]), а именно, Yr -носитель нечеткого множества, а Zq - множество значений функции принадлежности. Очевидно, число элементов пространства Хт равно (q+І/ . Будем использовать расстояние d(f,g) = sup | /(у) - g(y) . Непараметрическая оценка плотности имеет вид:

r[2sup x(y)-xt(y) І +1/#Г Л

У

i=l

hn( + lq)r

Если г = п", q = n , то при f5>a выполнены условия теоремы 7, а потому

справедливы теоремы 5 и 6.

Пример 3. Рассматривая пространства ранжировок т объектов, в качестве расстояния d(A,B) между ранжировками А и В примем минимальное число инверсий, необходимых для перехода от А к В. Тогда тах(*г -tui) не стремится к 0 при т —> со , условия теоремы 7 не выполнены.

Пример 4. В прикладных работах наиболее распространенный пример объектов нечисловой природы - вектор разнотипных данных: реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Для пространств разнотипных признаков, т.е. декартовых произведений непрерывных и дискретных пространств, возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние d(x,y) можно, например, рассматривать как сумму трех расстояний. А именно, евклидова расстояния d между количественными факторами, расстояния d2 между номинальными признаками {d,2(x,y) = 0, если х = у, и d2(x,y) = 1, если х Ф у) и расстояния d^ между порядковыми переменными (если х и у - номера градаций, то ds(x,y) = |х - у). Наличие количественных факторов приводит к непрерывности и строгому возрастанию функции Fmx(t), а потому для непараметрических оценок плотности в пространствах разнотипных признаков верны теоремы 5-6.

Статистика объектов нечисловой природы как часть эконометрики продолжает бурно развиваться. Увеличивается количество ее практически полезных применений при анализе конкретных экономических данных - в маркетинговых исследованиях, контроллинге, при управлении предприятием и др.

 

Цитированная литература

 

1.         Шубкин В.П. Социологические опыты. - М.: Мысль, 1970.-256 с.

Щукина Г.И. Проблема познавательного интереса в педагогике. - М.: Педагогика, 1971.-352 с.

Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979.-296 с.

Орлов Н.М. Статистика объектов нечисловой природы (Обзор). -Журнал «Заводская лаборатория». 1990. Т.56. No.3. С.76-83.

Орлов Н.М. Объекты нечисловой природы. - Журнал «Заводская

лаборатория». 1995. Т.61. No.3. С.43-52.

Кендэл М. Ранговые корреляции. - М.:Статистика,1975. - 216 с.

Беляев Ю.К. Вероятностные методы выборочного контроля. - М.: Наука, 1975. -408 с.

Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Изд-во стандартов, 1979. - 200 с.

Дэвид Г. Метод парных сравнений. - М.: Статистика, 1978.- 144 с.

10.       Орлов А.И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980. -

64с.

Кендалл М.Дж., Стъюарт А., Статистические выводы и связи. М.: Наука, 1973.

 

900 с.

Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.

Айвазян С.А., Енюков И.С, Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. - М.: Финансы и статистика. 1983.

472 с.

Борель Э. Вероятность и достоверность. - М.: ГИФМЛ, 1961. - 120 с.

14.       Орлов Н.М. Вероятностные модели конкретны» видов объектов

нечисловой природы. - Журнал «Заводская лаборатория». 1995.

Т.61. No.5. С.43-51.

Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В. Прохоров. - М.: Большая Российская энциклопедия, 1999. - 910 с.

Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки. -В сб.: Экспертные оценки / Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. - С. 17-33.

Орлов А.И. Случайные множества с независимыми элементами (люсианы) и их применения. - В сб.: Алгоритмическое и программное обеспечение прикладного статистического анализа. Ученые записки по статистике, т.36. - М.: Наука, 1980. - С. 287-308.

18.       Орлов Н.М. Парные сравнения в асимптотике Колмогорова. - В

сб.: Экспертные оценки в задача» управления. - М.: Изд-во

Института проблем управления RH СССР, 1982. - С. 58-66.

19.       Орлов А.И. Логистическое распределение. - В сб.: Математическая

энциклопедия. Т.З. - М.: Советская энциклопедия, 1982. - С.414.

Орлов А.И. О нецелесообразности использования итеративных процедур нахождения оценок максимального правдоподобия. - Журнал «Заводская лаборатория». 1986. Т.52. No.5. С.67-69.

Большее Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983 (3-е изд.). - 474 с.

Тюрин Ю.Н., Василевич А.П., Андрукович П.Ф. Статистические модели ранжирования. - В сб.: Статистические методы анализа экспертных оценок. - М.: Наука, 1977. - С.30-58.

Раушенбах Г.В. Меры близости и сходства. - В сб.: Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - С. 169-203.

Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. - М.: Советское радио, 1972. - 192 с.

Прохоров Ю.В., Розанов Ю.А. Теория вероятностей (Основные понятия. Предельные теоремы. Случайные процессы). - М.: Наука, 1973.- 496 с.

Кривцов B.C., Орлов А.И., Фомин В.Н. Современные статистические методы в стандартизации и управлении качеством продукции. - Журнал «Стандарты и качество». 1988. No.3. С.32-36.

Орлов Н.М. Асимптотика решений экстремальны» статистически» задач. - В сб.: Анализ нечисловым данным в системны» исследования». Сборник трудов. Вып. 10. - М.: Всесоюзный научно-исследовательский институт системны» исследований, 1982. - С. 4-12.

Орлов A.M. Асимптотическое поведение статистик интегрального типа.   -   В   сб.:   Вероятностные   процессы   и   и» приложения.

Межвузовский сборник. - М.: МИЭМ, 1989. С. 118-123.

29.       Келли Дж. Общая топология. - М.: Наука, 1968. - 384 с.

Жикарев В.Н., Орлов A.M. Законы больший чисел и состоятельность статистически» оценок в пространства» произвольной природы. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научны» трудов. -Пермь: Изд-во Пермского государственного университета, 1998. С.65-84.

Орлов A.M. Непараметрические оценки плотности в топологически» пространства». - В сб.: Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. - С. 12-40.

Ибрагимов М.А., Насьминский Р.З. Асимптотическая теория оценивания. - М.: Наука, 1979. - 528 с.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 |