Имя материала: Эконометрика

Автор: А.И.Орлов

8.1. объекты нечисловой природы

 

Начнем с первоначального знакомства с основными видами объектов нечисловой природы.

Результаты   измерений   в   шкалах,   отличных   от абсолютной.

Рассмотрим конкретное исследование в области маркетинга образовательных услуг, послужившее поводом к развитию отечественных исследований по теории измерений (см. главу 3). При изучении привлекательности различных профессий для выпускников новосибирских школ был составлен список из 30 профессий. Опрашиваемых просили оценить каждую из этих профессий одним из баллов 1,2,...,10 по правилу: чем больше нравится, тем выше балл. Для получения социологических выводов необходимо было дать единую оценку привлекательности определенной профессии для совокупности выпускников школ. В качестве такой оценки в работе [1] использовалось среднее арифметическое баллов, выставленных профессии опрошенными школьниками. В частности, физика получила средний балл 7,69, а математика - 7,50. Поскольку 7,69 больше, чем 7,50, был сделан вывод, что физика более предпочтительна для школьников, чем математика.

Однако этот вывод противоречит данным работы [2], согласно которым ленинградские школьники средних классов больше любят математику, чем физику. Обсудим одно из возможных объяснений этого противоречия, которое сводится к указанию на неадекватность (с точки зрения теории измерений) методики обработки эконометрических данных, примененной в работе [1].

Дело в том, что баллы 1,2,...ДО введены конкретными исследователями, т.е. субъективно. Если одна профессия оценена в 10 баллов, а вторая - в 2, то из этого нельзя заключить, что первая ровно в 5 раз привлекательней второй. Другой коллектив  социологов  мог  бы  принять  иную  систему  баллов, например 1,4,9,16,...,100. Естественно предположить , что упорядочивание профессий по привлекательности, присущее школьникам, не зависит от того, какой системой баллов им предложит пользоваться маркетолог. Раз так, то распределение профессий по градациям десятибалльной системы не изменится, если перейти к другой системе баллов с помощью любого допустимого преобразования в порядковой шкале (см. главу 3), т.е. с помощью строго возрастающей функции g: Rl —> Rl. Если , Yj, Y2,...,Yn -ответы п выпускников школ, касающихся математики, a Z, Z2,...,Zn -физики, то после перехода к новой системе баллов ответы относительно математики будут иметь вид g(Yi), g(Y2),...,g(Yn), а относительно физики - g(Zi), g(Z2),...,g(Zn).

Пусть единая оценка привлекательности профессии вычисляется с помощью функции f(Xi, Х2,...,Хп). Какие требования естественно наложить на функцию / : R" —> R1, чтобы полученные с ее помощью выводы не зависели от того, какой именно системой баллов пользовался специалист по маркетингу образовательных услуг?

Замечание. Обсуждение можно вести в терминах экспертных оценок. Тогда вместо сравнения математики и физики п экспертов (а не выпускников школ) оценивают по конкурентоспособности на мировом рынке, например, две марки стали. Однако в настоящее время маркетинговые и социологические исследования более привычны, чем экспертные.

Единая оценка вычислялась для того, чтобы сравнивать профессии по привлекательности. Пусть f(Xi, Х2,...,Хп) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:

f(Yi, Y2,...Jn)< f(ZLZ2,...,Zn). Тогда согласно теории измерений (см. главу 3) необходимо потребовать, чтобы для   любого   допустимого   преобразования   g   из   группы допустимых преобразований в порядковой шкале было справедливо также неравенство

f(g(Yi), g(Y2),...,g(Yn)) < f(g(Zi), g(Z2),..,g(Zn)). т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Yj, Y2,...,Yn и Z], Z2,...,Zn и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, называют допустимыми (в порядковой шкале). Согласно теории измерений только такими средними можно пользоваться при анализе мнений выпускников школ, экспертов и иных данных, измеренных в порядковой шкале.

Какие единые оценки привлекательности профессий f(X], Х2,...,Хп) устойчивы относительно сравнения? Ответ на этот вопрос дан в главе 3. В частности, оказалось, что средним арифметическим, как в работе [1] новосибирских специалистов по маркетингу образовательных услуг, пользоваться нельзя, а порядковыми статистиками, т.е. членами вариационного ряда (и только ими) - можно.

Методы анализа конкретных экономических данных, измеренных в шкалах, отличных от абсолютной, являются предметом изучения в статистике нечисловых данных как части эконометрики. Как известно, основные шкалы измерения делятся на качественные (шкалы наименований и порядка) и количественные (шкалы интервалов, отношений, разностей, абсолютная). Методы анализа статистических данных в количественных шкалах сравнительно мало отличаются от таковых в абсолютной шкале. Добавляется только требование инвариантности относительно преобразований сдвига и/или масштаба. Методы анализа качественных данных - принципиально иные. О них пойдет речь в настоящей главе.

Напомним, что исходным понятием теории измерений является совокупность Ф = {ср} допустимых преобразований шкалы (обычно Ф- группа),

ср : Rl —> R1. Алгоритм обработки данных W, т.е. функция W : R" —> А (здесь А-множество возможных результатов работы алгоритма) называется адекватным в шкале с совокупностью допустимых преобразований Ф, если

W(xl,x2,...,xn) = W{<p{xl),<p{x2),...^{xn))

для всех х. є і?1, і = 1,2,..., п, и всех рєФ. Таким образом, теорию измерений

рассматриваем как теорию инвариантов относительно различных совокупностей допустимых преобразований Ф. Интерес вызывают две задачи:

а)         дана группа допустимых преобразований Ф (т.е. задана шкала); какие

алгоритмы анализа данных W из определенного класса являются адекватными?

б)         дан алгоритм анализа данных W; для каких шкал (т.е. групп допустимых

преобразований Ф) он является адекватным?

В главе 3 первая задача рассматривалась для алгоритмов расчета средних величин. Информацию о других результатах решения задач указанных типов можно найти в работах [3-5].

Бинарные отношения. Пусть W : R" —» А - адекватный алгоритм в шкале наименований. Можно показать, что этот алгоритм задается некоторой функцией от матрицы В =\Ъ^ ||= В(х1,х2,...,хп), где

1,  Х{ =Xj,i,j = 1,2,...,/7,

х. Ф Xj,i,j = 1,2,~-,п.

Если W: R" —> А - адекватный алгоритм в шкале порядка, то этот алгоритм задается некоторой функцией от матрицы С =|| сц ||= С(х1,х2,...,хп)

порядка п х п, где

xt <Xj,i,j = l,2,...,n,

О, х. >Xj,i,j = 1,2,.

Матрицы В и С можно проинтерпретировать в терминах бинарных отношений. Пусть некоторая характеристика измеряется у п объектов qhq2,...,qn, причем xi - результат ее измерения у объекта qt Тогда матрицы В и С задают бинарные отношения на множестве объектов Q = {qi,q2,...,qn}- Поскольку бинарное отношение можно рассматривать как подмножество декартова квадрата Q х Q, то любой матрице D = \djj\ порядка п х п из 0 и 1 соответствует бинарное отношение R(D), определяемое следующим образом:  (qt,q.~) є R(D) тогда и

только тогда, когда dy = 1.

Бинарное отношение R(B) - отношение эквивалентности, т.е. рефлексивное симметричное транзитивное отношение. Оно задает разбиение Q на классы эквивалентности. Два объекта qt и qj входят в один класс эквивалентности тогда и только тогда, когда х, = х,., Ън = 1.

Выше показано, как разбиения возникают в результате измерений в шкале наименований. Разбиения могут появляться и непосредственно. Так, при оценке качества промышленной продукции эксперты дают разбиение показателей качества на группы. Для изучения психологического состояния людей их просят разбить предъявленные рисунки на группы сходных между собой. Аналогичная методика применяется и в иных экспериментальных психологических исследованиях, необходимых для оптимизации управления персоналом.

Во многих эконометрических задачах разбиения получаются "на выходе" (например, в кластер - анализе) или же используются на промежуточных этапах анализа данных (например, сначала проводят классификацию с целью выделения однородных групп, а затем в каждой группе строят регрессионную зависимость).

Бинарное отношение R(C) задает разбиение Q на классы эквивалентности, между которыми введено отношение строгого порядка. Два объекта дг и qj входят в один класс тогда и только тогда, когда Су= 1 и ср= 1, т.е. хг- = Xj. Класс эквивалентности Q, предшествует классу эквивалентности Q2 тогда и только тогда, когда для любых qt ^Ql,qj є<22 имеем су = 1, Cj,— О, т.е. х, < Xj. Такое

бинарное отношение в статистике часто называют ранжировкой со связями; связанными считаются объекты, входящие в один класс эквивалентности. В литературе встречаются и другие названия: линейный квазипорядок, упорядочение, квазисерия, ранжирование. Если каждый из классов эквивалентности состоит только из одного элемента, то имеем обычную ранжировку (другими словами, линейный порядок).

Как известно, ранжировки возникают в результате измерений в порядковой шкале. Так, при описанном выше опросе ответ выпускника школы -это ранжировка (со связями) профессий по привлекательности. Ранжировки часто возникают и непосредственно, без промежуточного этапа - приписывания объектам квазичисловых оценок - баллов. Многочисленные примеры тому даны М. Кендэлом [6]. При оценке качества промышленной продукции нормативные методические документы предусматривают использование ранжировок.

Для прикладных областей, кроме ранжировок и разбиений, представляют интерес толерантности, т.е. рефлексивные симметричные отношения. Толерантность - математическая модель для выражения представлений о сходстве (похожести, близости). Разбиения - частный вид толерантностей. Толерантность, обладающая свойством транзитивности - это разбиение. Однако в общем случае толерантность не обязана быть транзитивной. Толерантности появляются во многих постановках теории экспертных оценок, например, как результат парных сравнений (см. ниже).

Напомним, что любое бинарное отношение на конечном множестве может быть описано матрицей из 0 и 1.

Дихотомические (бинарные) данные. Это данные, которые могут принимать одно из двух значений (0 или 1), т.е. результаты измерений значений альтернативного признака. Как уже было показано, измерения в шкале наименований и порядковой шкале приводят к бинарным отношениям, а те могут быть выражены как результаты измерений по нескольким альтернативным признакам, соответствующим элементам матриц, описывающих отношения. Дихотомические данные возникают в прикладных исследованиях и многими иными путями.

В настоящее время в большинстве стандартов на конкретную продукцию предусмотрен контроль по альтернативному признаку. Это означает, что единица продукции относится к одной из двух категорий - "годных" или "дефектных", т.е. соответствующих или не соответствующих требованиям стандарта. Отечественными специалистами проведены обширные теоретические исследования проблем статистического приемочного контроля по альтернативному признаку. Основополагающими в этой области являются работы академика А.Н.Колмогорова. Подход советской вероятностно-статистической школы к проблемам контроля качества продукции отражен в монографиях [7,8] (см. также главу 13).

Дихотомические данные - давний объект математической статистики. Особенно большое применение они имеют в экономических и социологических исследованиях, в которых большинство переменных, интересующих специалистов, измеряется по качественным шкалам. При этом дихотомические данные зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число градаций. В частности, психологические тесты типа MMPI используют только дихотомические данные. На них опираются и популярные в технико-экономическом анализе методы парных сравнений [9].

Элементарным актом в методе парных сравнений является предъявление эксперту для сравнения двух объектов (сравнение может проводиться также прибором). В одних постановках эксперт должен выбрать из двух объектов лучший по качеству, в других - ответить, похожи объекты или нет. В обоих случаях ответ эксперта можно выразить одной из двух цифр (меток)- 0 или 1. В первой постановке: 0, если лучшим объявлен первый объект; 1 - если второй. Во второй постановке: 0, если объекты похожи, схожи, близки; 1 - в противном случае.

Подводя итоги изложенному, можно сказать, что рассмотренные выше данные представимы в виде векторов из 0 и 1 (при этом матрицы, очевидно, могут быть записаны в виде векторов). Поскольку все результаты наблюдений имеют лишь несколько значащих цифр, то, используя двоичную систему счисления, любые виды анализируемых эконометрическими методами данных можно записать в виде векторов из 0 и 1. Представляется, что эта возможность имеет лишь академический интерес, но во всяком случае можно констатировать, что анализ дихотомических данных необходим во многих прикладных постановках.

Множества. Совокупность X векторов X = (х,, х2,...,хп) из 0 и 1 размерности п находится во взаимно-однозначном соответствии с совокупностью 2" всех подмножеств множества^ = {1, 2, п}. При этом вектору X = (хь х2,...,хп) соответствует подмножество N(X)(zN, состоящее из тех и только из тех І, для которых х,■ = 1. Это объясняет, почему изложение вероятностных и статистических результатов, относящихся к анализу данных, являющихся объектами нечисловой природы перечисленных выше видов, можно вести на языке конечных случайных множеств, как это было сделано в монографии .[3].

Множества как исходные данные появляются и в иных постановках. Из геологических реалий исходил Ж. Матерой, из электротехнических - Н.Н. Ляшенко и др. Случайные множества применялись для описания процесса случайного распространения, например распространения информации, слухов, эпидемии или пожара, а также в математической экономике. В монографии [3] рассмотрены приложения случайных множеств в теории экспертных оценок и в теории управления запасами и ресурсами (логистике).

Отметим, что реальные объекты можно моделировать случайными множествами как из конечного числа элементов, так и из бесконечного, однако при расчетах на ЭВМ неизбежна дискретизация, т.е. переход к первой из названных возможностей.

Нечеткие множества. Пусть А - некоторое множество. Подмножество В множества А характеризуется своей характеристической функцией

 

JUB(X)-

1, хєВ, ^

О, x£B.

Что такое нечеткое множество? Обычно говорят, что нечеткое подмножество С множества А характеризуется своей функцией принадлежности //с : ^4 —> [0,1].   Если  функция  принадлежности   /Jc(x)   имеет вид  (1) при

некотором В, то С есть обычное (четкое) подмножество А.

Обычное подмножество можно было бы отождествить с его характеристической функцией. Этого математики не делают, поскольку для задания функции (в ныне принятом подходе) необходимо сначала задать множество. Нечеткое же подмножество с формальной точки зрения можно отождествить с его функцией принадлежности. Однако термин "нечеткое подмножество" предпочтительнее при построении математических моделей реальных явлений.

Начало современной теории нечеткости положено работой 1965 г. американского ученого азербайджанского происхождения Л.А.Заде. К настоящему времени по этой теории опубликованы тысячи книг и статей, издается несколько международных журналов, выполнено достаточно много как теоретических, так и прикладных работ.

Л.А. Заде рассматривал теорию нечетких множеств как аппарат анализа и моделирования гуманистических систем, т.е. систем, в которых участвует человек. Его подход опирается на предпосылку о том, что элементами мышления человека являются не числа, а элементы некоторых нечетких множеств или классов объектов, для которых переход от "принадлежности" к "непринадлежности" не скачкообразен, а непрерывен. В настоящее время методы теории нечеткости используются почти во всех прикладных областях, в том числе при управлении предприятием, качеством продукции и технологическими процессами.

Л.А. Заде использовал термин "fuzzy set" (нечеткое множество). На русский язык термин "fuzzy" переводили как нечеткий, размытый, расплывчатый, и даже как пушистый и туманный.

Аппарат теории нечеткости громоздок. В качестве примера дадим определения теоретико-множественных операций над нечеткими множествами. Пусть С и D- два нечетких подмножества А с функциями принадлежности /лс(х)и   jUD(х) соответственно.   Пересечением   СПD,   произведением CD,

объединением C[jD, отрицанием С, суммой C+D называются нечеткие подмножества А с функциями принадлежности

Мсгю (*) = min(//c (x),/uD (х)), jucd (х) = /ис (x)/uD (x), /и- (x) = 1 - /ис (x),

 

Мс[]о(х) = тах(Мс(х),Мо(х))> Mc+d(x) = Mc(x) + Md(x)- Mc(x)Md(x)> хєа> соответственно.

Теория нечетких множеств в определенном смысле сводится к теории вероятностей, а именно, к теории случайных множеств. Соответствующий цикл теорем приведен в книгах [3,10]. Однако при решении прикладных задач вероятностно-статистические методы и методы теории нечеткости обычно рассматриваются как различные.

Объекты нечисловой природы как статистические данные. В эконометрике и прикладной математической статистике наиболее распространенный объект изучения - выборка х,, х2,...,х„, т.е. совокупность результатов п наблюдений. В различных областях статистики результат наблюдения - это или число, или конечномерный вектор, или функция... Соответственно проводится деление прикладной математической статистики: одномерная статистика, многомерный статистический анализ, статистика временных рядов и случайных процессов... В статистике нечисловых данных в качестве результатов наблюдений рассматриваются объекты нечисловой природы, в частности, перечисленных выше видов - измерения в шкалах, отличных от абсолютной, бинарные отношения, вектора из 0 и 1, множества, нечеткие множества. Выборка может состоять из п ранжировок или п толерантностей, или п множеств, или п нечетких множеств и т.д.

Отметим необходимость развития методов статистической обработка "разнотипных данных", обусловленную большой ролью в прикладных исследованиях "признаков смешанной природы". Речь идет о том, что результат наблюдения состояния объекта зачастую представляет собой вектор, у которого часть координат измерена по шкале наименований, часть - по порядковой шкале, часть - по шкале интервалов и т.д. Статистические методы ориентированы обычно либо на абсолютную шкалу, либо на шкалу наименований (анализ таблиц сопряженности), а потому зачастую непригодны для обработки разнотипных данных. Есть и более сложные модели разнотипных данных, например, когда некоторые координаты вектора наблюдений описываются нечеткими множествами.

Для обозначения подобных неклассических результатов наблюдений в 1979 г. в монографии [3] предложен собирательный термин - объекты нечисловой природы. Термин "нечисловой" означает, что структура пространства, в котором лежат результаты наблюдений, не является структурой действительных чисел, векторов или функций, она вообще не является структурой линейного (векторного) пространства. При расчетах объекты числовой природы, разумеется, изображаются с помощью чисел, но эти числа нельзя складывать и умножать.

С целью "стандартизации математических орудий" целесообразно разрабатывать методы статистического анализа данных, пригодные одновременно для всех перечисленных выше видов результатов наблюдений. Кроме того, в процессе развития прикладных исследований выявляется необходимость использования новых видов объектов нечисловой природы, отличных от рассмотренных выше, например, в связи с развитием статистических методов обработки текстовой информации. Поэтому целесообразно ввести еще один вид объектов нечисловой природы - объекты произвольной природы, т.е. элементы множества, на которые не наложено никаких условий (кроме "условий регулярности", необходимых для справедливости доказываемых теорем). Другими словами, в этом случае предполагается, что результаты наблюдений (элементы выборки) лежат в произвольном пространстве X. Для получения теорем необходимо потребовать, чтобы X удовлетворяло некоторым условиям, например, было так называемым топологическим пространством. Как известно, ряд результатов классической математической статистики получен именно в такой постановке. Так, при изучении оценок максимального правдоподобия элементы выборки могут лежать в пространстве произвольной природы. Это не влияет на рассуждения, поскольку в них рассматривается лишь зависимость плотности вероятности от параметра. Методы классификации, использующие лишь расстояние между классифицируемыми объектами, могут применяться к совокупностям объектов произвольной природы, лишь бы в пространстве, где они лежат, была задана метрика. Цель статистики нечисловых данных (в некоторых литературных источниках используется термин "статистика объектов нечисловой природы") состоит в том, чтобы систематически рассматривать методы статистической обработки данных как произвольной природы, так и относящихся к указанным выше конкретным видам объектов нечисловой природы, т.е. методы описания данных, оценивания и проверки гипотез. Взгляд с общей точки зрения позволяет получить новые результаты и в других областях эконометрики.

Использование объектов нечисловой природы при формировании математической модели реального явления. Использование объектов нечисловой природы часто порождено желанием обрабатывать более объективную, более освобожденную от погрешностей информацию. Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах. Другими словами, использование объектов нечисловой природы - средство повысить устойчивость эконометрических и экономико-математических моделей реальных явлений. Сначала конкретные области статистики объектов нечисловой природы (а именно, прикладная теория измерений, нечеткие и случайные множества) были рассмотрены в монографии [3] как частные постановки проблемы устойчивости математических моделей социально-экономических явлений и процессов к допустимым отклонениям исходных данных и предпосылок модели, а затем была понята необходимость проведения работ по развитию статистики объектов нечисловой природы как самостоятельного научного направления.

Начнем со шкал измерения. Науку о единстве мер и точности измерений называют метрологией. Таким образом, репрезентативная теория измерений -часть метрологии. Методы обработки данных должны быть адекватны относительно допустимых преобразований шкал измерения в смысле репрезентативной теории измерений. Однако установление типа шкалы, т.е. задание группы преобразований Ф - дело специалиста соответствующей прикладной области. Так, оценки привлекательности профессий мы считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с этим, считая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.

Порядковые шкалы широко распространены не только в социально-экономических исследованиях. Они применяются в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк - 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которому минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и др.) и т.д. Напомним, что по шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой, на которой не отмечены ни начало, ни единица измерения; по шкале отношений - большинство физических единиц: массу тела, длину, заряд, а также цены в экономике. Время измеряется по шкале разностей, если год принимаем естественной единицей измерения, и по шкале интервалов в общем случае. В процессе развития соответствующей области знания тип шкалы может меняться.

Так, сначала температура измерялась по порядковой шкале (холоднее - теплее), затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра) и, наконец, после открытия абсолютного нуля температур - по шкале отношений (шкала Кельвина). Следует отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины.

Отметим, что термин "репрезентативная" использовался, чтобы отличить рассматриваемый подход к теории измерений от классической метрологии, а также от работ А.Н.Колмогорова и А. Лебега, связанных с измерением геометрических величин, от "алгоритмической теории измерения" и др.

Необходимость использования в математических моделях реальных явлений таких объектов нечисловой природы, как бинарные отношения, множества, нечеткие множества, кратко была показана выше. Здесь же обратим внимание, что используемые в классической статистике результаты наблюдений также "не совсем числа". А именно, любая величина X измеряется всегда с некоторой погрешностью АХ и результатом наблюдения является

Y = X + АХ.

Как уже отмечалось, погрешностями измерений занимается метрология. Отметим справедливость следующих фактов:

а)         для большинства реальных измерений невозможно полностью

исключить систематическую ошибку, т.е. М(АХ) ф 0;

б)         распределение АХ в подавляющем большинстве случаев не является

нормальным (см. главу 4);

в)         измеряемую величину X и погрешность ее измерения АХ обычно

нельзя считать независимыми случайными величинами;

г)         распределение погрешностей оценивается по результатам специальных

наблюдений, следовательно, полностью известным считать его нельзя; зачастую

исследователь располагает лишь границами для систематической погрешности и

оценками таких характеристик для случайной погрешности, как дисперсия или

размах.

Приведенные факты показывают ограниченность области применимости распространенной модели погрешностей, в которой X и АХ рассматриваются как независимые случайные величины, причем АХ имеет нормальное распределение с нулевым математическим ожиданием.

Строго говоря, результаты наблюдения всегда имеют дискретное распределение, поскольку описываются числами с небольшими (1-5) числом значащих цифр. Возникает дилемма: либо признать, что непрерывные распределения - фикция, и прекратить ими пользоваться, либо считать, что непрерывные распределения имеют "реальные" величины X, которые мы наблюдаем с принципиально неустранимой погрешностью АХ. Первый выход в настоящее время нецелесообразен, так как потребует отказаться от большей части разработанного математического аппарата. Из второго следует необходимость изучения влияния неустранимых погрешностей на статистические выводы.

Погрешности АХ можно учитывать либо с помощью вероятностной модели (АХ- случайная величина, имеющая функцию распределения, вообще говоря, зависящую от X), либо с помощью нечетких множеств. Во втором случае приходим к теории нечетких чисел и к ее частному случаю - статистике интервальных данных (см. главу 9).

Другой источник появления погрешности АХ связан с принятой в конструкторской и технологической документации системой допусков на контролируемые параметры изделий и деталей, с использованием шаблонов при проверке контроля качества продукции. В этих случаях характеристики АХ определяются не свойствами средств измерения, а применяемой технологией проектирования и производства. В терминах математической статистики сказанному соответствует группировка данных, при которой мы знаем, какому из заданных интервалов принадлежит наблюдение, но не знаем точного значения результата наблюдения. Применение группировки может дать экономический эффект, поскольку зачастую легче (в среднем) установить, к какому интервалу относится результат наблюдения, чем точно измерить его.

Объекты нечисловой природы как результат статистической обработки данных. Объекты нечисловой природы появляются не только на "входе" статистической процедуры, но и в процессе обработки данных, и на "выходе" в качестве итога статистического анализа.

Рассмотрим простейшую прикладную постановку задачи регрессии (см. также главу 5). Исходные данные имеют вид (xt,yt) є R2 ,і = 1,2,...,п.. Цель

состоит в том, чтобы с достаточной точностью описать у как полином от х, т.е. модель имеет вид

т

у і =ZaX +£і> (2)

где   т   -   неизвестная   степень   полинома;   а0,а1,а2,...,ат   - неизвестные

коэффициенты многочлена; st,i = 1,2,...,и, - погрешности, которые для простоты

примем независимыми и имеющими одно и то же нормальное распределение. (Здесь наглядно проявляется одна из причин живучести модель на основе нормального распределения. Такие модели, хотя и неадекватны реальной ситуации, с математической точки зрения позволяет проникнуть глубже в суть изучаемого явления. Поэтому они пригодны для первоначального анализа ситуации, как и в рассматриваемом случае. Дальнейшие научные исследования должны быть направлены на снятие нереалистического предположения нормальности и перехода к непараметрическим моделям погрешности.) Распространенная процедура такова: сначала пытаются применить модель (2) для линейной функции (m = 1), при неудаче (неадекватности модели) переходят к многочлену второго порядка (т = 2), если снова неудача, то берут модель (2) с т= 3 и т.д. (адекватность модели проверяют по F-критерию Фишера).

Обсудим свойства этой процедуры в терминах математической статистики. Если степень полинома задана (т = т0), то его коэффициенты оценивают методом наименьших квадратов, свойства этих оценок хорошо известны (см., например, главу 5 или монографию [10, гл.26]). Однако в описанной выше реальной постановке т тоже является неизвестным параметром и подлежит оценке. Таким образом, требуется оценить объект (т, ао, аь а2, ат), множество значений которого можно описать как Rl JR2 JR3 J... Это - объект нечисловой природы, обычные методы оценивания для него неприменимы, так как т - дискретный параметр. В рассматриваемой постановке разработанные к настоящему времени методы оценивания степени полинома носят в основном эвристический характер (см., например, гл. 12 монографии [11]). Свойства описанной выше распространенной процедуры рассмотрены в главе 5; где показано, что т при этом оценивается несостоятельно, и найдено предельное распределение оценки этого параметра, оказавшееся геометрическим.

В более общем случае линейной регрессии данные имеют вид (_y.,X.),z = 1,2,...,и, где X. = (хп,хі2,...,хт) є RN - вектор предикторов (факторов, объясняющих переменных), а модель такова: yi=Y,ajxV+£i>i = 1>2>->n (3)

jeK

(здесь К - некоторое подмножество множества {l,2,...,n}; st- те же, что и в

модели (2); а, - неизвестные коэффициенты при предикторах с номерами из К). Модель (2) сводится к модели (3), если

_ і     _ _  2     _ 3        _ 7-і

хп ~ *->хп ~хі>хі2 ~xi ixs ~xi '■■■■>xy ~xt ■>■■■

В модели (2) есть естественный порядок ввода предикторов в рассмотрение - в соответствии с возрастанием степени, а в модели (3) естественного порядка нет, поэтому здесь стоит произвольное подмножество множества предикторов. Есть только частичный порядок - чем мощность подмножества меньше, тем лучше. Модель (3) особенно актуальна в задачах управления качеством продукции и других технико-экономических исследованиях, в экономике, маркетинге и социологии, когда из большого числа факторов, предположительно влияющих на изучаемую переменную, надо отобрать по возможности наименьшее число значимых факторов и с их помощью сконструировать прогнозирующую формулу (3).

Задача оценивания модели (3) разбивается на две последовательные задачи: оценивание множества К - подмножества множества всех предикторов, а затем - неизвестных параметров щ. Методы решения второй задачи хорошо известны и подробно изучены. Гораздо хуже обстоит дело с оцениванием объекта нечисловой природы К. Как уже отмечалось, существующие методы - в основном эвристические, они зачастую не являются даже состоятельными. Даже само понятие состоятельности в данном случае требует специального определения. Пусть К0 - истинное подмножество предикторов, т.е. подмножество, для которого справедлива модель (3), а подмножество предикторов Кп - его оценка. Оценка Кп называется состоятельной, если

\{mCard(KnAK0) = 0,

где А - символ симметрической разности множеств; Card(K) означает число элементов в множестве К, а предел понимается в смысле сходимости по вероятности.

Задача оценивания в моделях регрессии, таким образом, разбивается на две - оценивание структуры модели и оценивание параметров при заданной структуре. В модели (2) структура описывается неотрицательным целым числом т., в модели (3) - множеством К. Структура - объект нечисловой природы. Задача ее оценивания сложна, в то время как задача оценивания численных параметров при заданной структуре хорошо изучена, разработаны эффективные (в смысле математической статистики) методы.

Такова же ситуация и в других методах многомерного статистического анализа - в факторном анализе (включая метод главных компонент) и в многомерном шкалировании. Ряд иных примеров можно найти в списке оптимизационных постановок основных проблем прикладного многомерного статистического анализа, приведенном в монографии [12].

Перейдем к объектам нечисловой природы на "выходе" статистической процедуры. Примеры многочисленны. Разбиения - итог работы многих алгоритмов классификации, в частности, алгоритмов кластер-анализа. Ранжировки - результат упорядочения профессий по привлекательности или автоматизированной обработки мнений экспертов - членов комиссии по подведению итогов конкурса научных работ. (В последнем случае используются ранжировки со связями; так, в одну группу, наиболее многочисленную, попадают работы, не получившие наград.) Из всех объектов нечисловой природы, видимо, наиболее часты на "выходе" дихотомические данные - принять или не принять гипотезу, в частности, принять или забраковать партию продукции. Результатом статистической обработка данных может быть множество, например зона наибольшего поражения при аварии, или последовательность множеств, например, "среднемерное" описание распространения пожара (см. главу 4 в монографии [3]). Нечетким множеством Э. Борель [13] еще в начале XX в. предлагал описывать представление людей о числе зерен, образующем "кучу". С помощью нечетких множеств формализуются значения лингвистических переменных, выступающих как итоговая оценка качества систем автоматизированного проектирования, сельскохозяйственных машин, бытовых газовых плит, надежности программного обеспечения или систем управления. Можно констатировать, что все виды объектов нечисловой природы могут появляться " на выходе" статистического исследования.

 

8.2. Вероятностные модели конкретных видов объектов нечисловой природы

 

В настоящем пункте рассмотрены основные вероятностные модели объектов нечисловой природы: дихотомических данных, результатов парных сравнений, бинарных отношений, рангов, объектов общей природы. Обсуждаются различные варианты вероятностных моделей, приведены краткие сведения об их практическом использовании (см. также обзор [14]).

Дихотомические данные. Рассмотрим базовую вероятностную модель дихотомических данных - бернуллиевский вектор (в терминологии энциклопедии [15]   -   люсиан),   т.е.   конечную   последовательность    X - (Х1,Х2,...,Хк)

независимых    испытаний    Бернулли    Xt,    для    которых    P(Xt -1) = pt

и P(Xt - 0) = pt, і = 1,2,...,к, причем вероятностиpt могут быть различны.

Бернуллиевские вектора часто применяются при практическом использовании эконометрических методов. Так, они использованы в монографии [3] для описания равномерно распределенных случайных толерантностей. Как известно, толерантность на множестве из т. элементов можно задать симметричной матрицей 11 StJ, | из 0 и 1, на главной диагонали которой стоят 1.

Тогда случайная толерантность описывается распределением т(т-1)/2 дихотомических  случайных  величин   Sy,   \<i<j<m,   а для равномерно

распределенной (на множестве всех толерантностей) толерантности эти случайные величины, как можно доказать, оказываются независимыми и принимают значения 0 и 1 с равными вероятностями 1/2. Записав элементы ^задающей такую толерантность матрицы в строку, получим бернуллиевский

вектор с к=т(т-1)/2 иpt = 1/2, і = 1,2,..., к.

В связи с оцениванием по статистическим данным функции принадлежности нечеткой толерантности в 1970-е годы была построена теория случайных толерантностей  с  такими  независимыми   Stj,   что вероятности

Р(8у = 1) = рц произвольны (см. об этом монографию [3]).

Случайные множества с независимыми элементами использовались как общий язык для описания парных сравнений и случайных толерантностей. В статьях [16] и [17] термин "люсиан" применялся как сокращение для выражения "случайные множества с независимыми элементами". В работе [18], являющейся продолжением [17] и содержащей описание расчетных методов, вытекающих из результатов [17], этот термин не употреблялся вообще, хотя указанный объект (т.е.   бернуллиевский   вектор)   был   основным   предметом   изучения. Это объясняется тем, что изложение в работе [18] шло на языке обработки результатов парных сравнений, которые для прикладника никак не связаны с множествами.

В дальнейшем был выявлен ещё ряд областей, в которых может оказаться полезным разработанный математический аппарат решения различных эконометрических задач, связанных с бернуллиевскими векторами. Перечислим эти области, включая ранее названные: анализ случайных толерантностей; случайные множества с независимыми элементами; обработка результатов независимых парных сравнений; статистические методы анализа точности и стабильности технологического процесса, а также анализ и синтез планов статистического приемочного контроля (по альтернативным, т.е. дихотомическим, признакам); обработка маркетинговых и социологических анкет (с закрытыми вопросами типа "да"-"нет"); обработка социально-психологических и медицинских данных, в частности, ответов на психологические тесты типа MMPI (используемых в задачах управления персоналом), топографических карт (применяемых для анализа и прогноза зон поражения при технологических авариях, распространении коррозии, распространении экологически вредных загрязнений в других ситуациях) и т.д.

Теорию бернуллиевских векторов можно выразить в терминах любой из этих теоретических и прикладных областей. Однако терминология одной из этих областей "режет слух" и приводит к недоразумениям в другой из них. Поэтому мы считаем целесообразным использовать термины "бернуллиевский вектор" в указанном выше значении, не связанном ни с какой из перечисленных областей приложения этой теории (в ряде публикаций в том же значении использовался термин "люсиан").

Распределение бернуллиевского вектора X полностью описывается вектором Р = (рх, р2,..., рк),т.е. нечетким подмножеством множества {1,2,...,к}.

Действительно, для любого детерминированного вектора х = (х1,х2,...,хк) из 0 и

1 имеем

Р{Х = х)=Цп{х],р]),

К j<k

где h(x,p)=p при х= и h(x,p)=l-p при х=0.

Теперь можно уточнить способы использования люсианов при эконометрическом моделировании. Бернуллиевскими векторами можно моделировать: результаты статистического контроля (0-годное изделие, 1-дефектное); результаты маркетинговых и социологических опросов (0-опрашиваемый выбрал первую из двух подсказок, 1-вторую); распределение посторонних включений в материале (0 - нет включения в определенном объеме материала, 1 - есть); результаты испытаний и анализов (0 - нет нарушений требований нормативно-технической документации, 1 - есть такие нарушения); процессы распространения, например, пожаров (0 - нет загорания, 1 - есть; подробнее см. [3, с.215-223]); технологические процессы (0 - процесс находится в границах допуска, 1 - вышел из них); ответы экспертов (опрашиваемых) о сходстве объектов (проектов, образцов) и т.д.

Парные сравнения. Общую модель парных сравнений опишем согласно монографии Г. Дэвида [9, с.9]. Предположим, что t объектов Al,A2,...,At

сравниваются попарно каждым из п экспертов. Всего возможных пар для сравнения имеется s = t{t -1)12. Эксперт с номером у делает гу повторных

сравнений для каждой из s возможностей. Пусть X(i,j,y,S), ij=,2,...,t, іф j, y=,2,...,n; 5=1,2,..., г -случайная величина, принимающая значение 1 или 0 в зависимости от того, предпочитает ли эксперт у объект А{ или объект Aj в 8 -м сравнении двух объектов. Предполагается, что все сравнения проводятся независимо друг от друга, так что случайные величины X(i, j,y,8) независимы в

совокупности, если не считать того, что   X(i, j, у, 8) + X(j, і, у, 8) = 1. Положим

P{X{i,j,y,8) = ) = 7r{i,j,y,8). Ясно,   что   описанная   эконометрическая   модель   парных сравнений представляет собой частный случай бернуллиевского вектора. В этой модели число наблюдений равно числу неизвестных параметров, поэтому для получения статистических выводов необходимо положить априорные условия на 7r(i,j,y,8),

например [9, с.9]:

7i(i,j,y,S) = 7i(i,j,y) (нет эффекта от повторений);

я(i, j, у, 8) = 7г(і, j) (нет эффекта от повторений и от экспертов).

Теорию независимых парных сравнений целесообразно разделить на две части - непараметрическую, в которой статистические задачи ставятся непосредственно в терминах 7t(i,j,y,8), и параметрическую, в которой вероятности 7r(i,j,y,8) выражаются через меньшее число иных параметров. Ряд результатов непараметрической теории парных сравнений непосредственно вытекает из теории бернуллиевских векторов.

В параметрической теории парных сравнений наиболее популярна так называемая линейная модель [9, с.11], в которой предполагается , что каждому объекту А, можно сопоставить некоторую "ценность" Vj так, что вероятность предпочтения 7v{i,j) (т.е. предполагается дополнительно, что эффект от повторений и от экспертов отсутствует ) выражается следующим образом:

7T(iJ) = H(Vl-Vj), (1)

где Н(х) - функция распределения, симметричная относительно 0, т.е.

Щ-х) = 1 - Н(х) (2)

при всех X.

Широко применяются модели Терстоуна - Мостеллера и Брэдли - Терри , в которых Н(х) - соответственно функции нормального и логистического распределений. Поскольку функция Ф(х) стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1 и функция

х¥(х) = ех(1 + еху1

стандартного логистического распределения удовлетворяют (см., например, [19]) соотношению

supiow-mvx) |< 0,01,

хєД1

то для обоснованного выбора по статистическим данным между моделями Терстоуна-Мостеллера и Брэдли-Терри необходимо не менее тысячи наблюдений (ср. п.4.2 выше).

Соотношение (1) вытекает из следующей модели поведения эксперта: он измерят "ценность"  Vi и Vj объектов At и Aj, но с ошибками  st  и  є ■

соответственно, а затем сравнивает свои оценки ценности объектов yi =Vt + st и

yj = Vj + £j. Если yi > у j, то он предпочитает Aj, в противном случае - Aj. Тогда

тг(і, j) = P{et - £j <Vt-Vj) = H(Vt -V^. (3)

Обычно предполагают, что субъективные ошибки эксперта єі  и  є.

независимы и имеют одно и то же непрерывное распределение. Тогда функция распределения Н(х) из соотношения (3) непрерывна и удовлетворяет функциональному уравнению (2).

Существует много разновидностей моделей парных сравнений, постоянно предполагаются новые. В качестве примера опишем модель парных сравнений, основанную не на процедуре упорядочения, а на определении сходства объектов. Пусть каждому объекту Aj соответствует точка щ в r-мерном евклидовом пространстве Rr. Эксперт "измеряет" аг и щ с ошибками st и є . соответственно и

в случае, если евклидово расстояние между at + st и а. + е. меньше 1, заявляет о

сходстве объектов Aj и Aj, в противном случае - об их различии. Предполагается, что ошибки £. и єj независимы и имеют одно и то же распределение, например,

круговое нормальное распределение с нулевым математическим ожиданием и дисперсией координат сг2. Целью статистической обработки является определение по результатам парных сравнений оценок параметров а], й2, ...,аг, и сг2, а также проверка согласия опытных данных с моделью.

Рассмотренные модели парных сравнений могут быть обобщены в различных направлениях. Так, можно ввести понятие "ничья "- ситуации, когда эксперт оценивает объекты одинаково. Модели с учетом "ничьих" предполагают, что эксперт может отказаться от выбора одного из объектов и заявить об их эквивалентности, т. е. число возможных ответов увеличивается с 2 до 3. В моделях множественных сравнений эксперту представляется не два объекта , а три или большее число

Модели, учитывающие "ничьи", строятся обычно с помощью используемых в психофизике "порогов чувствительности": если | _у. — уj \< г (где

г- порог чувствительности), то объекты Aj и Aj эксперт объявляет неразличимыми. Приведем пример модели с "ничьими", основанной на другом принципе. Пусть каждому объекту Aj соответствует точка щ в r-мерном линейном пространстве. Как и прежде , эксперт "измеряет " объектные точки " щ и а, с ошибками st и є.

соответственно, т.е. принимает решение на основе _уг- = а. + st и _у7- = а. + £.. Если

все координаты у і больше соответствующих координат yj , то Aj предпочитается Aj. Соответственно, если каждая координата у і меньше координаты yj с тем же номером , то эксперт считает наилучшим объект Aj. Во всех остальных случаях эксперт объявляет о ничейной ситуации. Эта модель при г= переходит в описанную выше линейную модель. Она связана с принципом Парето в теории группового выбора и предусматривает выбор оптимального по Парето объекта, если он существует (роль согласуемых критериев играют процедуры сравнения значений отдельных координат), и отказ от выбора, если такого объекта нет.

Можно строить модели, учитывающие порядок предъявления объектов при сравнении, зависимость результата сравнения от результатов предшествующих сравнений. Опишем одну из подобных моделей.

Пусть эксперт сравнивает три объекта - А, В, С, причем сначала сравниваются А и В, потом - В и С и, наконец, А и С. Для определенности пусть А>В будет означать, что А более предпочтителен, чем В. Пусть при предъявлении двух объектов

Р(А >В) = яАВ,Р(В > С) = явс,Р(А > С) = лАС.

Теперь пусть пара В, С предъявляется после пары А, В. Естественно предположить, что высокая оценка В в первом сравнении повышает вероятность предпочтения В и во втором, и, наоборот, отрицательное мнение о В в первом сравнении сохраняется и при проведении второго сравнения. Это предположение проще всего учесть в модели следующим образом:

Р(В >СВ>А) = жвс+8,   Р(В>СА> В) = пвс - 8,

где 8 - некоторое положительное число, показывающее степень влияния первого сравнения на второе. По аналогичным причинам вероятности исхода третьего сравнения в зависимости от результатов первых двух можно описать так:

Р{А > С | А > В,В > С) = л АС + 28, Р(А > С А > В,В < С) = л АС , Р{А > С | А < В,В > С) = лАС,    Р(А > С | А < В,В < С) = лАС -28.

Статистическая задача состоит в определении параметров лАВ, лвс, лАС и

8 по результатам сравнений, проведенных п экспертами, и в проверке адекватности модели.

Ясно, что можно рассматривать и другие модели, в частности, учитывающие тягу экспертов к транзитивности ответов. Очевидно, что проблемы построения моделей парных сравнений относятся не к эконометрической теории, а к тем прикладным областям, для решения задач которых развиваются методы парных сравнений, например, к экономике предприятия, стратегическому менеджменту, производственной психологии, изучению поведения потребителей, экспертным оценкам и т. д.

Метод парных сравнений был введен в 1860 г. Г. Т. Фехнером для решения задач психофизики. Расскажем об этом несколько подробнее. Как известно, основателем психофизики по праву считается Густав Теодор Фехнер (1801 -1887), а год выхода в свет его фундаментальной работы "Элементы психофизики"(1860) - датой рождения новой науки; в этой работе широко применялся предложенный Г.Т. Фехнером метод парных сравнений (обсуждение событий тех лет с современных позиций дано в монографии [9, с. 14-16]).

С точки зрения математической статистики приведенные выше модели не представляют большого теоретического интереса: оценки параметров находятся обычно методом максимального правдоподобия, а проверка согласия проводится по критерию отношения правдоподобия или асимптотически эквивалентными ему критериями типа хи-квадрат [9]. Вычислительные процедуры обычно сложны и плохо исследованы; их можно упростить и одновременно повысить обоснованность, перейдя от оценок максимального правдоподобия к одношаговым оценкам [20].

Отметим некоторые сложности при обосновании возможности использовании линейных моделей типа (1) - (3). Эконометрическая теория достаточно проста, когда предполагается , что каждому отдельному сравнению двух объектов соответствуют свои собственные ошибки экспертов, причем все ошибки независимы в совокупности. Однако это предположение отнюдь не очевидно с содержательной точки зрения. В качестве примера рассмотрим три объекта А, В и С, которые сравнивают попарно: А и В, В и С, А и С. В соответствии со сказанным, в рассмотрение вводят 6 ошибок одного и того же эксперта: єА и єв в первом сравнении, єв и єс -во втором, єА и єс - в третьем,

причем все эти 6 случайных величин независимы в совокупности. Между тем естественно думать, что мнения эксперта об одном и том же объекте связаны между собой, т. е. єА и £А зависимы, равно как єв и єв , а также єс и єс. Более того, если принять, что точка зрения эксперта полностью определена для него самого, то следует положить єА = єА и соответственно єв = єв и £с = єс. При этом, напомним, случайные величиныєА, єв и др. интерпретируется как отклонения мнений отдельных экспертов от истины. Видимо, ошибку эксперта целесообразно считать состоящей из двух слагаемых, а именно: отклонения от истины, вызванного внутренними особенностями эксперта (систематическая погрешность) и колебания мнения эксперта в связи с очередным парным сравнением (случайная погрешность). Игнорирование систематической погрешности облегчает развитие математико-статистической теории, а ее учет приводит к необходимости изучения зависимых парных сравнений.

При обработке результатов парных сравнений первый этап - проверка согласованности. Понятие согласованности уточняется различными способами, но все они имеют один и тот же смысл проверки однородности обрабатываемого материала, т.е. того, что целесообразно агрегировать мнения отдельных экспертов, объединить данные и совместно их обрабатывать. При отсутствии однородности данные разбиваются на группы (классы, кластеры, таксоны) с целью обеспечения однородности внутри отдельных групп. Естественно, согласованность целесообразно проверять, вводя возможно меньше гипотез о структуре данных. Следовательно, целесообразно пользоваться для этого непараметрической теорией парных сравнений, основанной на теории бернуллиевских векторов.

Хорошо известно, что модели парных сравнений можно с успехом применять в экспертных и экспериментальных процедурах упорядочивания и выбора, в частности, для анализа голосований, турниров, выбора наилучшего объекта (проекта, образца, кандидатуры); в планировании и анализе сравнительных экспериментов и испытаний; в органолептической экспертизе (в частности, дегустации); при изучении поведения потребителей; визуальной колоритмии, определении индивидуальных рейтингов и вообще изучении предпочтений при выборе и т. д. (подробнее см. [3,9]).

Бинарные отношения. Теорию ранговой корреляции [6, 21] можно рассматривать как теорию статистического анализа случайных ранжировок, равномерно распределенных на множестве всех ранжировок. Так, при обработке данных классического психофизического эксперимента по упорядочению кубиков соответственно их весу, подробно описанного в работе [22], оказалась адекватной следующая т.н. Г-модель ранжирования.

Пусть имеется t объектов  Al,A2,...,At,  причем каждому объекту At

соответствует число щ, описывающее его положение на шкале изучаемого признака. Испытуемый упорядочивает объекты так, как если бы оценивал соответствующие им значения с ошибками, т.е. находил yi = at+ et,i=,2,...n,

где st - ошибка при рассмотрении г'-го объекта, а затем располагал бы объекты в

том порядке, в каком располагаются yl,y2,...,yt. В этом случае вероятность

появления  упорядочения   An,Ai2,...Ait   есть   Р(уп < (yi2 <... < уи),   а ранги

Rl,R2,...Rt   объектов   являются   рангами   случайных   величин   у1,у2,...,уг,

полученных при их упорядочении в порядке возрастания. Кроме того, для простоты расчетов в модели предполагается, что ошибки испытуемого sl,s2,...,st

независимы и имеют нормальное распределение с математическим ожиданием О и дисперсией сг2. Как уже отмечалось, бинарное отношение на множестве из t элементов полностью описывается матрицей из 0 и 1 порядка t х t. Поэтому задать распределение случайного бинарного отношения - это то же самое, что задать распределение вероятностей на множестве всех матриц описанного вида,

состоящем из 2 элементов. Пространства ранжировок, разбиений, толерантностей зачастую удобно считать подпространствами пространства всех бинарных отношений, тогда распределения вероятностей на них - частные случаи описанного    выше    распределения,    выделенные    тем,    что вероятности принадлежности соответствующим подпространствам равны 1. Распределение

произвольного бинарного отношения описывается 2 -1 параметрами, распределение случайной ранжировки (без связей) - (t!-l) параметрами, а описанная выше Г-модель ранжирования - (t+І) параметром. При t=4 эти числа равны соответственно 65535, 23 и 5. Первое из этих чисел показывает практическую невозможность использования в эконометрических моделях произвольных бинарных отношений, поскольку по имеющимся данным невозможно оценить столь большое число параметров. Приходится ограничиваться теми или иными семействами бинарных отношений -ранжировками, разбиениями, толерантностями и др. Модель произвольной случайной ранжировки при t=5 описывается 119 параметрами, при t=6 - уже 719 параметрами, при t=l число параметром достигает 5049, что уже явно за возможностями оценивания. В то же время Г-модель ранжирования при t=l описывается всего 8-ю параметрами, а потому она практически пригодна.

Что естественно предположить относительно распределения случайного элемента со значениями в том или ином пространстве бинарных отношений? Зачастую целесообразно считать, что распределение имеет некий центр, попадание в который наиболее вероятно, а по мере удаления от центра вероятности убывают. Это соответствует естественной модели измерения с ошибкой; в классическом одномерном случае результат подобного измерения описывается унимодальной симметричной плотностью, монотонно возрастающей слева от модального значения, в котором плотность максимальна, и монотонно убывающей справа от него. Чтобы ввести понятие монотонного распределения в пространстве бинарных отношений, будем исходить из метрики в этом пространстве. Воспользовавшись тем, что бинарные отношения ChD однозначно описываются матрицами \ctj || и \dtj || порядка txt соответственно, рассмотрим

расстояние (в несколько другой терминологии - метрику) в пространстве бинарных отношений

d(C,D) = X <•    <'.• ■ (4)

\<i,j<t

Метрика (4) в различных пространствах бинарных отношений -ранжировок, разбиений, толерантностей - может быть введена с помощью соответствующих систем аксиом. В работах [3, 23] дан обзор аксиоматическим подходам к получению метрики (4) в различных пространствах объектов нечисловой природы. В настоящее время метрику (4) обычно называют расстоянием Кемени в честь американского исследователя Джона Кемени, впервые получившего эту метрику исходя из предложенной им системы аксиом для расстояния между упорядочениями (ранжировками). Этой тематике посвящена первая глава учебника [24], на английском языке выпущенном под названием "Математические методы в социальных науках".

В статистике нечисловых данных используются и иные метрики, отличающиеся от расстояния Кемени. Более того, для использования понятия монотонного распределения, о котором сейчас идет речь, нет необходимости требовать выполнения неравенства треугольника, а достаточно, чтобы d(C,D) можно было рассматривать как показатель различия. Под показателем различия понимаем такую функцию d(C,D) двух бинарных отношений ChD, что d(C,D)=0 при C=D и увеличение d(C,D) интерпретируется как возрастание различия между ChD.

Определение 1. Распределение бинарного отношения X называется монотонным относительно расстояния (показателя различия) d с центром в Cq, если из d(C,С0)<d(D,С0) следует, что Р(Х=С)>P(X=D)

Это определение впервые введено в монографии [3, с. 196]. Оно может использоваться в любых пространствах бинарных отношений и, более того, в любых пространствах из конечного числа элементов, лишь бы в них была введена функция d(C,D) - показатель различия элементов С и D этого пространства. Монотонное распределение унимодально, мода находится в Со-

Определение 2. Распределение бинарного отношения X называется симметричным относительно расстояния d с центром в Со, если существует такая функция / :R —> [0,1], что

P(X = C) = f(d(C,C0)). (5)

Если распределение X монотонно и таково, что из d(C,Co) = d(D,Co) следует Р(Х=С) = P(X=D), то оно симметрично. Если функция/в формуле (5) монотонно строго убывает, то соответствующее распределение монотонно в смысле определения 1.

Поскольку толерантность на множестве из t элементов задается 0,5t(t-l) элементами матрицы из 0 и 1 порядка t х t, лежащими выше главной диагонали, то распределение на множестве толерантностей задается в общем случае 2°'5г(гЧ) параметрами. Естественно выделить семейство распределений, соответствующее независимым элементам матрицы. Оно задается бернуллиевским вектором (люсианом) с 0,5t(t-l) параметрами ( выше бернуллиевские вектора рассмотрены подробнее). Математическая техника, необходимая для изучения толерантностей с независимыми элементами, существенно проще, чем в случае ранжировок и разбиений. Здесь легко отказаться от условия равномерности распределения. Этому условию соответствует ptj = 1/2, в то время как статистические методы анализа люсианов, развитые в статистике нечисловых данных (см., например, работы [3,17, 18]) не налагают никаких существенных ограничений нару- .

Как уже отмечалось, при обработке мнений экспертов сначала проверяют согласованность. В частности, если мнения экспертов описываются монотонными распределениями, то для согласованности необходимо совпадение центров этих распределений. К сожалению, рассмотренные выше классические методы проверки согласованности для ранжировок, основанные на коэффициентах ранговой корреляции и конкордации, позволяют лишь отвергнуть гипотезу о равнораспределенности, но не установить, можно ли считать, что центры соответствующих экспертам распределений совпадают или же, например, существует две группы экспертов, каждая со своим центром. Теория случайных толерантностей лишена этого недостатка. Отсюда вытекают следующие практические рекомендации.

Пусть цель обработки экспертных данных состоит в получении ранжировки, отражающей групповое

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 |