Имя материала: Общая теория статистики

Автор: Елисеева Ирина Ильинична

6.3. многомерные группировки

 

Мы убедились, как трудно выбрать какой-то один признак в качестве основания группировки. Еще труднее проводить группировку по нескольким признакам. Комбинация двух признаков позволяет сохранить обозримость таблицы, но комбинация трех или четырех признаков дает совершенно неудовлетворительный результат: ведь даже при выделении трех категорий по каждому из груп-пировочных признаков мы получим 9 или 12 подгрупп. Равномерность распределения единиц по группам в принципе невозможна. Вот и получаются группы, в которые входят 1-2 наблюдения. Сохранить сложность описания групп и вместе с тем преодолеть недостатки комбинационной группировки позволяют методы многомерных группировок. Часто их называют методами многомерной классификации.

Эти методы получили распространение благодаря использованию |ЭВМ и пакетов прикладных программ. Цель этих методов — классификация данных, иначе говоря, группировка на основе множества |Признаков. Такие задачи широко распространены в науках о приро-|де и обществе, в практической деятельности по управлению массо-^Яыми процессами. Например, выделение типов предприятий по Ижнансовому положению, по экономической эффективности деятельности производится на основе множества признаков: выделение и изучение типов людей по степени их пригодности к определенной профессии (профпригодность); диагностика болезней на основании множества объективных признаков (симптомов) и т. д.

Простейшим вариантом многомерной классификации является группировка на основе многомерных средних.

Многомерной средней называется средняя величина нескольких признаков для одной единицы совокупности. Поскольку нельзя рассчитать среднюю величину абсолютных значений разных признаков выраженных в разных единицах измерения, то многомерная средняя вычисляется из относительных величин, как правило, - из отношений значений признаков для единицы совокупности к средним значениям этих признаков:

 

где p̅j - многомерная средняя для i-единицы;

хij - значение признака х, для г-единицы;

хj - среднее значение признака xi,

      k - число признаков;

j - номер признака;

i - номер единицы совокупности.

Рассмотрим использование многомерных средних на примере сельскохозяйственных предприятий Всеволожского района Ленинградской области за 1995 г. (табл. 6.8). По каждому предприятию приведены четыре признака:

• среднемесячная оплата труда работника, руб., x1;

• валовой доход на 1 га сельхозугодий, тыс. руб./га, х2;

• среднегодовая стоимость основных производственных фондов на 1 га сельхозугодий, млн руб./га, x3;

• отношение дебиторской задолженности к кредиторской задолженности, \%, x4.

Эти признаки можно считать однородными, так как большая их величина положительно характеризует экономику предприятия. Предпочтительнее обобщать в многомерной средней признаки либо «положительные», либо «отрицательные» (чем больше, тем хуже).

Многомерные средние, приведенные в последней графе табл. 6.8, обобщают четыре признака.. При этом значимость признаков для оценки предприятия полагается одинаковой, что, конечно, спорно. Можно .усложнить методику, приписав признакам, на основе экспертнои оценки, разные веса, и вычислить взвешенные многомерные средние.

 

Таблица 6.8

Характеристики предприятий Всеволожского района Ленинградской области в 1995 г.

 

 

 

Предприятия

Значения признаков

В \% к средней

 

Многомер-ная средняя, \%

 

х1

 

х2

 

х3

 

х4

 

х1

 

х2

 

х3

 

х4

 

«Ручьи»

597

390

20,6

72

148

199

106

107

140

«Бугры»

353

96

12,1

30

88

49

62

45

61

«Пригородное»

403

84

20,6

26

100

43

106

39

72

«Авлога»

231

71

15,1

74

57

36

78

110

70

«Всеволожское»

330

114

14,8

159

82

58

76

237

113

«Выборгское»

540

235

24,0

26

134

120

184

39

104

«Приневское»

372

461

33,2

85

93

235

171

127

156

«Шеглово»

393

113

15,0

62

98

58

77

92

81

Средние величины

402

196

19,4

67

100

100

100

100

100

Средние квадратические отклонения

109

142

6,4

41

-

-

-

 

-

-

 

Судя по полученным оценкам, предприятия делятся на группы с многомерными средними ниже 100\% (четыре предприятия), несколько выше 100\% (два предприятия) и резко превышающие 100\% (два предприятия).

При большом 'объеме совокупности для выделения групп на основе многомерной средней необходимо установить интервалы значений многомерной средней;

Затем следует провести группировку единиц: определить их количество в каждой группе и постараться указать, в чем состоят качественные различия между группами.

Более обоснованным методом многомерной классификации является кластерный анализ. Само название метода происходит от того же корня, что и слово «класс», «классификация». Английское слово the cluster имеет значения: группа, пучок, куст, т. е. объединений каких-то однородных явлений. В данном контексте оно близко к математическому понятию «множества», причем, как и множество, кластер может содержать только одно явление, но не может в отличие от множества быть пустым.

Каждая единица совокупности в кластерном анализе рассматривается как точка в заданном признаковом пространстве. Значение каждого из признаков у данной единицы служит ее координатой в этом «пространстве» по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, признаковое пространство - это область варьирования всех признаков совокупности изучаемых явлений. Если мы уподобим это пространство обычному пространству, имеющему евклидову метрику, то тем самым мы получим возможность измерять «расстояния»  между точками признакового пространства. Эти расстояния называют евклидовыми. Их вычисляют по тем же правилам, как и в обычной евклидовой геометрии. На плоскости, т.е. в двухмерном пространстве, расстояние между точками А и В равно корню квадратному из суммы  квадратов разностей координат этих точек по оси абсцисс и по оси ординат - на основании теоремы Пифагора (рис. 6.1).

                

 

                                    Рис. 6.1. Евклидово расстояние

 

В многомерном признаковом пространстве расстояние между точками р и q с k координатами, т. е. индивидуальными значениями k признаков, определяется так:

 

Совершенно очевидно, что нельзя суммировать квадраты отклонений одной точки от другой в абсолютных значениях разнокачествен-ных признаков. Необходимо сначала выразить различия между единицами совокупности по каждому признаку в каком-то относитель,но безразмерном показателе. В качестве такого показателя часто применяют «нормированную разность», т. е. величину:

   

По данным табл. 6.8 среднее квадратическое отклонение признака х, равно 109. Разделив все попарные разности значений этого признака на 109, получим матрицу нормированных разностей D1 (табл. 6.9). Очевидно эта матрица размером п×п симметрична.

Таблица 6.9

 

Матрица нормированных разностей между предприятиями по

 среднемесячной оплате труда (D1)

 

Предприятия

«Ручьи»

«Бугры»

«Пригородное»

«Авлога»

«Все-волож-ское»

«Вы-борг-ское»

«При-нев-ское»

«Щег-лово»

«Ручьи»

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

«Бугры»

2,239

0

 

 

 

 

 

 

 

 

 

 

 

 

«Пригородное»

1,780

0,459

0

 

 

 

 

 

 

 

 

 

 

«Авлога»

3,358

1,119

1,578

0

 

 

 

 

 

 

 

 

«Всеволожское»

2,450

0,211

0,670

0,908

0

 

 

 

 

 

 

«Выборгское»

0,523

1,716

1,257

2,835

1,927

0

 

 

 

 

«Приневское»

2,064

0,174

0,284

1,294

0,385

1,541

0

 

 

«Щеглово»

1,872

0,367

0,092

1,486

0,518

1,349

0,193

0

 

Из данных табл. 6.9 видно, что величина нормированных разностей по этому признаку варьирует от 0 до 3,4. В нормально распределенной совокупности различия признака в среднем лишь в трех случаях из тысячи превосходят шесть сигм, т. е. в распределениях, близких к нормальным, величина нормированного расстояния редко превосходит 6.

Средняя нормированная разность по данным табл. 6.9 составила 1,182. В нормально распределенной совокупности и совпадает со средним отклонением их от средней величины, т.е. нормированная разность в нормальной совокупности в среднем равна единице. Это очень важно при установлении предельного (критического) расстояния в признаковом пространстве, при достижении которого прекращается объединение кластеров.

Аналогично вычисляются матрицы нормированных разностей по признакам х2, х3, х4 (см. табл. 6.10-6.12).

Таблица 6.10

 

Матрица нормированных разностей между предприятиями

по валовому доходу на 1 га сельхозугодий D2)

 

Предприятия

«Ручьи»

«Бугры»

«Пригородное»

«Авлога»

«Все-волож-ское»

«Вы-борг-ское»

«При-нев-ское»

«Щеглово»

1

2

3

4

5

6

7

8

9

«Ручьи»

0

 

 

 

 

 

 

 

 

 

 

 

 

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 |