Имя материала: Эконометрика

Автор: В.С. Мхитарян

4.4. методы многомерной классификации. кластерный анализ

 

Классификация семей по анализируемой структуре расходов

 

По данным, представленным в табл. 4.4.1, провести классификацию n=5 семей по двум показателям: уровень расходов (млн. руб.) за летние месяцы на культурные нужды, спорт и отдых - Xі-11 и питание х(2):

Таблица 4.4.1.

 

№ семьи (i)

1

2

3

4

5

х (1)

2

4

8

12

13

х/2)

10

7

6

11

9

 

Классификацию провести по иерархическому агломеративному алгоритму с использованием обычного и взвешенного (w1=0,05; w2=0,95) евклидова расстояния, а также принципов: "ближайшего" и "дальнего" соседа, центра тяжести и средней связи.

Сравнить полученные результаты и обосновать выбор окончательного варианта классификации.

Примечание: На основании предварительного качественного анализа было выдвинуто предположение, что по потребительскому поведению три первые семьи принадлежат одной типологической группе, а две последние (4 и 5) - другой, что согласуется с расположением пяти наблюдений на плоскости, представленных на рис.1.

Рис.1. Исходные данные для классификации

 

Решение. 1. Проведем классификацию, выбрав при обычном евклидовом расстоянии принцип "ближайшего соседа ".

Согласно обычной евклидовой метрике расстояние между наблюдениями 1 и 2

равно

Ри =

2(x(j) -))2 =V(2-4)2 + (10-7)2 = 3.61, (1)

j=1

 

очевидно, что р 1;1=0.

Аналогично находим расстояния между всеми пятью наблюдениями и строим матрицу расстояний

Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки р 4;5=2,24 и поэтому объединим их в один кластер. После объединения объектов имеем четыре кластера:

Sb S2, Sз, S(4,5).

Расстояние между кластерами будем находить по принципу "ближайшего соседа", воспользовавшись формулой пересчета. Так, расстояние между кластером S1 и кластером S(4,5) равно:

1        1 1

2

А(4,5) =P(S1, S(4,5)) =-А,4 +~А,5

2

А1,4 - А1,5

 

(2)

-(10,05 +11,05)                 10,05 -11,05 = 10,05.

 

Мы видим, что расстояние р ц4;5) равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер S(4;5), т.е. р ц4,5)= р 1;4=10,05. Проводя аналогичные расчеты, получим матрицу расстояний

 

 

*2 =

 

Подпись: 3,61
0
4,12
0

3,61 7,21

V10,05 8,94

7,21 4,12

0

5,83

10,05 8,94 5,83

0)

Объединим наблюдения 1 и 2, имеющие наименьшее расстояние р 12=3,61. После объединения имеем три кластера S(1,2), S3 и S(4,5).

Вновь строим матрицу расстояний. Для этого необходимо рассчитать расстояние до кластера S(1;2). Воспользуемся матрицей расстояний R2.

Например, расстояние между кластерами S(4;5) и S(1;2) равно:

1

1

1

Подпись: АПодпись: А((4,5),(2,3)

(4,5),1 + 2 А(4,5),2

2

(4,5),1

(4,5),2

= -2 10,05 + ^-8,94 - 2 (10,05 - 8,94) = 8,94.

Как видим, оно равно расстоянию от кластера S(4;5) до ближайшего объекта, входящего в кластер S(1,2), то есть р (4,5),(1,2)= р (4,5),2=8,94.

Проведя аналогичные расчеты, получим матрицу расстояний

( 0    4,12 8,94Л

4,12    0 5,83 V8,94   5,83     0 у

Объединим кластеры S(1;2) и S(3), расстояние между которыми, согласно матрице R3, минимально р (1,2),3=4,12. В результате этого получим два кластера: S(1,2,3) и S(4,5). Матрица расстояний будет иметь вид:

R4 =

0 5,83)

s5,83    0 /

 

Из матрицы R4 следует, что на расстоянии р (1;2,3),(4,5)=5,83 все пять наблюдений объединяются в один кластер. Результаты кластерного анализа представим графически в виде дендрограммы (рис.2).

г

5 -4 -3 -2 -1 -0 4,12

 

3,61

 

2,24

5,83

1

23

4

5

р

Рис. 2. Дендрограмма (обычное евклидово расстояние, "ближайший сосед")

 

На основании графического представления результатов кластерного анализа (рис.4.2) можно сделать вывод, что наилучшим является разбиение пяти семей на два кластера: S(1;2;3) и S(4;5), когда пороговое расстояние находится в интервале 4,12< р пор<5,83.

Напомним, что выводы нами сделаны для случая, когда для измерения расстояния выбрано "обычное евклидово расстояние" и принцип "ближайшего соседа".

 

2. Проведем классификацию, выбрав при обычном евклидовом расстоянии принцип "дальнего соседа".

Как и в случае (1), мы используем обычное евклидово расстояние, поэтому матрица R1 остается без изменения. Согласно агломеративному алгоритму объединяются в один кластер объекты 4 и 5, как наиболее близкие р 4;5=2,24. После объединения имеем четыре

кластера: S1, S2, S3 и S(4,5).

р1,(4,5) =        S (4,5)) = ~ р1,4 +~ р1,5 +-|р1,4 - р1,5| =

В виду того, что расстояние между кластерами измеряем по принципу "дальнего соседа", воспользуемся формулой пересчета, приняв 8=1/2, а не -1/2, как в случае (1). Тогда, например, расстояние между кластером S1 и кластером S(4,5) определяется по формуле

1          1        11

2          р1,4 + 2 р1,5 + 2

= 2(10,05 +11,05) + 2-|10,05 -11,05 = 11,05

Таким образом, расстояние р 1,(4,5) равно расстоянию от объекта 1 до наиболее отдаленного от него объекта, входящего в кластер S(4;5), то есть р ц4,5)= р 1;5=11,05.

Подпись: Аналогично рассматриваются все остальные элементы матрицы расстояния
Подпись: R2 =
[

Объединим объекты 1 и 2 в один кластер, как наиболее близкие (согласно матрице R 2), р 1,2=3,61.

После объединения имеем три кластера: S(1;2), S3 и S(4;5).

Строим матрицу расстояний R3, воспользовавшись принципом "дальнего соседа".

( 0     7,21   11,05^ R3 =7,21     0 6,40 v11,05   6,40 0

по матрице R

Объединим кластеры S3  и S(4;5), расстояние между которыми р3(45)=6,40 минимально, и получим два кластера: S(1;2) и S(3;4;5), расстояние между которыми определяется С 0     11,05S

и равно р (1,2),(3,4,5)=11,05.

[11,05     0 ^

Графические результаты классификации представлены на рис.3.

р

12 10 8 6 4

2

 

3,61

 

2,24

 

11,05

 

6,40

0

1    2    3     4 5

Рис. 3. Дендрограмма (обычное евклидово расстояние, "дальний сосед")

Как и в предыдущем случае наилучшим является разбиение семей на два кластера (рис. 4.3): S(1,2) и S(3,4,5), после предпоследнего шага классификации, когда интервал измерения расстояния объединения наибольший 6,40< рпор<11,05.

Таким образом, используя принцип "дальнего соседа", мы получили разбиение регионов на два кластера S(1,2) и S(3,4,5), которое отличается от разбиения по принципу "ближайшего соседа": S(1,2,3) и S(4,5).

 

3. Классификация на основе обычного евклидова расстояния и принципа "центра тяжести ".

Так как мы используем обычное евклидово расстояние, то матрица R1 остается без изменения. Согласно агломеративному алгоритму объединяются в кластер S(4,5) объекты 4 и 5, как наиболее близкие р 4,5=2,24.

Кластер S(4;5) характеризуется в дальнейшем его центром тяжести, определяемым

вектором средних X

 

(4,5)

Г 12,5 10

Расстояние от этого кластера до первого наблюдения равно

Р(4,5),1 =д/(12,5 - 2)2 + (10 -10)2 = 10,50 . Тогда матрица расстояний примет вид

Объединим объекты 1 и 2, расстояние между которыми р 12=3,61 минимальное.

расстояния от которого до кластера

Кластер характеризуется центром тяжести X1 S(4,5) равно

Р(1,2),(4,5) =V(3 -12,5)2 + (8,5 -10)2 = 9,62 .

Тогда матрица расстояний примет вид

Г 0     5,59 9,62Л R3 =  5,59     0     6,02 . v9,62   6,02     0 у

В матрице R3 минимальное расстояние р (1;2),3=5,59, поэтому образуем кластер

(2+4+8 Л

10 + 7 + 6

S(1;2,3) и определим его вектор средних X (123) = Найдем расстояние между S(1;2;3) и S(4;5)

Р(1,2,3),(4,5) =V (4,67 -12,5)2 + (7,67 -10)2 = 8,17, на котором все пять объектов объединяются в один кластер. Графически результаты классификации представлены на рис. 4.

 

8,17

 

5,59

 

3,61

2,24

1

2 3

4 5

Рис. 4. Дендрограмма (обычное евклидово расстояние, принцип "центра тяжести")

Из рис.4. видно, что наибольший скачок в расстояниях объединения р имеет место на последнем шаге, поэтому целесообразно выбрать разбиение на два кластера S(1;2;3) и S(4,5), что совпадает со случаем (1).

4. Классификация на основе обычного евклидова расстояния и принципа "средней

связи ".

Используя матрицу R1, согласно агломеративному алгоритму объединим кластеры S4 и S5 в один S(4,5), так как расстояние между ними р 4;5 =2,24 минимально.

Расстояние от кластера S(4;5) до остальных кластеров определим по принципу "средней связи" на основе матрицы R1. Например,

(4,5),1

 

1

1

т(р4,1 + р5Д) = т(10,05 +11,05) = 10,55 .

2

Подпись: Тогда матрица расстояний имеет вид
Объединим, как наиболее близкие р 1;2=3,61, кластеры S1 и S2. Тогда расстояния от S(1,2) до остальных кластеров S(4,5) равны

р(1,2),(4,5)

а матрица расстояний имеет вид 4(р1,4 + р1,5 + р2,4 + р2,5) = 9,82,

( 0     5,67 9,82^

R3 =

5,67     0     6,12 . ^9,82   6,12     0 j

Объединим, как наиболее близкие р (1,2),3=5,41, кластеры S(1,2) и S3 расстояние от S(1,2,3) до S(4,5)

 

и определим

р

 

(1,2,3),(4,5)

1 6

(р1,4 + р1,5 + р2,4 + р2,5 + р3,4 + р3,5 ) = 8,58,

на котором все пять объектов объединились в один кластер. Графически результаты классификации представлены на рис. 5

 

8,58

 

5,41

3,61

2,24

 

0          1          2          3          4 5

 

Рис. 5. Дендрограмма (обычное евклидово расстояние, принцип "средней связи")

Анализ рис. 5 показывает, что целесообразным является разбиение на два кластера

S(1,2,3) и S(4,5).

Таким образом, сравнивая результаты 4-х разбиений пяти семей на однородные группы, можно отметить, что наиболее устойчивым, а отсюда и предпочтительным, является разбиение на два кластера S(1;2;3) и S(4;5), что согласуется с рис. 4.1. Только в одном случае из четырех, при использовании принципа "дальнего соседа" получено разбиение

S(1,2) и S(3,4,5).

Во всех предыдущих алгоритмах классификации мы предполагали, что оба показателя х*-1-* и х*2 одинаково значимы (использовалось обычное евклидово расстояние). Теперь откажемся от этого предположения.

5. Классификация на основе "взвешенного евклидова расстояния" и принципа "ближайшего соседа ".

Предположим, что показатель х(1) менее важен для классификации, чем х(2). В этой связи припишем им "веса" ш1=0,05 и со2=0,9. Напомним, что взвешенное евклидово расстояние между i-м и l-м наблюдениями определяется по формуле

рВЕ(Хг , Xl )

І (x,

(j)    v( j h2

(3)

j=1

Тогда расстояние между объектами 1 и 2 равно

р

1,2

д/(2 - 4)2 ■ 0,05 + (10 - 7)2 ■ 0,95 = 2,96 .

Аналогично находим все остальные расстояния и строим матрицу расстояний

 

 

R =

( 0        2,96     4,12     2,44     2,65^

2,96     0          1,32     4,29     2,80

4,12     1,32     0          4,95     3,13

2,44     4,29     4,95     0          1,96

V 2,65 2,80     3,13     1,96   0 )

 

Объединив S2 и S3, имеющих минимальное расстояние р 2;3=1,32, в кластер S2;3 и применив принцип "ближайшего соседа", получим матрицу расстояний R

Ґ 0     2,96   2,44 2,65^

R2 =

2,96   0   4,29 2,80 2,44 4,29   0 1,96 V 2,65 2,80 1,96   0 )

Образовав на расстоянии р 4,5=1,96 кластер S4,5, вновь построим матрицу расстояний

( 0     2,96 2,44^ R3 = 2,96     0 2,80 V 2,44   2,80 0

Объединим S1 и S4,5, имеющих минимальное расстояние р (4,5)1=2,43, в кластер S(1,4,5) и получим матрицу расстояний

R4 =

( 0 2,80^ V2,80    0 , .

Следовательно, на расстояние р (1,4,5),(2,3)=2,80 объединяются кластеры S(1,4,5) и S(2,3) и все пять объектов образуют один кластер.

Результаты классификации представлены графически на рис.6.

р3

2,5

2 1,5 1

0,5

2,80

 

1,32

 

2,44

 

1,96

0

 

3

 

2145

Рис. 6. Дендрограмма (взвешенное евклидово расстояние, принцип "ближайшего соседа")

Как и прежде, отдадим предпочтение разбиению на два кластера; мы получаем третий вариант разбиения, а именно S(2,3) и S(1,4,5).

Таким образом, использовав пять алгоритмов кластерного анализа, мы получили три варианта разбиения пяти семей на две статистически однородные группы. С одной стороны, это свидетельствует о гибкости (возможностях) методов кластерного анализа, а с другой - о необходимости использования экономических (содержательных) и статистических критериев для выбора наилучшего варианта классификации. При этом часто бывает полезной априорная информация об исследуемом явлении. В нашем примере, окончательно следует остановиться на разбиении S(1;2;3) и S(4;5), как наиболее устойчивом. Это разбиение получено по трем алгоритмам из пяти. Кроме того, оно согласуется с данными априорного, качественного анализа.

5. Контрольные задания

Задание №1.

Тема « Корреляционный анализ»

По данным своего варианта определите критическое значение гкр для выборочных парных коэффициентов корреляции, представленных в корреляционной матрице, по таблице Фишера-Йейтса и проверьте значимость каждого из коэффициентов на уровне значимости а = 0,05.

Определите два признака, с Вашей точки зрения наиболее важные для объяснения вариации исследуемого признака. Рассчитайте выборочные частные коэффициенты корреляции исследуемого признака с каждым из них при фиксированном значении другого. Найдите интервальные оценки частных коэффициентов корреляции, определите значимость коэффициентов. Сравните частные коэффициенты корреляции с соответствующими парными. Сделайте выводы относительно роли исключенной переменной в изменении степени тесноты статистической связи, характеризуемой этими коэффициентами корреляции.

Рассчитайте значение множественного коэффициента корреляции исследуемого признака с выбранными в п.2 признаками Определите коэффициент детерминации, проверьте его значимость.

Задание №2.

Тема « Регрессионный анализ»

1. Используя критерий Фишера, проверьте на уровне значимости а=0,05 значимость каждого уравнения регрессии из исходных данных для Вашего варианта. В значимых уравнениях рассчитайте значения t-статистик всех коэффициентов, используя значения выборочных средних квадратических отклонений, приведенных под каждым из коэффициентов. Перепишите уравнения регрессии, указывая под коэффициентами значения t-статистик.

По таблице распределения Стьюдента определите tq, - критическое значение t-статистики для каждого из уравнений на уровне значимости а=0,05. Проверьте значимость коэффициентов уравнения регрессии.

Выберите из предложенных уравнений наилучшее. Рассчитайте интервальные оценки его коэффициентов. Произведите анализ уравнения.

 

Задание 3.

Тема «Нелинейные регрессионные модели»

По представленным в таблице данным требуется найти оценки параметров нелинейных функций.

 

Задание 4.

Тема « Методы многомерной классификации объектов»

По представленным в таблице данным провести классификацию n = 4 предприятий по двум показателям. Классификацию провести по иерархическому агломеративному алгоритму, используя обычное евклидово расстояние. Расстояние между кластерами определять по принципу, указанному для каждого варианта.

 

6. Варианты заданий

Номер варианта определяется последней цифрой номера зачетной книжки

 

ВАРИАНТ 1

Задание 1,2.

Матрица парных коэффициентов корреляции по данным о 19 странах Африки из таблицы 1 ПРИЛОЖЕНИЯ.

Исследуемый признак (зависимая переменная) x2 - средняя продолжительность жизни женщин.

 

 

Х1

Х2

Х3

Х4

Х5

Хб

Х7

Х8

Х9

 

1

-0,783

-0,399

-0,744

0,121

-0,420

0,700

0,758

0,621

Х2

 

1

0,479

0,341

-0,043

0,565

-0,808

-0,943

-0,667

Х3

 

 

1

0,290

-0,152

0,437

-0,572

-0,542

-0,680

Х4

 

 

 

1

-0,295

0,421

-0,497

-0,326

-0,427

Х5

 

 

 

 

1

-0,486

0,561

-0,158

0,593

Хб

 

 

 

 

 

1

-0,763

-0,463

-0,641

Х7

 

 

 

 

 

 

1

0,708

0,907

Х8

 

 

 

 

 

 

 

1

0,592

Х9

 

 

 

 

 

 

 

 

1

 

Уравнения регрессии

 

y = 96,786 - 0,330xi - 0,242x4 ;

(8,443)    (0,053) (0,085)

 

y = 91,008 - 0,301x1 + 0,049x3 - 0,280x4+ 2,374x6 +0,170x9;

(i0,300)  (0,05i)    (0,075)    (0,072)   (0,953) (i,336)

 

y = 48,158 + 0,056x4 + 3,466x6 ;

(4,621) (0,101) (1,526)

 

y = 46,848 + 0,152x3 + 2,975x6 ;

(3,398)    (0,115) (2,975)

R2=0,744; F=23,193; R2=0,858; F=15,764;

R2=0,332; F=3,972;

R2=0,385; F=5,017.

 

Под значениями коэффициентов приведены их средние квадратические отклонения. По приведенным данным выполнить Задания№1 и №2.

 

Задание 3.

Зависимость объема производства y (тыс. ед) от численности занятых x (чел.) некоторой фирмы приводятся в таблице.

Классификацию провести по иерархическому агломеративному алгоритму с использованием обычного евклидова расстояния, а расстояние между кластерами определять по принципу «ближайшего соседа» и центра тяжести.

 

ВАРИАНТ 2

 

Задание 1, 2.

Матрица парных коэффициентов корреляции по данным о 17 странах Ближнего Востока и Средней Азии из таблицы 1 ПРИЛОЖЕНИЯ.

Исследуемый признак (зависимая переменная) x2 - средняя продолжительность жизни женщин.

 

X1

X2

X3

X4

X5

х6

X7

X8

X9

 

1

-0,909

-0,408

-0,563

-0,125

-0,656

0,549

0,717

0,437

X2

 

1

0,425

0,743

-0,055

0,518

-0,671

-0,600

-0,584

X3

 

 

1

0,130

0,229

0,389

-0,256

-0,294

-0,227

X4

 

 

 

1

-0,533

0,108

-0,667

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 |