Имя материала: Общая теория статистики

Автор: Елисеева Ирина Ильинична

8.15. измерение связи неколичественных признаков

 

Корреляционно-регрессионный метод применим только к количественным признакам. Однако задача измерения связи ставится перед статистикой и по отношению к таким признакам, как пол, образование, занятие, семейное состояние человека, отрасль, форма собственности предприятия, т. е. признакам, не имеющим количественного выражения.

Учеными разных стран за последние сто лет разработано несколько методов измерения связей таких признаков. Отметим прежде всего уже рассмотренный ранее коэффициент корреляции рангов Спирмена, применимый и к количественным, и неколичественным, но поддающимся ранжированию признакам. Так, например, можно при помощи одной группы экспертов проранжировать кандидатов на занятие какой-либо должности по степени профессиональной подготовленности, а другую группу экспертов просить проранжировать тех же кандидатов по личностным и этическим качествам, а затем измерить связь между рангами.

Важным частным случаем задачи является измерение связи при альтернативной вариации двух признаков, один из которых имеет характер причины, а другой - следствия. Например, при социологическом обследовании 1000 жителей города были поставлены два вопроса: 1. Считаете ли вы, что ваши доходы позволяют обеспечивать удовлетворение основных потребностей? 2. Удовлетворяет ли вас деятельность мэра города? Можно предположить, что причиной отрицательного ответа на второй вопрос у части населения является неудовлетворенность их потребностей доходами, т.е. имеется связь между ответами на оба вопроса. Для измерения этой связи составляют двухмерное (дихотомическое) распределение ответов 2х2, приведенное в табл. 8.15.

Таблица 8.15

Взаимосвязь между ответами на два вопроса социологического

обследования

 

 

Если бы все, ответившие «да» на 1-й вопрос, отвечали бы «да» на 2-й вопрос, и так же совпадали ответы «нет», то связь была бы предельно тесной, функциональной. Но на самим деле распределение ответов на оба вопроса не совпадает. Большая часть ответивших «да» на 1-й вопрос ответила «да» и на 2-й вопрос, но часть ответила «нет». То же относится к ответившим «да» на 2-й вопрос. Связь есть, но неполная, типа корреляционной, и нужно измерить тесноту этой связи.

К. Пирсон предложил показатель, названный коэффициентом ассоциации. В числителе этого относительного показателя разность произведения чисел с одинаковыми ответами на оба вопроса: да-да и нет-нет и произведения чисел с неодинаковыми ответами: да-нет И нет-да. В знаменателе коэффициента ассоциации - корень квадратный из произведения всех четырех частных итогов. В буквенных обозначениях по табл. 8.13 имеем:

 

                                                                                            (8.48)

 

         

 

Свойства коэффициента ассоциации такие же, как и у коэффициента корреляции: коэффициент ассоциации обращается в нуль, если оба произведения в числителе точно уравновешиваются (что крайне маловероятно); он равен плюсединице, если отсутствуют оба гетерогенных сочетания Аb и Ba; равен минус единице, если отсутствуют гомогенные сочетания ответов Аа и Bb.

Другой метод измерения связи по «четырехклеточной таблице» предложен английскими статистиками Эдни Дж. Юлом (1871-1951) и Морисом Дж. Кендэлом (1907). Числитель этого коэффициента, называемого коэффициентам контингенции, совпадает с числителем коэффициента ассоциации Пирсона, а в знаменателе - сумма тех же произведений, разность которых стоит в числителе:

 

Как видим, коэффициент Юла-Кендэла значительно выше, чем коэффициент Пирсона. Крупный недостаток данного коэффициента в том, что уже при равенстве нулю только одного из двух гетерогенных сочетаний - либо Аb, либо Bа коэффициент Юла - Кендэла обращается в единицу. Можно сказать, что этот показатель очень либерально оценивает тесноту связи, завышает ее.

Наконец, вполне возможно предложить показатель тесноты связи в форме отношения избытка суммы гомогенных сочетаний над их пропорциональной суммой к предельно возможному избытку.

Для этого необходимо вначале вычислить, каковы были бы пропорциональные числа гомогенных сочетаний Аа и Bb? Пропорциональные числа - это доли от общей численности совокупности «N», которые были бы получены при полном отсутствии взаимосвязи группировок по двум признакам (ответам на два вопроса), т. е. числа (SA·Sa:N) и (SB·Sb:N), составляющие по данным табл. 8.13:

            и 

 

При отсутствии связи на первой диагонали таблицы в сумме было бы 100 + 450 = 550 единиц совокупности, а на самом деле их 170 + 520 = 690. Избыток, образовавшийся ввиду прямой связи между ответами, составил 690—550 = 140.

Предельно возможный избыток был бы в том случае, если бы не было гетерогенных сочетаний, т. е. Аb и Bа. Он составляет 140+80 + 230 = 450. Сам же показатель тесноты связи - отношение фактического излишка к предельному: 140 : 450 =0,311. Как видим, этот показатель близок к коэффициенту ассоциации, но обладает чрезвычайно логичной и ясной интерпретацией: связь составляет 0,311 или 31,1\%, от предельно возможной функциональной. Этот показатель - аналог не коэффициента корреляции, а коэффициента детерминации. Поэтому правомерно обозначить его как R2 или η2 . Он имеет вид:

 

                                          ,                                                            (8.49)

 

где

         

 

Подставляя эти выражения в (8.49), получим:

 

           (8.50)*

 

При наличии не двух, а более возможных значений каждого из взаимосвязанных признаков также разработаны разные методы измерения тесноты связи.

Рассмотрим некоторые из этих мер на примере изучения влияния религиозной принадлежности на формирование супружеских пар. Воспользуемся данными ФРГ, где такой учет ведется постоянно. Статистический ежегодник Федеративной Республики Германии приводит распределение живорожденных младенцев по религиозной принадлежности отца и матери. При этом выделены 5 групп по религиозной принадлежности граждан: евангелическая (в России их чаще именуют протестантами); 2) римско-католическая; 3) прочие христиане (включая и православных); 4) других религий; 5) неверующие или не указавшие религиозную принадлежность (табл. 8.16).

 

Таблица 8.16

Распределение новорожденных в ФРГ по религиозной

принадлежности отца и матери в 1993 г.

(тыс. чел.)

 

 

В табл. 8.16 представлена «решетка» 5 ´ 5, и все ее клетки не пусты: встречаются детные браки между лицами любых вероисповеданий. Но при этом наибольшие числа располагаются вдоль «главной диагонали», т. е. явно преобладают случаи, когда и отец и мать

      

 

Таблица 8.17

Предельные значения коэффициента Пирсона

 

По данным табл. 8.16 имеем:

                                         

                     146,1+195,9+10,5+62,8+77,7=493,0 .

 

 

Таким образом, за счет предпочтения браков между лицами одинаковых религий на главную диагональ «собралось» 60,85\% возможных родительских пар сверх равномерного распределения: связь составила 60,85\% предельно тесной. Итак, все способы измерения показали, что влияние религии на формирование супружеских пар в ФРГ в 1993 году было значительное.

Если кроме количественных факторов при многофакторном регрессионном анализе включается и неколичественный, то применяют следующую методику: наличие неколичественного фактора у единиц совокупности обозначают единицей, его отсутствие -нулем. Если таких факторов, или градаций неколичественного фактора несколько, в уравнение регрессии вводятся несколько так называемых «фиктивных переменных», принимающих значения либо единицы, либо нуля. Например, пусть имеется три количественных фактора урожайности (x1, x2, x3) и три природных зоны. В ЭВМ вводятся переменные в порядке их принадлежности к той или иной зоне (табл. 8.18).

Линейное уравнение регрессии будет иметь вид:

ŷ = a +b1x1 + b2x2 + b3x3 + b4u1 + b5u2                                            (8.57)

 

Величина коэффициента b4 означает, что все единицы II зоны при тех же значениях количественных факторов, как и единицы I зоны, будут в среднем иметь значение у̂ на b4 больше (или меньше, если b4 < 0), чем единицы совокупности I зоны. Величина b5 озна-

 

Таблица 8.18

 

 

Рекомендуемая литература к главе 8

 

1. Антон Г. Анализ таблиц сопряженности / Пер. с англ. - М.: Финансы и статистика, 1982.

2. Елисеева И. И. Статистические методы измерения связей. -Л.: Изд-во Ленинградского ун-та, 1982.

3. Елисеева И. И., Рукавишников В. О. Логика прикладного статистического анализа. - М.: Финансы и статистика, 1982.

4. Крастинь О. П. Разработка и интерпретация моделей корреляционных связей в экономике. - Рига: Занатне, 1983.

5. Кулаичев А. П. Методы и средства анализа данных в среде Windows. Stadia 6.0 - М.: НПО Информатика и компьютеры, 1996.

6. Статистическое моделирование и прогнозирование: Учебное пособие / Под ред. А. Г. Гранберга. - М.: Финансы и статистика, 1990.

7. Ферстер Э., Речи Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов / Пер. с нем. - М.: Финансы и статистика, 1983.

8. Шураков В. В. и др. Автоматизированное рабочее место для статистической обработки данных. - М.: Финансы и статистика, 1990.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 |