Имя материала: Общая теория статистики

Автор: Елисеева Ирина Ильинична

8.7. вычисление параметров парной линейной корреляции на основе аналитической группировки

 

В главе 6 рассмотрен метод аналитической группировки, позволяющий установить наличие, вид и форму связи признаков. Но группировка не дает меры тесноты связи и уравнения регрессии. Теперь, пользуясь методикой корреляционно-регрессионного анализа, можно дополнить аналитическую группировку вычислением этих мер связи.

Возьмем в качестве примера приведенную в главе 6 группировку и рассчитаем необходимые показатели (см. табл. 8.2).

Таблица 8.2

Расчет корреляции по аналитической группировке

 

Группа предприятий по оборачваемости в днях

Число предприятий    fj

Среднее число дней  x'j

Средняя прибыль, млн руб.

                     y̅j

         y̅j - y̅

         (y̅j - y̅)2

         x' - x̅

    (x'j - x̅) ´ (y̅j - y̅) fj

     (x'j - x̅)2fj  

     ỹxj

    ( ỹxj - y̅)2 fj

А

1

2

3

4

5

6

7

8

9

10

40-50

6

45

14,57

2,80

47,04

-18

-302,4

1944

15,06

64,94

51 -70

8

60

12,95

1,18

11,14

-3

-28,0

72

12,36

2,78

71 - 101

6

86

7,40

-4,37

114,58

+23

-603,0

3174

7,69

99,88

Итого

20

63

11,77

-

172,76

-

-933,4

5190

11,77

167,60

 

Коэффициент линейной регрессии

 

                           ,

 

свободный член уравнения регрессии

а = у̅ - bх̅ = 11,77 - (-0,18·63) = 23,15.

Итак, имеем уравнение связи: у̃ = 23,15 - 0,18х. Вычислим по этому уравнению расчетные значения прибыли у̃i для каждой группы. Подставив в уравнение середины интервалов групп х̅', запишем у̃i в графу 9 табл. 8.2. Вариация расчетных значений прибыли связана с влиянием оборачиваемости х. Найдем сумму квадратов отклонений прибыли за счет вариации оборачиваемости - факторную вариацию (графа 10 табл. 8.2). Для расчета общей вариации результативного признака была вычислена сумма квадратов отклонений по индивидуальным данным:

                                           .

Эта сумма квадратов - общая вариация объема прибыли - равна 222,4. Теперь можем построить меры тесноты связи:

теоретическое корреляционное отношение

 

         

 

эмпирическое корреляционное отношение (рассчитанное в гл. б)

 

                                          .

 

Оба квадрата корреляционных отношений соответствуют по содержанию ранее рассмотренному коэффициенту детерминации (8.1) и (8.2) и интерпретируются как Показатели доли вариации результативного признака, объясняемой за счет вариации группировочного, факторного признака (и, конечно, связанных с ним прочих факторов). В данном примере связь является тесной. Различие в том, что в эмпирическом корреляционном отношении связь признаков не абстрагирована от случайных влияний прочих факторов на вариацию у, не связанных с вариацией х.

Наиболее рациональным приемом анализа и расчета параметров корреляционной связи с помощью группировки является построение так называемой «корреляционной решетки» (табл. 8.3). Это таблица, в которой изучаемая совокупность сгруппирована одновременно по обоим признакам, связь между которыми изучается (двумерное распределение). Число групп по признакам может быть как равным, так и неравным. Если наибольшие числа частот каждой строки и каждого столбца располагаются на первой диагонали (в табл. 8.3 эти цифры подчеркнуты), связь является прямой и близкой к линейной; если наибольшие числа частот располагаются вдоль второй диагонали (в табл. 8.3 эти цифры также подчеркнуты), связь обратная, линейная. Если частоты во всех клетках таблицы примерно равны, связи нет; если наибольшие числа расположены по дуге, связь криволинейная. В табл. 8.3 кроме частот приведены строки и графы для расчета необходимых сумм при вычислении параметров корреляционной связи.

 

В табл. 8.3 наибольшие частоты в строках и графах расположены вдоль первой диагонали, что говорит в соответствии с логикой о прямой линейной связи возрастов женихов и невест. Связь эта далеко не полная; как видим, «любви все возрасты покорны», все клетки таблицы заполнены, значит, существуют браки между лицами любых возрастов.

Как средние величины признаков, так и все суммы, входящие в расчет параметров корреляции, при группировке взвешиваются на соответствующие частоты, поэтому формулы (8.9) и (8.11) приобретают следующий вид:

                          ,                                                                          (8.22)

 

          ,                                                                      (8.23)

                         

где x'i, yj. - середины интервалов i-й категории х и j-й категории y;

fi - частота i-го значения х;

fj - частота j-го значения у;

fij - частота совместного появления i-го значения х и j-гo значения у (это числа в клетках «корреляционной решетки»).

 

Взвешенные суммы квадратов отклонений подсчитаны и приведены в последней графе и в последней строке табл. 8.3. Для вычисления числителя в (8.22) и (8.23) необходимо умножить отклонения по обоим признакам (с учетом их знаков) на частоты совместного распределения и сложить все 25 произведений:

(-9).(-9,2)·18212 +1·(-9,2)·1914 + ... + 33·31,8·1701 = 5196031,6.

Это число записано в правом нижнем углу табл. 8.3. Рассчитаем параметры уравнения регрессии. Согласно (8.22)

                                         

Это означает, что в среднем с увеличением возраста женихов на 1 год возраст их невест возрастал на 0,83 года. Свободный член уравнения согласно (8.6)

a = 29,0 - 0,83·31,2 = 3,1.

Уравнение имеет вид:

у̂ = 3,1 + 0,83·х.

Так как оба признака равноправны, то можно получить уравнение зависимости среднего возраста жениха от возраста невесты. Поменяв местами х и у, получаем:

 

=0,859; а = 31,2 - 0,859·29 = 6,3; х̂ = 6,3 + 0,859у.

 

Коэффициент корреляции согласно формуле (8.23) составляет:

                         

 

Коэффициент детерминации r2 = 71,3\%, т. е. вариация возраста супруга или супруги на 71\% зависит от вариации возраста «второй половины». Связь весьма тесная.

Конечно, расчет параметров корреляции на основе группировки является приближенным: реальные значения признаков заменяются серединами интервалов, а при открытых интервалах - их экспертными оценками. Не учитывается неравномерность изменения частот внутри интервалов. Казалось бы, с появлением программ для ЭВМ этот метод должен отмереть. Однако для больших совокупностей в десятки и сотни тысяч единиц большинство программ ввиду ограничений на объем оперативной памяти непригодно. Да и сам процесс занесения в память ЭВМ сотни тысяч чисел занял бы столь громадное время, что, выигрыш во времени расчета на ЭВМ был бы многократно превышен. Таким образом, иногда трудоемкость расчета с помощью группировки и простого калькулятора оказывается намного меньше, чем на ЭВМ, а степень точности достаточна для большинства задач анализа связи.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 |