Имя материала: Общая теория статистики

Автор: Елисеева Ирина Ильинична

8.4. вычисление и интерпретация параметров парной линейной корреляции

 

Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция.

Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

у = а + bх,                                                                                                        (8.4)

где   у - среднее значение результативного признака> при определенном значении факторного признака х;

а - свободный член уравнения;

b - коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения - вариация у, приходящаяся на единицу вариации х.

 

Что касается термина регрессия, его происхождение таково: создатели корреляционного анализа Ф. Гальтон (1822 - 1911) и К. Пирсон (1857 - 1936) интересовались связью между ростом отцов и их сыновей. Ф. Гальтон изучил более 200 семей и обнаружил, что в группе семей с высокорослыми отцами сыновья в среднем ниже ростом, чем их отцы, а в группе семей с низкорослыми отцами сыновья в среднем выше отцов. Таким образом, отклонение роста от средней в следующем поколении уменьшается -регрессирует. Причина в том, что на рост сыновей влияет не только рост отцов, но и рост матерей и много других факторов развития ребенка, и эти факторы, случайно направленные как в сторону увеличения, так и снижения роста, приближают рост сыновей к среднему росту. В целом же вариация роста, конечно, не уменьшается, а в наше время «акселерации» сам средний рост увеличивается из поколения в поколение.

Уравнение (8.4) определяется по данным о значениях признаков х и у в изучаемой совокупности, состоящей из п единиц. Параметры уравнения а и b находятся методом наименьших квадратов (МНК).

Исходное условие МНК для прямой линии имеет вид:

 

Для отыскания значений параметров а ч b, при которых f(a,b) принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем получаемые уравнения, которые называются нормальными уравнениями МНК для прямой:

Отсюда система нормальных уравнений имеет вид:

Нормальные уравнения МНК для прямой линии регрессии являются системой двух уравнений с двумя неизвестными а и b. Все остальные величины, входящие в систему, определяются по исходной информации. Таким образом, однозначно вычисляются при решении этой системы уравнений оба параметра уравнения линейной регрессии.

Если первое нормальное уравнение разделить на п, получим:

 

По уравнению (8.6) обычно на практике вычисляется свободный член уравнения регрессии а. Параметр b вычисляется по преобразованной формуле, которую можно вывести, решая систему нормальных уравнений относительно b:

.                                                                                       (8.7)

 

Так как знаменатель этого выражения есть не что иное, как дисперсия признака х, т. е. ст2^, то можно записать формулу коэффициента регрессии в виде:

                                                                                         (8-8)

Подставив в (8.8) выражение для s2x, получим:

          .                            (8.9)

 

Параметры уравнения регрессии можно вычислить через определители:

                                                                                              (8.10)

 

где D - определитель системы;

Da - частный определитель, получаемый в результате замены коэффициентов при а свободными членами из правой части системы уравнений;

Db - частный определитель, получаемый в результате замены коэффициентов при b свободными членами из правой части системы уравнений.

 

Формулы (8.10) соответствуют самому общему подходу к определению параметров уравнения регрессии и могут применяться в случае как парной, так и множественной регрессии.

Применение одной из формул (8.7), (8.8) или (8.9) зависит от характера данных и наличия уже вычисленных на предыдущих этапах анализа показателей. Если были вычислены x̅, y̅, sx, sy, то проще применить формулу (8.7) или (8.8). Если расчет параметров уравнения корреляционной связи ведется исходя из первичных данных хi, уi, то удобнее формула (8.9). Особенно существенно она сокращает объем вычислений при слабой вариации признаков, ибо тогда отклонения их индивидуальных значений от средних величин на порядок или два меньше самих индивидуальных и средних величин. Кроме того, формула (8.9) явно выражает указанную в п. 8.1 особенность корреляционного анализа связей: параметры корреляции зависят не от уровней признаков, а только от их отклонений от средних значений.

Если значение признака увеличить в 10 раз, корреляция не изменится, также не изменятся параметры корреляции, кроме свободного члена, если ко всем значениям каждого признака прибавить постоянное число.

Коэффициент парной линейной регрессии, обозначенный Ь, имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Он измеряет среднее по совокупности отклонение у от его средней величины при отклонении признака х от своей средней величины на принятую единицу измерения.

Например, по данным табл. 8.1 при отклонении затрат на 1 корову от средней величины на 1 руб. надой молока на корову отклоняется от своего среднего значения на 3,47 кг в среднем по совокупности. При отклонении фактора на х̅i - х̅ результативный признак отклоняется в среднем на у̅i - у̅.

Теснота парной линейной корреляционной связи, как и любой другой показатель, может быть измерена корреляционным отношением h. Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи - коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т. е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака:

 

.                (8.11

 

Коэффициент корреляции был предложен английским статистиком и философом Карлом Пирсоном (1857 - 1936). Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на rxy его среднего квадратического отклонения.

В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков.

Обычно считают связь сильной, если r ³. 0,7; средней тесноты, при 0,5 £ r £ 0,7; слабой при г < 0,5. Не следует, особенно работая с ЭВМ, гнаться за большим числом знаков коэффициента корреляции. Во-первых, исходная информация редко имеет более трех значащих точных цифр, во-вторых, оценка тесноты связи не требует более двух значащих цифр.

Квадрат коэффициента корреляции называется коэффициентом детерминации:

 

Эта формула понадобится при. анализе множественной корреляции. Умножив числитель и знаменатель (8.12) на   получим:

Это выражение соответствует выражению г2 (см. формулу (8.2)). Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины г2 как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации  (для линейной формулы связи) или квадрат корреляционного отношения. Но исторически раньше был введен коэффициент корреляции, который долгое время и рассматривался как основной показатель.

Аналогично разным «рабочим» формулам для вычисления коэффициента регрессии можно на основе исходной формулы (8.10) подучить разные «рабочие» формулы коэффициента корреляции.

Разделив числитель и знаменатель формулы (8.11) на п, получим:

 

.                                (8.14)

 

Эта формула соответствует формуле (8.8) для коэффициента регрессии.

2. Средние квадратические отклонения можно выразить через средние величины признака:

                          .        

 

Подставив эти выражения в (8.14), получим:

 

                          .                                                                            (8.15)

 

Эта формула (8.15) удобнее для расчетов, если средние величины признаков и средние квадраты индивидуальных величин вычислены ранее. Смысл же коэффициента корреляции раскрывается исходной формулой (8.11). В преобразованных формулах этот смысл не столь ясен.

Рассмотрим фактический пример анализа корреляционной парной линии связи по данным 16 сельхозпредприятий о затратах на 1 корову и о надое молока на корову. Ограниченный объем совокупности принят только в учебных целях, чтобы избежать приведения громоздких таблиц (табл. 8.1).

Средние значения признаков: x̅ = 1605 руб.; у̅ = 35,2 ц/голов.

Сопоставляя знаки отклонений признаков jc и у от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14 и только 2 пары несовпадающих знаков.

Таблица 8.1

Корреляция между затратами на корову и надоем молока

в среднем от коровы

 

Номера единиц сово-куп-ности

Затраты на 1 корову, руб./голов хi

Надой от 1 коровы,

ц, yi

 

 

xi - x̅

 

 

yi - y̅

 

 

 

(xi - x̅) ´

´ (yi - y̅)

 

 

(xi - x̅)2

 

 

(yi - y̅)2

Расчетные значения надоя, ц

i

1

1602

34,2

-3

-1,0

+3,0

9

1,00

35,1

2

1199

19,6

-406

-15,6

+6333,6

164836

243,36

21,1

3

1321

27,3

-283

-7,9

+2235,7

80089

62,41

25,3

4

1678

32,5

+73

-2,7

-197,1

5329

7,29

37,7

5

1600

33,2

-5

-2,0

+10,0

25

4,00

35,0

6

1355

31,8

-250

-3,4

+850,0

62500

11,56

26,5

7

1413

30,7

-192

^,5

+864,0

36864

20,25

28,5

8

1490

32,6

-115

-2,6

+299,0

13225

6,76

31,2

9

1616

26,7

+11

-8,5

-93,5

121

72,25

35,6

10

1693

42,4

+88

+7,2

+633,6

7744

51,84

38,2

11

1665

37,9

+60

+2,7

+162,0

3600

7,29

37,3

12

1666

36,6

+61

+1,4

+85,4

3721

1,96

37,3

13

1628

38,0

+23

+2,8

+64,4

529

7,84

36,0

14

1604

32,7

-1

-2,5

+2,5

1

6,25

35,2

15

2077

51,7

+472

+16,5

+7788

222784

272,25

51,6

16

2071

55,3

+466

+20,1

+9366,6

217156

404,01

51,4

S            25678

563,2

-

-

+28473,7

818533

1180,32

563,0

 

Немецкий психиатр Г. Т. Фехнер (1801 - 1887) предложил меру тесноты связи в виде отношения разности числа пар совпадающих и несовпадающих пар знаков к сумме этих чисел:

Конечно, коэффициент Фехнера - очень грубый показатель тесноты связи, не учитывающий величину отклонений признаков от средних значений, но он может служить некоторым ориентиром в оценке интенсивности связи. В данном случае он указывает на тесную связь признаков.

Вычислим на основе итоговой строки табл. 8.1 параметр парной линейной корреляции:

Он означает, что в среднем по изучаемой совокупности отклонение затрат на 1 корову от средней величины на 1 руб. приводило к отклонению с тем же знаком среднего надоя молока на 0,0347 ц, т. е. на 3,47 кг на корову. При нестрогой интерпретации говорят: «С увеличением затрат на корову на 1 руб. в среднем надой молока возрастал на 3,47 кг». Поскольку и до начала резкой инфляции стоимость 3,47 кг молока значительно превосходила рубль, увеличение затрат на корову было экономически целесообразным.

Свободный член уравнения регрессии вычислим по формуле (8.6):

а = 35,2 - 0,0347 • 1605 = - 20,49.

Уравнение регрессии в целом имеет вид:

Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признакам и близких значений. Можно рассчитать минимально возможную величину фактора х, при которой обеспечивается наименьшее значение признака у (разумеется, положительное).

- это наименьшая сумма затрат на 1 корову, при которых корова способна давать молоко. Если же область существования результативного признака^включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений.

Графическое изображение корреляционной связи по данным табл. 8.1. приведено на рис. 8.1.

Коэффициент корреляции, рассчитанный на основе табл. 8.1,

 

 

           

                          Рис. 8.1. Корреляция затрат на корову с продуктивностью    

 

 

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 |