Имя материала: Общая теория статистики

Автор: Елисеева Ирина Ильинична

7.12. основы дисперсионного анализа

 

Может быть поставлена задача сравнения двух выборочных дисперсий. Для ее решения применяется критерий, названный в честь английского статистика Рональда Фишера (1890 - 1968) F- критерием. Этот критерий представляет собой отношение выборочных дисперсий s21 и s22, которые рассматриваются как оценки одной и той же генеральной дисперсии s2:

                                          .

 

Испытуемая гипотеза является нулевой гипотезой Н0 : s21 = s22 = s2, альтернативная гипотеза Н1 : s21 ≠ s22 ≠ s2 .

F-критерий строится так, что в числителе стоит бо́льшая дисперсия. Fmin = 1, Fmax ® ¥ . Критические значения критерия F берутся из таблиц F-распределения. F-распределение зависит от уровня значимости и от числа степеней свободы сравниваемых дисперсий d.f.1 и d.f.2 (cм. приложение, табл. 3).

В дисперсионном анализе общая вариация подразделяется на составляющие и производится сравнение этих составляющих. Испытуемая гипотеза состоит в том, что если данные каждой группы представляют случайную выборку из нормально распределенной генеральной совокупности, то величины всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как оценку генеральной дисперсии.

Дисперсионный анализ часто применяется совместно с аналитической группировкой (см. гл. 6). В этом случае данные подразделяются на группы по значениям признака-фактора, вычисляются значения средних величин результативного признака в группах, считается, что различия в их значениях определяются различиями в значениях фактора. Задача состоит в оценке существенности различий между средними значениями результативного признака в группах. Итак, испытуемая гипотеза может быть записана как гипотеза о средних величинах Н0 : m1 = m2 =m3 =…   Как было показано в предыдущем параграфе, когда выделяются две группы, эта задача решается с помощью t-критерия. Если же число сравниваемых групп больше двух, то существенность различий между группами доказывается с помощью дисперсионного анализа, на основе F-критерия. Заметим, что результаты дисперсионного анализа, так же как и выводы о характере связи, значения показателей ее силы и тесноты, зависят от числа групп, выделенных по признаку-фактору.

В случае выделения групп по одному фактору мы имеем так называемый однофакторный дисперсионный комплекс. Разложение дисперсии при этом производится в соответствии с правилом сложения дисперсий (см. гл. б):

 

                          ,

 

где уij - значение результативного признака у i-й единицы в j-й группе;

i - номер единицы, i = 1, .... п.;

j - номер группы;

пj- численность у-й группы;

yj - средняя величина результативного признака в у-й группе;

у̅ — общая средняя результативного признака.

 

Если обозначить суммы квадратов отклонений буквой D, получим равенство:

Dобщ = Dфакт +Dост                                                                   (7.41)

 

На основе разложения дисперсии (7.41) в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степени свободы: на основе общей вариации, межгрупповой (факторной) и внутригрупповой (остаточной). Число степеней'свободы равно:

для общей вариации   

для межгрупповой вариации   ;

для внутригрупповой вариации   

Как и суммы квадратов отклонений, числа степеней свободы связаны между собой равенством:

                                         

или

п - 1 = (m - 1) + (п - т).                                       (7.42)

 

Деление сумм квадратов отклонений на соответствующее число степеней свободы дает три оценки генеральной дисперсии s2 .

                                          ,

 

                                          ,                                                                                           (7.43)

 

                                          .

 

Поскольку Dфакт измеряет вариацию результативного признака, связанную с изменением фактора, по которому произведена группировка, a Dост - вариацию, связанную с изменением всех прочих факторов, сравнение этих величин, рассчитанных на одну степень свободы, дает возможность оценить существенность влияния признака-фактора на результативный признак с помощью F-критерия:

                                          .    

 

Эта запись предполагает, что s2факт > s2ост. Как правило, мы получаем именно такое соотношение. Если F факт > Fтабл (a., d.f.1, d.f.2), можно утверждать, что нуль-гипотеза не соответствует фактическим данным, влияние признака-фактора является существенным или, иначе говоря, статистически значимым.

Рассмотренные этапы однофакторного дисперсионного анализа представлены в табл. 7.9.

Таблица 7.9

              Схема однофакторного дисперсионного анализа

 

Источник вариации

 

Сумма квадратов отклонений

D

 

Число степеней свободы

d.f.

Средний квадрат отклонений

s2=D:d.f.

F-критерий

 

Между группами

 

           

 

m-1

 

s21

 

 

      

Внутри групп

 

           

 

n-m

 

s22

Общая

 

           

 

n-1

 

s2

 

По данным табл. 6.6 проверим гипотезу Н0 : m 1= m2 ..., т. е. предположим, что оборачиваемость средств никак не влияет на прибыль.

 

Dфакт = 172,76,    d.f.факт =3-1=2,   s21 = 86,38;

Dост – Dобщ - Dфакт = 224,4 - 172.76 = 51,64;

d.f.ост = 20 - 3=17;  s22 = 3,03.

 

Тогда F = 28,5. Критическое значение F-критерия из табл. 3 приложения F(a=0,05, d.f.1=2, d.f.2=17) = 3,59. Таким образом Fфакт > Fкрит  следовательно, Н0 отклоняется. Действительно, скорость оборота средств является очень важным фактором формирования прибыли, на это указывало и значение эмпирического корреляционного отношения h = 0,881.

Рассмотрим двухфакторный дисперсионный анализ, основой проведения которого служит комбинационная группировка по двум факторам х и z, с последующим разложением дисперсии результативного признака у:

 

                                                                                                                                                   (7.44)

 

где     i - номер единицы в j-й группе по признаку х и k-й по признаку z;

j = 1̅,т̅,

k =I̅р̅, у̅jk - среднее значение признака у̅ в группе, образованной ком-бинацией j-го значения признака х и k-го значения признака z;

у̅j - среднее значение признака у в j-й группе по признаку х;

y̅k - среднее значение признака у в k-й группе по признаку z;

у̅ - общая средняя признака y в целом по выборке;

пjk - число единиц в группе, образованной комбинацией j-го значения признака х и k-го значения признака z;

пj - число единиц в j-й группе по признаку х,

пk - число единиц в k-й группе по признаку z;

т Р т р

п- общее число единиц,  

 

Равенство (7.44) можно записать так:

Dобщ = Dx + Dz + Dxz + Dост                                                       (7.45)

 

где Dч - вариация у под влиянием фактора x;

Dz - вариация у под влиянием фактора z;

Dxz - вариация у, обусловленная взаимодействием факторов х и z;

Dост - вариация у под влиянием прочих факторов.

 

Первые три слагаемые составляют вариацию признака у, вызванную изучаемыми факторами, поэтому равенство (7.45) можно записать в виде:

Dобщ = Dфакт +Dост                                                                    (7.46)

где

Dфакт = Dх + Dz + Dxz.                                                                                 (7.47)

 

Величина Dфакт может быть рассчитана не через составляющие, а непосредственно как

                                                                                                           (7.48)

 

Однако при неравенстве численностей подгрупп пjk и групп пj и пk равенство нарушается (за счет взвешивания при неравных весах).

Поэтому рассчитываются невзвешенные величины:

                                          ;

                                         

 ;                                                                                               (7.49)

 

                                          ;

 

                                           .

 

Затем на основе сравнения взвешенной (7.48) и невзвешенной величин факторной дисперсии находят поправочный коэффициент:

                                                                            (7.50)

 

Этот коэффициент используется для корректировки невзвешенных сумм квадратов отклонений  , на основе которых проводят расчет F-критериев:

                                            (7.50)

 

Число степеней свободы для каждой суммы квадратов отклонений составляет:

d.f.x=m- 1;  d.f.z = p - 1; d.f.xz = (m-1)(p -1) = mp - т - р + 1,

в целом

d.f.факт = d.f.x  + d.f.z + d.f.xz = mp-1;

         

                       (7.51)

 

В двухфакторном дисперсионном анализе испытуемые гипотезы формулируются следующим образом:

1. Н0 : m1∙ = m2. =…mm  

2. Н0 : m1∙ = m2. =…mp  

3. Н0 : m1∙ = m2. =…mmp  

 

Вся процедура двухфакторного дисперсионного анализа обобщается в табл. 7.10.

Таблица 7.10

      Схема двухфакторного дисперсионного анализа

 

Источник вариации

 

Сумма квадратов отклонений

D

 

Число степеней. свободы

d. f.

 

Средний квадрат отклонений s2 = D/d.f.

F-критерий

 

Факторы х и z

D¢факт∙K

mp - 1

s2факт 

 

Фактор х

D¢x∙K

m - 1

s2x

Фактор z

D¢z∙K

p - 1

s2z

Взаимодействие факторов х и z

(D¢факт- D¢x-

- D¢z)∙K

mp – p-m+1

s2xz

Остаточная

Dобщ - D¢факт∙K

n - mp

s2ост

 

Общая

Dобщ

n - 1

s2

 

 

Решение о первой гипотезе принимается на основе сравнения  

 с  .   

 

Если Fфакт > Fкрит,  то Н0 отклоняется.

 

Вторая гипотеза испытывается на основе сравнения

 c

 

Третья - на основе сравнения

 c

 

Во всех случаях, если  Fфакт > Fкрит,  Н0 отклоняется. На основе F-критерия принимаются решения о форме уравнения регрессии, о статистической значимости той или иной объясняющей переменной при построении многофакторного уравнения регрессии (см. гл. 8) и др.

Рассмотренные направления проверки статистических гипотез охватывают лишь важнейшие из них. Процедура испытания статистических гипотез применяется для определения того, случайно или нет полученное значение коэффициента корреляции, коэффициента вариации и т. д., случайны или нет различия в значениях показателей (медиан, коэффициентов корреляции, регрессии и т.д.) в разных совокупностях. Во всех случаях результатом является вероятностное суждение, которое составляет сущность анализа данных в разнообразных сферах: в медицине, биологии, технике, политике, спорте, экономике, психологии и социологии.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 |