Имя материала: Математика для социологов и экономистов

Автор: Азама́т Мухта́рович Ахтя́мов

15.5.  метод наименьших квадратов

В социально-экономических науках одной из важнейших задач является задача определения аналитических зависимостей между различными величинами. Получение соответствующих формул позволяет лучше понять ситуацию и спрогнозировать как она будет меняться в будущем.

Одним из наилучших способов получения таких формул — это метод наименьших квадратов.

Изложим идею этого способа.

Пусть мы хотим установить зависимость между двумя величинами х и у. Произведем соответствующие статистические исследования и занесем их результаты в таблицу:

 

XI

х2

х3

 

Xi

 

 

У

У2

Уз

 

Уг

 

Уп

Требуется наилучшим образом отразить общую тенденцию зависимости у от ж, исключив при этом случайные отклонения, связанные с неизбежными погрешностями статистических наблюдений. Такую зависимость стремятся представить в виде формулы у = f(x).

Формулы, служащие для аналитического представления опытных данных, получили название эмпирических формул.

Задача нахождения эмпирических формул разбивается на два этапа. На первом этапе нужно установить вид зависимости у = /(ж), т. е. решить является ли она линейной, квадратичной, логарифмической или какой-либо другой. Для выбора функции у = f(x) привлекаются соображения нематематического характера (теоретические предпосылки, соображения экспертов и т. п.), а также характер расположения точек (хі,уі) на плоскости.

Если вид функции у = f(x) установлен, то переходят ко второму этапу — определению неизвестных параметров этой функции. Например, для зависимости у = ах + b неизвестными параметрами являются а и Ь. В методе наименьших квадратов в качестве неизвестных параметров выбирают такие значения, чтобы сумма квадратов отклонений теоретических значений /(ж^),

Подпись: У і)
Подпись: t=l

Xi     х2     хз     ...     Xi      ... хп Рис. 15.4. Метод наименьших квадратов

найденных по эмпирической формуле у = f(x), от соответствующих опытных значений у і, т. е.

была минимальной.

Числа f(xi) — у і будем обозначать є і и называть погрешностями (рис. 15.4).

На языке погрешностей метод наименьших квадратов состоит в следующем: нужно подобрать неизвестные параметры так, чтобы сумма квадратов погрешностей была возможно меньшей. Если эта минимальная сумма квадратов окажется малой, тогда и сами погрешности будут малыми по абсолютной величине.

Следует отметить, что выбор в качестве отклонения S эмпирических точек (хі, у і) от точек кривой у = f(x) именно суммы квадратов погрешностей впервые предложил французский математик Лежандр. В принципе можно было взять в качестве S сумму погрешностей є і или сумму их абсолютных величин єі.

п

Но делать это нецелесообразно, так как в первом случае ^2 ег

может быть малой или даже равняться нулю при значительном разбросе эмпирических точек, так как положительные отклонения є і компенсируются отрицательными. Во втором случае

п

функция Yl \£г | лишена этого недостатка, однако имеет другой —

г=1

У

она не является дифференцируемой, что существенно затрудняет решение задачи.

Пусть в качестве функции у = f(x) взята линейная функция у = ах + Ь. Задача сводится к отысканию таких параметров а и 6, при которых функция

 

S = ^2(axi + b-y

t=l

принимает наименьшее значение. Заметим, что S можно рассматривать как функцию от двух неизвестных параметров а и Ь. Подберем коэффициенты а и b так, чтобы функция S получила возможно меньшее значение. Для этого необходимо, чтобы соблюдались условия

^ = 0        ^ = 0

да       ' дЬ

Отсюда

п п

^2 2(axi + Ь- Уі)Хі = 0,        ^2 2(ахг + Ь - Уі) = 0. t=l г=1

После алгебраических преобразований эта система принимает вид

/ п                   / п       п

2 хча + 2 хч6 = SХі уі'

Кі=1     /          і=1     / і=1

/ п      п

^2хі a + nb = ^уі

кі=і   і і=і

Эта система называется системой нормальных уравнений. Она имеет единственное решение, так как ее определитель

п          / п       2

 

г=1 г=1

(что можно доказать методом математической индукции при п ^ 2).

Убедимся, что найденные значения дают минимум функции S = S(a, b). Найдем частные производные

п п

 

t = l      1 = 1

Поскольку

п          / п       2

Д = АВ-С2 = п^х2і- >0

г=1      г=1 /

и

д = $>?>о,

г=1

то согласно достаточному условию экстремума функция S = = S(a, b) имеет единственную точку минимума, определяемую из системы нормальных уравнений. Причем эта точка является точкой глобального минимума, поскольку она является единственной критической точкой.

Линейная зависимость. Значительный интерес представляет дифференциация по возрастным группам населения. Зная различия состава потребления в зависимости от возраста, можно предвидеть изменения спроса на основании ожидаемых изменений в составе населения. Известно, например, что потребление молока больше в тех семьях, в составе которых имеется по нескольку детей, и меньше в тех, где детей нет. Требуется определить как зависит среднедушевое потребление в семье у от количества детей х (в \% ).

Чтобы получить представление об изменении у в зависимости от х были собраны статистические данные, результаты которых занесены в следующую таблицу.

 

Группы по

Число

Литров

проценту

детей

молока

детей

в \%

на душу

0

0

3,0

0 23

19

6,8

23-46

40

7,1

46-69

60

8,1

69-92

74

11,2

Всего

40

-

Теперь нужно найти формулу зависимости у от х. Как уже было отмечено выше, эта задача разбивается на два этапа. На первом этапе нужно установить вид зависимости у = f(x), а на втором — определить неизвестные параметры этой функции.

Первый этап. Величина у выражает среднее душевое потребление в семье, т. е. отношение общего числа литров потребляемого молока к числу членов семьи. Если число детей гл, а взрослых г>, среднее потребление молока для детей уи, а взрослых yv, то общее душевое потребление составит

_ uyu + vyv _ иуи       vyv  _ иуи      (у + и - u)yv

и + V   и + V      и + V       и + V       и + V

Или, если относительное число детей —-— обозначить х и выде-

и + V

лить слагаемое yVl то

У = (Уи ~Уу)х + Уу

Отсюда видно, что при данных уи и yv величина у представляет собой линейную функцию относительно числа детей. Это же подтверждается и графическим расположением точек (хі,уі).

Второй этап. Определим неизвестные параметры а и b линейной зависимости

у = ах + Ь.

Для этого вычислим все суммы ^2 xi Е^2) S Уі ^2ХУ-

 

X

У

х2

ху

0

3,0

0

0

19

6,8

361

129,2

40

7,1

1 600

284,0

60

9,8

3 600

528,0

74

11,2

5 476

828,8

193

36,6

11 037

11 770,0

 

Подставим эти значения в систему нормальных уравнений:

193а+ 56 = 36,9, 11037а + 1936 = 1770,0. Решив эту систему, получим:

 

а = 0,0964,       Ъ = 3,66.

Это дает

/(ж) = 0,0964ж + 3,66.

В частности, если х = 0 (детей нет), получаем показатель для взрослых 3,66. Если же х = 100 (нет взрослых), получаем показатель для детей

0,0964-100 + 3,66 = 13,30.

Линейная зависимость характерна также и для других случаев. Статистические исследования показывают, например, что реальный объем потребления у (в млрд долларов, 1982 г.) в США в период за 1931-1990 гг. зависел от численности населения в США х (120 < х < 250 млн чел.) линейно (причем, формула зависимости, найденная методом наименьших квадратов, имеет вид: у = —1817,3 + 16,7х). Объем частного потребления у (млрд долларов, 1982 г.) от располагаемого дохода х (млрд долларов, 1600 < х < 2900) в США в 1971-1990 гг. выражался зависимостью у = —217,6 + 1,007ж.

Гиперболическая зависимость. В ряде случаев теоретический анализ приводит к выводу нелинейной зависимости различных факторов. Рассмотрим, например, зависимость себестоимости единицы продукции у от объема производства этой продукции х. Себестоимость единицы продукции рассчитывается путем деления общей суммы затрат на объем произведенной продукции. Поэтому общая сумма затрат на производство равна произведению х у. В то же время затраты на производство (как уже отмечалось выше) можно условно подразделить на две части: 1) затраты, которые возрастают более или менее пропорционально увеличению объема произведенной продукции, — условно-переменные расходы (затраты на сырье и материалы, на топливо и электроэнергию для технологических целей, оплата труда основных производственных рабочих и т. п.); 2) затраты, либо совершенно не зависящие от объема продукции, либо зависящие от него в незначительной степени, — условно-постоянные расходы (оплата труда инженерно-технических работников и служащих, расходы на содержание зданий и сооружений и другие административно-управленческие и общехозяйственные расходы).

Обозначим переменные расходы в расчете на единицу продукции через а; тогда их общая сумма составит ах. Общую сумму условно-постоянных расходов обозначим Ь. Тогда общая себестоимость продукции составит: х у = ах + 6, откуда себестоимость

Ь

единицы продукции будет равна: а -—.

Поскольку b > 0, то зависимость себестоимости единицы продукции от объема является обратной: с увеличением х себестоимость снижается. Однако это снижение не является равномерным, так как по мере увеличения х снижение у постепенно замедляется.

В случае гиперболической зависимости у = f(x) = а Н— отклонение S эмпирических точек (хі, у і) от точек кривой у = f(x) заменяется выражением

 

1-Х

Подберем коэффициенты а и b так, чтобы функция S получила возможно меньшее значение. Для этого необходимо, чтобы соблюдались условия

^ = 0       ^ = 0

да     ' дь

Отсюда

п    ^    п          П        "   / 1 2       П 1

ап + 6Е- = 1>ь   аЕ- + 6Е(-) =Е-ет-

1-Х      i — X  i — X  1-Х 1-Х

Решение этой системы нормальных уравнений и определяет параметры а и Ь.

V Пример. Производство цемента х (в сотнях тонн) и расход электроэнергии уі (на 1 тонну цемента в год) за определенный период составили величины, приведенные в следующей таблице.

 

ж

У

1/х

1/х2

у/х

8,0

80

0,125

0,015625

10,000

10,0

72

0,100

0,010000

7,200

12,0

65

0,083

0,006889

5,416

13,5

70

0,074

0,005476

5,185

14,0

68

0,071

0,005041

5,857

 

355

0,453

0,043031

32,658

 

Найти гиперболу наилучшим образом отражающую эти данные.

Решение. Система нормальных уравнений имеет здесь следующий вид:

5 а + 0,453 b = 355,      0,453 а + 0,043031 b = 32,658, откуда

а = 48,5,       b = 249. Следовательно, уравнение искомой гиперболы есть

у = 48,5 + ^.

x

Введем обозначения: К — полные затраты электроэнергии, а — удельные затраты на производственные нужды (пропорциональные выпуску продукции), b — расходы на производственные нужды (постоянные). Имеем

К = а х + 6;

отсюда затраты на единицу продукции составляют:

К b у = — = а + -.

х х

Из приведенного уравнения следует, что производственные расходы на единицу продукции составляют 48,5, а непроизводственные нужды — 249 квт-ч/т. А

Параболическая зависимость. В некоторых случаях теоретический и логический анализ показывает, что неравномерное изменение результативного признака должно иметь иной характер. Так, при недостаточном количестве осадков урожайность будет, естественно, очень низкой, а по мере увеличения их количества урожайность будет повышаться. Однако это повышение не будет беспредельным, так как для каждой культуры в данных конкретных условиях есть какое-то оптимальное количество осадков, при котором достигается наиболее высокая урожайность. По мере того как количество осадков будет приближаться к оптимальной величине, рост урожайности будет постепенно замедляться и прекратится совсем при достижении этого оптимума. Дальнейшее увеличение количества осадков может привести к тому, что они окажутся излишними и вредными, в результате чего урожайность будет снижаться. Такого рода зависимость приближенно можно выразить уравнением параболы. Аналогичный характер связи можно ожидать и в ряде других случаев, например для зависимости уровня производительности труда рабочего от его возраста.

Пусть функция

у = ао + а х + а2 х2

и есть та парабола, которая отражает зависимость у от х. Естественно искать коэффициенты ао, а и а2 такие, чтобы сумма квадратов погрешностей

п

S = ^2(а0 + аі Хі + а2 х2 - уі)2

t=l

была минимальной. Дифференцируя эту сумму по очереди по переменным ао, а и а2 и приравнивая к нулю частные производные, получаем:

п

^2 2 (ао + «і хі + а2 х2 - у і) • 1 = 0,

п

^ 2 (а0 + ах хі + а2х2 - уі) • х = 0,

t=l п

^ 2 (а0 + ах хі + а2х2 - у і) • х2 = 0.

г=1

Отсюда окончательно получаем систему нормальных уравнений для параболы:

Мы привели системы нормальных уравнений только для трех видов зависимостей. В некоторых случаях теоретический анализ дает основания предполагать другие зависимости. Параметры этих зависимостей также могут быть найдены с помощью метода наименьших квадратов.

15.6.  Компьютерное вычисление экстремумов

и поиск параметров сглаживающей функции

Для исследования на экстремум функций как одной, так и многих переменных используется команда

extrema(expr,constr,vars,nv),

где expr — выражение, экстремумы которого нужно найти, constr — ограничения, vars — переменные, по которым разыскивается экстремум, nv — имя переменной, которой будут присвоены координаты точек экстремумов. Перед обращением к функции extrema ее необходимо вызвать из стандартной библиотеки командой readlib. Приведем соответствующие примеры.

V Пример 1. Найти с помощью пакета Maple экстремум функции

z = 2 Xs + х у2 + 5 х2 + у2 + 1 (см. пример 2 на с. 309). Решение. >readlib(extrema):

>extrema(2*x~3 +х*у~2 +5*х~2 + у~2+1,{},{х,у},>z5); z;

 

If'1}

Подпись: {

{ж = 0, у = 0},

 

{х=-Ьу=0}>

{х = -1,у = 2}, {х = -1, У = -2}|.

Сначала машина выводит значения экстремумов, а затем стационарные точки. А

V Пример 2. Найти экстремум функции z = 15, 63 • ж0'372 • (2 - ж)0'158

(см. с. 341 в параграфе «Повышение урожайности» следующей главы, где рассмотрено приложение этой задачи).

Решение.

>readlib(extrema):

>extrema(15.63*x'4{0.372}*(2-x)'4{0.158},{},x, 'z'); z;

 

{16.34061640}

{{x = 1.403773585}}. Последняя запись означает: zextr « ^(1,4) « 16,3. А

V         Пример 3. Найти экстремум функции

z = Xі + 6х -2у + 1 при условии, что переменные х и у связаны уравнением

х2 + у - 4 = 0

(см. пример на с. 320). Решение. >readlib(extrema):

>extrema(x~2+6*x-2, у+1,{х~2+у-4=0},{х,у},>z5); z;

 

{-10}

{{у = 3,х = -!}}.

Ответ совпадает с найденным без помощи компьютера. А

Для обработки опытных и статистических данных в Maple имеется пакет stats. Он содержит в себе команду leastsquare, которая позволяет определять параметры различных зависимостей с помощью метода наименьших квадратов. Приведем применения этой команды.

V         Пример 4. Найти методом наименьших квадратов формулу линейной зависимости у от х:

у = а • х + 6,

если известны пять значений переменной х и соответствующие им значения переменной у (см. с. 325):

х = 0, 19, 40, 60, 74,      у = 3, 6,8, 7,1, 9,8, 11,2.

Решение. Вначале подгружается пакет stats: >with(stats):

>fit[leastsquare[[x,у],y=a*x+b,{a,b}]] ([[0,19,40,60,74], [3,6.8,7.1,9.8,11.2]]);

у = 0,10232 x + 3,6303.

Объясним, как была найдена аналитическая зависимость. Вначале был подгружен пакет stats, затем была введена команда least square (метод наименьших квадратов) из подбиблиотеки fit, содержащей эту команду, введены переменные, формула зависимости. После в фигурных скобках написаны обозначения параметров, которые требуется найти, далее в квадратных скобках вводятся эмпирические значения переменных х и у.

Ответ у = 0,10232 ж + 3,6303, полученный компьютером несколько отличается от зависимости у = 0,0964 ж + 3,66, найденной без помощи компьютера. Связано это с ошибками ручного счета, накапливаемых при округлениях и недостаточно большим набором эмпирических данных. А

V Пример 5. Найти методом наименьших квадратов формулу гиперболической зависимости у от х:

у = а + Ь/х,

если известны пять значений переменной х и соответствующие им значения переменной у (см. с. 328):

х = 8, 10, 12, 13,5, 14,      у = 80, 72, 65, 70, 68.

 

Решение.

>with(stats):

>fit[leastsquare[[x,y],y=a+b/x,{a,b}]]

([[8,10,12,13.5,14], [80,72,65,70,68]]);

_ „ „ _ _ 221,94

у = 50,855 +    —.

x

Заметим, что ответ, полученный компьютером, несколько отли-

249

чается от зависимости у = 48,5 ж Н            , найденной без помощи

x

компьютера. А

V         Пример 6. Найти методом наименьших квадратов формулу параболической зависимости у от х:

у = ах2 + Ьх + с,

если известны четыре значений переменной х и соответствующие им значения переменной у:

х = Ю, 15, 17, 20,      у = 3, 4, 5, 6.

 

Решение.

>with(stats):

>fit [leastsquare[[х,у],y=a+b/x,{a,b}]]

([[10,15,17,20],[3,4,5,6]]);

41    2     367 794

у =       x          x H      . А

у     2810        2810 281

Заметим, что коэффициент при х2 мал, поскольку эта зависимость отличается от линейной незначительно. А

Пакет позволяет находить аналитические зависимости не только между двумя переменными, но и между тремя, четырьмя и большим числом переменных. Рассмотрим соответствующие примеры.

V         Пример 7. Найти методом наименьших квадратов формулу линейной зависимости z от х и у:

z = ах + by + с,

если известны четыре значений переменной ж, четыре значений переменной у и соответствующие им значения переменной z:

х = 1,2, 3, 5,       у = 2, 4, 6, 8,       z — 3, 5, 7, 10.

 

Решение.

>with(stats):

>fit [leastsquare [[x,y,z],y=a*x+b*y+c,{a,b,c}]]

([[1,2,3,5],[2,4,6,8],[3,5,7,10]]);

1

z = x + -у + 1. A

Если некоторые эмпирические данные повторяются, то это должно учитываться при поиске зависимости. Эмпирические данные следующего примера мало отличаются от данных примера 7, но среди них есть повторяющиеся. Поэтому параметры линейной зависимости а, 6, с будут отличаться от параметров примера 7.

V Пример 8. Найти методом наименьших квадратов формулу линейной зависимости z от х и у:

z = а х + by + с,

если известны значения переменных х и у и соответствующие им значения переменной z:

х — 1, 2, 3, 5, 5, 5,

у = 2, 4, 6, 8, 8, 8,

z = 3, 5, 7, 10, 15, 15.

Решение. >with(stats):

>fit[leastsquare[[х,у,z],y=a*x+b*y+c,{a,b,c}]] ([[1,2,3,5,5,5], [2,4,6,8,8,8], [3,5,7,10,15,15]]);

z = —- x — - 7/ + 1 . A

 

С помощью пакета можно находить не только линейные, параболические и гиперболические, но и любые другие аналитические зависимости (экспоненциальные, логарифмические, степенные и т. п.). Нужно лишь после команды least square поставить соответствующую формулу.

С помощью пакета stats можно также построить графики теоретических зависимостей с указанием точек, соответствующих эмпирическим данным, а также изображать данные в виде гистограмм, вычислять средние и т. д.

 

Математики — своего рода французы: когда говоришь с ними, они переводят твои слова на свой язык, и вот сразу получается нечто совершенно

иное.

И. Гете

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 |