Имя материала: Оптимальное управление в экономике: теория и приложения

Автор: Лагоша Борис Александрович

9.5. сравнительный анализ методов

Лагранжа-Понтрягина и Гамильтона-Якоби-Беллмана

 

В процессе изучения курса ТОУ читатель, вероятно, заметил, что для практики наиболее важными могут быть два метода: Лагранжа-Понтрягина и Гамильтона-Якоби-Беллмана (другое название — метод динамического программирования). Поэтому в завершение проанализируем их особенности и проведем сравнительный анализ условий применения.

Метод Лангранжа-Понтрягина сводит задачу оптимального управления к краевой задаче для системы обыкновенных дифференциальных (для непрерывных процессов) или рекуррентных уравнений (для многошаговых процессов) порядка 2 п, тогда как метод Гамильтона—Якоби—Беллмана ставит в соответствие задачу Коши для уравнений в частных производных (для непрерывных процессов) или рекуррентного функционального уравнения относительно функции ф(/,х) от п + 1 переменных. В этом отношении метод Гамильтона — Якоби — Беллмана значительно сложнее.

Метод Лагранжа-Понтрягина позволяет отыскать оптимальную программу управления u*(t) и оптимальный вектор состояния системы x*(f), отвечающие заданным граничным условиям.

Метод Гамильтона-Якоби-Беллмана обеспечивает решение в форме синтеза u*(t, х) семейства оптимизационных задач с любыми начальными условиями, т.е. отвечает более общей задаче, эквивалентной семейству задач, реализуемых методом Лаг-ранжа-Понтрягина.

Процесс (x*(t), w*(0), найденный методом Лагранжа-Пон-трягина, в общем случае удовлетворяет только необходимым условиям оптимальности, будучи или не будучи оптимальным в действительности. Доказательство оптимальности требует дополнительных исследований.

Синтез оптимальных управлений и*(г, х) позволяет отыскать оптимальный процесс (x*(t), u*(t)), путем решения задачи Коши для системы п обыкновенных дифференциальных уравнений при заданном начальном условии (в векторной форме) х* (0) = х0. Вопрос об оптимуме решения при этом не возникает, потому что весь вычислительный процесс адекватен теореме о достаточных условиях оптимальности.

Метод Гамильтона—Якоби—Беллмана применим только к задаче без ограничений на состояние при t > /0, в том числе и при t= Т. Впрочем, «освобождение» правого конца траектории x(t) возможно с помощью «Л/-метода» {см. разд. 9.4). Метод Лаг-ранжа—Понтрягина не требует отсутствия ограничений на состояние при t = 71

Метод Лагранжа-Понтрягина более прост и поэтому более привлекателен для практики. В нем самое сложное — это максимизация функции Гамильтона по управлению (отсюда и название «принцип максимума»). Это же действие выполняется и в методе Гамильтона-Якоби-Беллмана, после чего предстоит решить значительно более сложное уравнение Беллмана.

Общий вывод: метод Гамильтона—Якоби—Беллмана значительно сложнее, но полученное при этом решение дает больше информации, за что, как известно, нужно платить сложностью расчетов.

 

Задачи для самостоятельной работы

В следующих задачах построить синтез оптимальных управлений, пользуясь методом Гамильтона-Якоби-Беллмана.

т

9.1.   J2u2dt + x2(T)->min-о

dx

— = и. dt

т

J u2dt + 4x2 (П->тіп; о

dx

= x- 2u. dt

T

J (jc2 + u2)dt + jc, (Г) - л:2(Г) -> min; 0

 

             = w.

dt

T

Jm2^ + cjc2(7) -> min; 0

і і

= а + шг, я, b, с -const.

dt

Методом Гамильтона—Якоби—Беллмана найти оптимальные процессы:

^[2x(t) + u 2(0]->min; r=0

x(t + l) = x(t) + 2u(t) *(0) = 2;|и|</ + 1.

3

X [x(0 - n(0] -*(4) -> min; /=0

jc(/ + 1) = «(/); I w(0 <1;jc(0) = 1.

 

з

X WO + "(01 + *(4) -> min;

t=0

x(t + l) = x(t)-u(t) x(0) = 0.

Краткий словарь терминов

 

Абсцисса - значение некоторого показателя, измеряемое по горизонтальной оси системы координат.

Вектор состояний управляемой системы — вектор переменных (обозначается обычно х), компоненты которого входят в состав уравнений процесса как сами по себе, так и со своими производными (для непрерывных процессов) или в моменты времени / + 1 и t (для дискретных процессов).

Вектор-функция — вектор, каждая компонента которого является функцией своих аргументов.

Градиент (grad) — направление наиболее быстрого возрастания

функции. Если имеем функцию/(х,, x2,...,xj, то grad/- вектор с

1-М

компонентами  ^ ' * -

Двухточечная краевая задача — решение системы обыкновенных дифференциальных уравнений, при котором часть условий задана в начальный момент времени, а другая часть — обычно в конечный момент (возможно и в другой).

Динамическое программирование — один из разделов теории оптимального управления, связанный с решением уравнения Беллмана. Для непрерывных процессов это нелинейное дифференциальное уравнение в частных производных. Для дискретных (многошаговых) процессов - конечно-разностное функциональное уравнение.

Дискретные (многошаговые) процессы - процессы, в которых аргумент t (обычно время) изменяется с заданным шагом, например t, t + 1, t + 2 и т.д.

Достаточные условия оптимальности — совокупность теорем В.Ф. Кротова, определяющих признак оптимальности для непрерывных и дискретных (многошаговых) управляемых процессов.

Задача Коши — решение системы обыкновенных дифференциальных уравнений первого порядка с заданными начальными условиями.

Индикатриса — форма зависимости целевой функции от вектора управления (линейная, нелинейная, выпуклая, логическая и др.).

Инфинум (обозначается inf) - точная нижняя граница изменения функции, такое значение, которого функция на заданном множестве не достигает, но стремится к нему, оставаясь больше него.

Коэффициенты эластичности производственной функции по факторам — отношение предельной эффективности ПФ по данному фактору к средней эффективности.

Метод Лагранжа — один из разделов теории оптимального управления, обеспечивающий необходимые условия оптимальности для дискретных (многошаговых) процессов.

Необходимые условия оптимальности — условия, при невыполнении которых управляемый процесс неоптимальный, при выполнении — может быть оптимальным, а может и не быть.

Непрерывные процессы — процессы, в которых аргумент / (обычно время) изменяется непрерывно в заданном интервале te [г0; Т.

Ограничения — совокупность условий, выраженных в форме математических отношений, образующих множество допустимых значений искомых состояния и управления системы.

Ордината — значение некоторого показателя, измеряемое по вертикальной оси системы координат.

Подынтегральное выражение — функция/(/, х, и), стоящая под знаком интеграла в функционале непрерывного управляемого процесса.

Принцип максимума Понтрягина — один из разделов теории оптимального управления, обеспечивающий необходимые условия оптимальности для непрерывных процессов.

Программа управления u(t) — функция управления в момент времени / при фиксированном состоянии системы х (t).

Производственная функция (ПФ) — функция, устанавливающая связи между выпуском продукции (оказанием услуг) и затрачиваемыми производственными факторами или ресурсами (чаще всего учитываются живой труд и капитал). На практике наиболее распространена ПФ Кобба—Дугласа, в основном используется в макроэкономике.

Проекция множества Vhsl множество ^(обозначается Vx) — множество всех таких значений х є Vx, для каждого из которых существует хотя бы одно значение управления и, так что пара (х, и) є V.

Сечение множества V множеством U при заданном состоянии системы X— множество всех значений управления и (обозначается Vй), которые при заданном состоянии системы х принадлежат V: (х, и) є V,ue Vй.

Синтез оптимальных управлений — функция управления и (t, х) в методе динамического программирования, задающая совокупность

всех допустимых управлений u(t) в момент времени / при текущем состоянии системы X.

Супремум (обозначается sup) — точная верхняя граница, такое значение, которого функция на заданном множестве не достигает, но стремится к нему, оставаясь меньше него.

Терминальный член — слагаемое в функционале, отражающее эффективность управляемой системы в конечный момент времени t = Т.

Точка разрыва функции первого рода — случай, когда в некоторой точке предел значения функции слева не равен пределу ее значения справа и оба предела конечны. При равенстве этих пределов функция в заданной точке непрерывна.

Уравнения процесса — совокупность условий, входящих в состав ограничений в виде системы обыкновенных дифференциальных уравнений для непрерывных систем или конечно-разностных ограничений — для дискретных систем.

Условие трансверсальности — специальное ограничение, используемое в принципе максимума (методе Лагранжа) при отсутствии связей в управляемой системе в конечный момент времени t = 71

Функционал (то же, что целевая функция) — отображение множества аргументов на числовую ось, частный случай функции.

Функция — отображение множества аргументов на множество значений: числа, векторы, матрицы, логические переменные и т.д.

Функция Гамильтона (то же, что гамильтониан) — одна из основных функций в теории оптимального управления, максимизация которой по управлению определяет синтез оптимальных управлений в теории динамического программирования.

Функция под знаком суммы — аналог подынтегрального выражения в дискретных (многошаговых) управляемых процессах.

Функция полезности — математическое выражение для оценки эффективности потребления при различных его значениях.

Рекомендуемая литература

Болтянский В.Г. Оптимальное управление дискретными системами /В.Г. Болтянский - М.: Наука, 1973.

Вагнер Г. Основы исследования операций. В 3-х т. /Г. Вагнер — М. : Мир, т.1 - 1972; т.2 - 1973.

Васильков Ю.В. Компьютерные технологии вычислений в математическом моделировании /Ю.В. Васильков, Н.Н. Василькова. - М. : Финансы и статистика, 2000.

Иванилов Ю.П. Математические модели в экономике / Ю.П. Иванилов, А.В. Лотов. - М.: Наука, 1979.

Кротов В.Ф. Методы и задачи оптимального управления / В.Ф. Кротов, В.И. Гурман. - М.: Наука, 1973.

Курицкий Б. Поиск оптимальных решений средствами Excel 7.0 /Б. Курицкий. - BHV - СПб., 1997.

Лагоша Б.А. Оптимальное управление в экономике /Б.А. Ла-гоша. — М. : Финансы и статистика, 2003.

Лагоша Б.А. Методы и задачи оптимального управления: учеб. пособие /Б.А. Лагоша, Т.Д. Дегтярева. - М. : МЭСИ, 2000.

Математическая теория оптимальных процессов /Л.С. Понт-рягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. - М. : Наука, 1976.

 

Моделирование рисковых ситуаций в экономике и бизнесе /A.M. Дубров, Б.А. Лагоша. Е.Ю. Хрусталев, Т.П. Барановская; под общ. ред. Б.А. Лагоши. — 2-е изд., перераб. и доп. — М.: Финансы и статистика. 2001.

Тарасевич Л.С. Макроэкономика: учебник /Л.С. Тарасевич, П.И. Гребенников, А.И. Леусский. — М. : Юрайт, 2003.

Основы теории оптимального управления /В. Ф. Кротов, Б.А. Лагоша, СМ. Лобанов и др.; под общ. ред. В.Ф. Кротова. -М. : Высшая школа, 1990.

Приложения

 

1. Варианты заданий для курсовых работ

1. Построить календарный план оптимальной поставки продукции в дискретном варианте численным методом (см. пример 8.2) при следующих исходных данных:

 

Т= 5, х0 = 2, я, = 2, Ьх = 4, а2 = 4, Ь2 = 3.

Точность расчетов оценивается исходя из условий |х*(0) — х0| < < е. Значения функции r(f) приведены в следующей таблице (п — последняя цифра номера зачетной книжки):

 

 

0

1

2

3

4

5

r(t)

п + 0

п + 2

п + 3

п + 5

п + 4

л 4- 6

 

2. По аналогии с примером 8.3 построить оптимальный план поставки продукции в непрерывном времени, пользуясь методом Эйлера или другим по выбору решающего (например, методом Рун-ге-Кутта) при следующих исходных данных:

Т= 3, xQ =1, а{ = 2, вх =5, а2= в2 = 3.

Значения функции r(t) приведены в следующей таблице (п — последняя цифра номера зачетной книжки):

 

 

0

1

2

3

ко

п + 1,5

п + 3

п + 2,5

п + 2

 

Шаг численного интегрирования принять равным Д/ = 0,01, оценка точности є = 0,05, |х*(0) - х0| < е.

Примечание. Рекомендуется использовать ЭВМ, реализуя один из пакетов численного интегрирования систем дифференциальных уравнений (по выбору решающего).

2. Ответы к задачам для самостоятельной работы Глава 1

1.1. x*(0 = argmax/(x,O=P're[~2;"I)u(0;2];

[0,гє[-1;0].

 

1.2. J>c*(/) = argmax/('A:;/y)

-7,/є[0,1;1)и(2;3];

(/-!)(/-2)

,'є[1;2].

 

 

1.3.  х * (t) = argmax f(x,t) =

3-/,/є[ОЛ]и[2;31; 0,f є [3;4];

р*є(і;2).

 

 

1.4. **(/) = argmaxf(x,t) =

И,/є[-2;0)и[4;5];

0,/є[0;4);

2,>є(-5;-2).

 

 

1.5. x *(t) = argmax f(x,t) =

-Ve [-5;-3)u(l;5]; 0,ґє 1; f,fe[-3;l).

 

 

 

1.6 x * (Г) = arg max/(Ос, 7,) =

-=-!—,/є (l;3]; Г + 0,5

--г-1— ,'є[0;1); Ґ + 0,5

0,f = 1.

 

1.8.  х * (t) = (1 + ґ)е(1"').

1.9.  x*(t) =

nn.

 

1.10. **(/) = l + e

-r

 

1.11.  х*(ґ) =

V    5, 5

            t + -

2    4 4

V e  + -/--, 4 4

1.12.  **(/) =

/ 1

- + -2 4

/    3 _, e' + -e . 4

 

 

1.13.  л: *(/) =-e2'-2e'+-/ + -.

w   4    2 4

 

1.14.  л:, (/) =—ez' 71 + — e           2 - -cos/+-sin/--;

1          w   45           45          5          5 3

*/.ч   -4 2/-я    10        3 1.2

jc9(/) = —e      +—e  2--cos/+-sin/   .

2          w   45           45          5          5 3

 

1.15. /l{t) = -^<-^-^t + ^

1          w      27        27       9 27

*,v      10 3/    15 ,    1л    14. 22

x? (/) =            eJ' + — e' + - Г + — / + —.

2          w      27        27       3       9 27

 

1.16.   лг*(/) = (/ + /2)2е"3'--/2.

Глава 6

 

6.1.  х*(0 = --е3'--е12+3'+-е12-3' 9       9 9

 

w     З з

6.2. jc * (/) =

 

-12

4-le12 ї 9 9

>12

A - J-e

Є3' + ■ 9 9

,-12

 

U*(t)

4_lpl2 ^ 9    9 °

e-12-e12 ^ - J-e

-12

Є3'+ 9

- + -e10-',r>10-ln9; 2 2

 

6.3.       х*(г) = ^е10(е-'-е') + 1;

 

«•(0 =

0, r<10-ln9.

 

6.4. x*(f) =

 

о;

8-ln3~

3e~

-є*1' —; t є 2 2

Л 2/    1 .

ez' +-;ґє

0; 3 - In -

Подпись: 6.5.  x*(t) =
Подпись: 3-ШІ;з'

4^1 0;3- ln-3

u*(t) =

з-І„5;з

2,5e' - 2; t є 0; Г є 1;*є

2e' - 1; r є

0;3-ln

6.6.    X*(t) =

 

--e   + 2 3 J

е'-3е3-' + 1;Гє 8

 

3-ln-;3

1;/є

с Л

0;3-bi-

«•(0 =

le3"'-1;ґє 4 3-.n-;3

 

-е' + 2; ґ є

0-,10-ln-

Подпись: ч8 -2; ґє6.7.  **(/) =

£e-,0-iV+-e10-' + i;/6 2 2

3^

0;10-1п

 

10 - In ^; 10

 

-е10-'-і-;гє 2

10- 1п-;10 2

 

 

6.8. x*(t) =

 

e' +

e' + 3e-' -2;te [0;ln3-ln2);

e-'+2;re[3-ln2;3];

3

 

 

*2 (0 =

e' -3e~' + 2;/є [0;ln3-ln2);

е-'-2;Гє[3-1п2;3];

3

e'-

 

«*(<) =

2;ґє [0;ln3-ln2); -2;ґє [3 - 1п2;3].

х*(/) = -е"2'+і.

w   2 2

х*(ґ) = е'.

е-';/е

З л

0;5-ln|

6.11.  x*{t) =

з ^

1 - 2е 2

Є"' +2 e

5-1п|;10

V

 

6.12. x(t) = tu,te [ ]; х (ґ) = 0; и*(ґ) = 0.

 

6.13. х*(г) = -е'+1; х2*(ґ) = е'+2; i/*(f) = -l.

Глава 7 7.1.

 

 

0

1

2

3

4

5

х*(0

0

-1/8

-1/8

-2/8

-3/8

-5/8

u*(t)

-1/8

-1/4

-6/8

-5/8

-1

 

1.1.

t

0

1

2

3

4

5

x*(t)

1

-3

-1

-1

-3

-1

u*(t)

-1

-2

-1

-2

-1

 

 

7.3.

 

 

0

1

2

3

x*(t)

2

551 648

41 648

163 216

 

3^ 648

648

571 648

 

 

7.4.

 

 

0

1

2

3

4

x*(t)

1

-449/2617

77/2617

-13/2617

1/2617

u*(t)

1084/2617

-186/2617

32/2617

-6/2617

 

 

7.5.

 

 

0

1

2

3

4

5

x*«)

1

-8/7

2/7

-3/7

-3/7

2/7

 

-1/14

-3/7

-1/14

-3/7

-1/14

 

 

0

1

2

3

 

*Г(о

1

603 140

236 140

61 140

 

x*2(t)

1

769 140

367 140

175 140

 

u*(t)

0

1379 140

306 140

-1/2

 

u2(t)

769 140

376 140

0

0

 

 

Глава 9

9.1. u*(t,x) =

t-2-2T

 

9.2.  u*(t) = 2

_25e2(t-T)+l_)

x.

 

9.3. м*(/) = |(-Зґ + ЗГ-і).

 

9.4.  u*(t) =

{-2b)t--c-(-2b)T

 

9.5.

 

/

0

1

2

3

4

x*(t)

2

0

-4

-6

-6

 

-1

-2

-1

0

 

9.6.

t

0

1

2

3

4

x*(t)

1

-1

0

0