Содержание:
Введение……………………………………
1. Введение
Дискретные динамические модели управляемых систем — это довольно важный в теоретическом и практическом отношении класс математических моделей, позволяющий охватить очень широкий круг реальных объектов и соответствующих им задач управления. Они возникают как вполне естественные при моделировании дискретных процессов, таких как задачи распределения ресурсов, обработка и передача информации цифровыми электронными устройствами, либо опосредованно — при дискретизации непрерывных моделей для практических расчётов или с целью учёта неоднородности их поведения, либо чисто искусственным путём при организации различных итерационных вычислительных процедур.
К настоящему времени разработаны многочисленные точные и приближённые методы решения задач оптимального управления. Однако подавляющее их большинство относится к системам с непрерывным временем. Для систем с дискретным временем, в особенности нелинейных, их арсенал оказывается значительно беднее. Основная причина — отсутствие в общем случае дискретного аналога принципа максимума Понтрягина для непрерывных систем, вокруг которого
долгое время группировались в основном теоретические работы в области оптимального управления, основанные на методе вариаций и необходимых условиях оптимальности. Об этом свидетельствуют известные работы по дискретным системам [1-3] и др.
Значительно более продвинутыми оказываются результаты, основанные на принципе оптимальности Беллмана и общих достаточных условиях оптимальности Кротова [4]. К ним относятся условия локальной оптимальности и итерационные методы улучшения В. И. Гурмана [5]. В то же время разработано мало эффективных методов синтеза оптимального управления для нелинейных дискретных систем.
Данная работа посвящена приближённым методам синтеза законов оптимального управления на основе принципа оптимальности Кротова и глобальных оценок, которые не требуют априори хороших аналитических свойств исследуемых моделей.
Конкретно речь идет о следующих новых методах приближённого синтеза оптимального управления:
• метода полиномиальной аппроксимации решения уравнения Беллмана;
• метода траекторного восстановления функции цены.
В первом разделе описывается дискретная модель управляемой системы, рассматриваются ее методические преобразования, дается постановка общей задачи оптимального управления, в том числе, в форме синтеза.
Во втором разделе дается метод приближенного синтеза оптимального управления, как одного из способов задания функции Кро- това на основе аппроксимации решения уравнения Беллмана степенным полиномом, в том числе точечную интерполяцию и аппроксимацию по методу наименьших квадратов.
В третьем разделе предлагается метод приближенного синтеза, основанный на восстановлении так называемой функции цены.
Обсуждаются их приложения к практическим задачам, в частности к задаче оптимизации пространственного маневра вертолета и задаче об оптимальной стратегии устойчивого развития.
2. Постановка задачи
Рассматривается дискретная задача оптимального управления [4] о минимуме функционала
N-1
I(x(i),u(i)) = F(x(N)) + ^ /0(i,x(i),u(i))
i=0
на множестве D, определенном следующими условиями:
(1) x(i + 1) = / (i,x(i),u(i)), i = 0,1 ,...,N — 1,
x(i) e Vx(i) С Rn, u(i) e Vu(i,x(i)) С Rr,
x(0) e Vx(0), x(N) e Vx(N).
В соответствии с теорией Кротова, с помощью произвольной функции p(i,x), строятся следующие конструкции:
R(i, x, u) = p(i + 1, /(i, x, u)) — p(i, x) — /о(i, x, u), G(x(0),x(N)) = F(x(N)) + p(N, x(N)) — p(0, x(0)),
P(i,x)= sup R(i,x,u), p(i) = sup P(i,x),
uЈV„(i,x(i)) x(i)eVx(i)
m = inf G(x(0),x(N)) : x(0) e V(x)(0),x(N) e V(x)(N).
Задача сводится к поиску такой последовательности пар
{(x(i),u(i))s}c D
и такой функции p (разрешающей, или функции Кротова), что выполняются достаточные условия оптимальности:
R(i,xs(i),us(i)) ^ i), G(xs(0),xs(N)) ^ m.
3. Аппроксимации степенным полиномом
Здесь рассматривается метод приближенного синтеза оптимального управления, как одного из способов задания функции Кротова на основе аппроксимации решения уравнения Беллмана интерполяционным полиномом.
Предполагается, что Vx(0) = {x(0)} , Vx(i) = Rn, i = 0,1,... ,N. В данном случае функция G(x(0),x(N)) зависит только от x(N), так как левый конец траектории закреплен.
Функция p(i,x) выбирается так, чтобы P(i,x) не зависела от x, а функция G( x(N)) не зависела от x(N) , конкретно посредством известных соотношений типа Беллмана относительно p(i, x):
• P (i, x(i)) =0,i = 0,1,...,N — 1, G(x(N)) = 0.
В общем случае их точное решение найти не удается, и приходится ограничиваться приближенными вычислениями.
Предлагаемый метод основан на аппроксимации разрешающей функции p(i,x) некоторым многомерным интерполяционным полиномом
• p(i, x) = J2 ^a(i)ga(x),
a
где {ga(x)} — некоторый набор заданных базисных функций, {^a(i)} --соответствующий набор коэффициентов, подлежащих определению из условий интерполяции равенств (1):
[фa(i)]=[ga(xp W)]-^
SUPueU (i,x(i))(Ea фа(i + 1)ga(/(i,x(i),u)) — x(i), u))в
• [Фa(N)] = [ga(xe (N ))]-1[F (xp (N))], а, в = 1, 2,...,M,
где в — номер узловой точки, [(-)a] ,[(^)в],[(^)ae] —матрицы размером (слева направо) M х 1, M х 1, M х M.
Однако в многомерных задачах при интерполяции необходимо согласование формы интерполяционного полинома и сетки узлов интерполяции, обеспечивающее обратимость матрицы [ga(xp(i))]. Выбор этих двух элементов, в конечном счете, и определяет метод приближенного решения поставленной задачи синтеза.
В качестве интерполяционного полинома использована следующая известная в теории интерполяции конструкция:
(5)
p(i,x(i))= Ј ji = 1mi (xi(i)j X
(j (x2 (i)j (••• Ј jn=1mn j (i)(xn(ij)),
здесь 1j1,j2,...,jn(i) —неизвестные коэффициенты интерполяционного полинома, которые подлежат вычислению и которые, в конечном счете, определяют приближенно-оптимальный синтез управления. Число этих коэффициентов совпадает на регулярной решетке с числом узловых точек и равно произведению количества узловых точек по каждой из фазовых координат M = mi • m-2 mn.
При решении практических задач, как правило, диапазоны изменения фазовых координат либо заданы, исходя из физического смысла задачи, либо могут быть определены с помощью методов оценок множеств достижимости. Поэтому узловые линии (дискретные) для рассматриваемого интерполяционного полинома могут быть построены следующим образом. В некоторый момент времени i = i* диапазоны изменения фазовых координат разбиваются точками на mi — 1 отрезков по оси xi, на (m-2 — 1) отрезков по оси x2, и т.д. Через эти точки на каждой оси проводятся (n — 1)-мерные гиперплоскости, ортогональные этой оси. Взаимное пересечение этих гиперплоскостей определяет M = mi • m-2 mn узловых точек. Через них проводится регулярное семейство узловых линий xp(г),в = 1, 2,..., M выбранного вида, например, семейство прямых: xp(i) = const, линейных функций: xp(i) = Kii + Ко, парабол: xp(i) = K212 + Kii + Ко, и т. д. В этом случае коэффициенты 1&j1,j2,...j(i) интерполяционного полинома (5) будут либо константами, либо простыми функциями времени.
При постановке рассматриваемой задачи учитывалось только одно фазовое ограничение -- ограничение на левый конец траектории, которое в данном случае представляет собой заданную точку xo(0). Другие фазовые ограничения (или их совокупности) могут быть учтены с помощью известного метода штрафов.
Близость полученного нами приближенного синтеза оптимального управления u(i,x(i)) к строгому оптимуму можно определить с помощью следующей верхней оценки, доставляемой достаточными
N-i
Ј
i=0
+
Найденное управление тем ближе к оптимальному, чем меньше эта оценка. Возможность вычисления оценки—это важное преимущество перед «чистым» методом Беллмана. Она позволяет организовать регулярную процедуру уточнения приближённого решения за счет увеличения числа узлов интерполяции и их расположения в фазовом пространстве, а также дает критерий ее остановки.
Алгоритм описанного метода состоит из следующих этапов:
• в рассматриваемой области задаются узловые линии, и соответствующая конструкция полинома (5);
• в моменты времени i решается система уравнений (4) с начальными условиями. В результате определяются коэффициенты интерполяционного полинома и приближенный синтез оптимального управления;
• вычисляется оценка точности приближенного синтеза оптимального управления (6). Если эта оценка неудовлетворительна, то следует повторить шаги 1) и 2) с увеличением числа узловых линий;
• для найденного синтеза управления и заданных начальных условий решается система