Синтез оптимальных уравнений (стр. 3 из 9)

Напомним, что задача оптимального быстродействия заключается в отыскании такого управления u(t), для которого фазовая траектория x(t), соответствующая этому управлению в силу уравнения (1.5), проходит через точку x₁ и переход из x₀вx₁осуществляется за кратчайшее время. Такое управление u(t) будем называть оптимальным управлением (в смысле быстродействия); точно так же соответствующую траекторию x(t) буде называть оптимальной траекторией.

4. Допустимые управления. Обычно управляющие параметры u¹,…,u^r не могут принимать совершенно произвольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 4, естественно предположить, что сила u, развиваемая двигателем, не может быть как угодно большой по величине, а подчинена ограничениям α≤u≤β, где α и β – некоторые постоянные, характеризующие двигатель. В частности, при α=─1, β=1 мы получаем ограничение ─1≤u≤1, которое означает, что двигатель может развивать силу, направленную вдоль оси x¹ как в положительном, так и в отрицательном направлении, но не превосходящую единицы по абсолютной величине.

Для объектов, содержащих r управляющих параметров u¹,…,u^r, в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следующих пределах:

α¹≤u¹≤ β¹, α²≤u²≤β²,…, α^r≤u^r≤β^r.

Иначе говоря, каждая из величин u¹, u²,…,u^r в уравнениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных

управляющих параметров и задаётся неравенствами

αⁱ≤uⁱ≤βⁱ, i=1,…,r. (1.6)

Заметим, что при r=2 точки u=(u¹, u²), координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r=3 неравенства (1.6) определяют в пространстве переменных u¹,u²,u³ прямоугольный параллелепипед; в случае произвольного r говорят, что неравенства (1.6) определяют r-мерный параллелепипед.

В общем случае будем считать, что в соответствии с конструкцией объекта и условиями его эксплуатации задано в пространстве переменных u¹,…, u^r некоторое множество U и управляющие параметры u¹, u²,…, u^r должны в каждый момент времени принимать лишь такие значения, чтобы точка u=(u¹,u²,…,u^r) принадлежала множеству U. Иначе говоря, разрешается рассматривать лишь такие управления u(t), что u(t)

U для любого t. Множество U в дальнейшем будем называть областью управления. Область управления U не всегда будет параллелепипедом; она может иметь геометрически более или менее сложный характер, так как в силу конструкции объекта между управляющими параметрами u¹, u²,…,u^r могут существовать связи, выражаемые, например, уравнениями вида φ(u¹, u²,…, u^r)=0 или неравенствами ψ(u¹, u²,…, u^r)≤0. Так, если параметры u¹,u² характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произвольно, то эти параметры подчинены только одному условию

(u¹)²+(u²)²─1≤0 (1.7)

и область управления U представляет собой круг. В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания управляемого объекта надо указать закон его движения (1.2) и область управления U.

Наконец, сделаем ещё одно, весьма существенное предположение о характере управлений. Именно, будем предполагать, что «рули», положения которых характеризуются управляющими параметрами u¹,u²,…,u^r, безынерционны, так что мы можем, если нужно, мгновенно переключать эти «рули» из одного положения в другое, т. е. менять скачком значения управляющих параметров u¹,u²,…,u^r. В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывные управления u(t). Кроме того, будем предполагать, что каждое рассматриваемое управление u(t) непрерывно на концах отрезка t₀≤t≤t₁, на котором оно задано, т. е. что все точки разрыва, если они есть, расположены на интервале t₀<t<t₁. Для удобства условимся называть допустимым управлением всякую кусочно-непрерывную функцию u(t), t₀≤t≤t₁, со значениями в области управления U, непрерывную справа в точках разрыва (для определённости нам так удобно предполагать) и непрерывную в концах отрезка [t₀; t₁], на котором она задана.

Задача об оптимальных быстродействиях уточняется теперь следующим образом:

Среди всех допустимых управлений u=u(t), под воздействием которых управляемый объект (1.3) переходит из заданного начального фазового состояния x₀в предписанное конечное состояние x₁, найти такое, для которого этот переход осуществляется за кратчайшее время

§ 2. Об основных направлениях в теории оптимальных процессов

5. Метод динамического программирования. Для управляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x₁. При этом конечную фазовую точку x₁ будем считать фиксированной, а в качестве начальной точки x будем рассматривать различные точки фазового пространства. Мы будем предполагать в этом пункте, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:

Г и п о т е з а 1. Какова бы ни была отличная от x₁ точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки x₀в точку x₁ (рис. 6).

Время, в течение которого осуществляется оптимальный переход из точки x₀ в точку x₁, обозначим через T(x). В дальнейших рассуждениях будет удобно вместо T(x) ввести функцию ω(x), отличающуюся от неё знаком

ω(x)= ─T(x). (1.8)

Так как каждая точка x фазового пространства имеет координаты x¹,…,xⁿ, то ω(x)= ─T(x) является функцией от n переменных, т. е. ω(x)= ω(x¹,…,xⁿ). Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных x¹,…,xⁿ) и о дифференцируемости этой функции по каждой из переменных x¹,…,xⁿ.

А также будем предполагать, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:

Г и п о т е з а 2. Функция ω(x) непрерывна и всюду, кроме точки x₁, имеет непрерывные частные производные

Пусть теперь x₀ ─ произвольная отличная от x₁ точка фазового пространства, а u₀ ─ произвольная точка области U. Предположим, что объект находится в момент t₀ в фазовом состоянии x₀ и движется в течение некоторого времени под воздействием постоянного управления u= u₀. Фазовую траекторию объекта при этом движении обозначим через y(t)=(y¹(t),…, yⁿ(t)). Таким образом, фазовая траектория y(t) при t>t₀ удовлетворяет уравнениям

(1.9)

(см. (1.2), (1.3)) и начальному условию

y(t₀)=x₀. (1.10)

Если мы будем двигаться из точки x₀ до точки y(t) (по рассматриваемой фазовой траектории), то затратим на это движение время t ─ t₀. Двигаясь затем из точки y(t) оптимально, мы затратим на движение от точки y(t) до точки x₁ время T(y(t)). В результате мы совершим переход из точки x₀ в точку x₁, затратив на этот переход время (t ─t₀)+T(y(t)). Но так как оптимальное время движения от точки x₀ до точки x₁ равно T(x₀), т. е. равно T(y(t₀)), то T(y(t₀))≤(t ─t₀)+T(y(t)). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину t ─t₀, получаем отсюда

и поэтому, переходя к пределу при t→t₀, находим