摘要
针对突防-拦截过程中存在的机动能力受限问题,提出了一种机动能力受限下基于自适应动态规划的博弈弹道优化策略求解方法。通过建立仿射非线性微分博弈模型,并考虑到机动能力受限,设计了含积分形式的控制能量项的性能指标函数;基于微分博弈理论推导了博弈鞍点控制策略,并基于自适应动态规划算法设计一个评价网络对微分博弈策略进行近似逼近求解,给出了神经网络权值自适应更新律,并对其稳定性进行了推导证明。仿真结果表明,所提出的策略求解方法能够在机动能力受限的情况下实现反拦截效果,精确打击敌方目标。
Abstract
Aiming at the problem of maneuverability limitation in the process of penetration and interception, a game trajectory optimization strategy solution based on adaptive dynamic programming was proposed under the condition of limited maneuverability. By establishing an affine nonlinear differential game model and considering the limited maneuverability, the performance index function of the control energy term with integral form was designed. The saddle point control strategy of the game was derived based on the differential game theory, and an evaluation network was designed based on the adaptive dynamic programming algorithm to approximate the solution of the differential game strategy. The weight adaptive updating law of the neural network was given and its stability was proved. Simulation results show that the proposed strategy solving method can achieve anti-interception effect and accurately strike enemy targets under the circumstance of limited maneuverability.
弹道导弹具有速度快、射程远、精度高、威力大、突防能力强等特点,如何对来袭弹道导弹实施有效拦截一直是各军事强国防空能力建设的重点[1]。在此背景下,突防能力已逐渐成为衡量弹道导弹性能的核心指标[2]。突防弹道优化问题也可以看作是一种双方竞争对抗过程,双方通过采取不同攻防策略寻求自身收益的最大化。由于突防满足博弈问题的特性,国内外的学者们开始利用博弈理论来研究导弹的突防弹道优化问题。其中,微分博弈法最受学者们青睐[3-8]。
微分博弈是一种无限策略型博弈,这种无限策略集对应的策略空间主要受最大机动能力等限制,一般以控制约束的形式在模型中体现。考虑到战场环境的复杂多变性,加之各类约束条件的存在,这无疑给微分博弈问题的求解增添了重重困难,使之面临更高的要求和挑战。因此,相应的先进控制方法和现代控制理论也被应用于微分博弈问题从而提高系统的稳定性和鲁棒性[9]。文献[10-13]均考虑了机动能力受限情况下的突防微分博弈问题,但是其考虑的模型是线性化模型,过于简单,不符合弹道导弹突防问题的非线性、强耦合性。文献[14-16]针对非线性系统的微分博弈问题,结合自适应动态规划算法进行在线求解,但是其并没有在策略求解过程中考虑机动能力受限问题,这对系统的稳定性及鲁棒性带来了很大的挑战。Gao等[17]针对一类具有约束输入的导弹系统,设计了一种滑模控制器,然后基于零和微分博弈理论的自适应动态规划算法进行求解。Zhao等[18]针对具有不匹配干扰的输入受限非线性系统,利用自适应动态规划算法设计滑模容错控制策略,并采用经验回放技术更新评价指标权重。Wang等[19]针对具有状态约束的高超声速飞行器,提出了一种基于自适应动态规划算法的自适应容错控制设计方法,以提高系统的跟踪性能和容错能力。从上述研究中能够发现,由于增加了输入约束,问题的求解难度进一步增加,且所设计的求解算法也更加复杂。
针对以上问题,本文建立了仿射非线性微分博弈模型,设计了对控制能量项进行积分约束的性能指标函数,并基于微分博弈理论和自适应动态规划算法对微分博弈策略进行在线逼近,给出了神经网络权值自适应更新律,并对其稳定性进行了推导证明,通过仿真算例来验证所提模型和算法的有效性。
1 模型建立
1.1 非线性微分博弈模型
图1给出了博弈问题的突防场景。在突防场景中,我方成员包括弹道导弹,敌方成员包括两枚拦截导弹(拦截导弹1,2)和目标。将攻防对抗过程划分为突防阶段1、突防阶段2和打击阶段,并假设弹道导弹在突防阶段1结束时摆脱拦截导弹1,在突防阶段2结束时摆脱拦截导弹2。
图1突防场景
Fig.1Penetration scenario
由于不同阶段的模型类似,为缩减篇幅,下文将仅推导突防阶段1的微分博弈策略。
在地面坐标系水平面内描述弹道导弹(M)、拦截导弹1(I1)、拦截导弹2(I2)和目标(T)的运动,相对运动方程组为:
(1)
式中,X为状态向量,UI1、UI2、UM分别为拦截导弹1、拦截导弹2、弹道导弹的加速度向量,A、B、C、D为系数矩阵。
将弹道导弹、拦截导弹1、拦截导弹2在弹道坐标系下的加速度U2i=[]T(i={M,I1,I2})作为控制向量,则由弹道坐标系和地面坐标系的转换关系可得:
(2)
式中,为弹道偏角。
则有:
(3)
令,则:
(4)
式中,f(X)和gi(X)均为关于状态量X的非线性连续函数。式(4)即为水平面内的非线性微分博弈模型,属于一种典型的仿射非线性系统。
1.2 性能指标函数
微分博弈问题本质上是一种连续、动态的冲突竞争行为[9]。根据微分博弈理论,突防双方应选取合适的控制策略以最大化或最小化给定的性能指标函数,从而使自身利益最大化,同时要考虑机动能力受限并保证系统的稳定性。
为此,定义性能指标函数为:
(5)
式中:分别为拦截导弹1、拦截导弹2控制能量的权重矩阵,假设wI1x=wI1z=wI1,wI2x=wI2z=wI2;tf为突防阶段博弈结束时刻;u(UM)为处理机动能力受限问题选择的泛函。
考虑到机动能力受限问题,性能指标函数中弹道导弹的控制能量项设计为如式(6)所示的积分形式,而不是二次型形式,从而对机动能力受限问题进行有效处理。
(6)
式中:τ为积分变量,表示弹道导弹加速度的中间增量;为弹道导弹控制能量的权重矩阵,wMx=wMz=wM;σ为待设计增益,是在数值上不大于导弹最大加速度的无量纲量。处理受限问题时常用的符号函数sgn(·)是不连续的,这会影响系统的性能,因此使用连续的反双曲正切函数arctanh(·)代替。
拦截导弹1希望最小化J,拦截导弹2希望最小化J,弹道导弹希望最大化J。
微分博弈模型为:
(7)
2 弹道优化策略
2.1 基本思想
2.1.1 自适应动态规划的基本原理
自适应动态规划(adaptive dynamic programming,ADP)是通过设计强化学习中的“执行-评价”结构,利用函数近似方法,完成对非线性偏微分方程的近似求解。ADP算法的基本结构如图2所示。
从图2可以看出,ADP算法主要包括动态系统、执行网络、评价网络三部分。其中:动态系统通常是已知的系统状态微分方程;执行网络相当于控制器,根据评价网络反馈的信息生成相应的控制策略;评价网络则用于逼近最优性能指标函数。执行网络和评价网络构成了智能体系统。
2.1.2 机动能力受限下自适应动态规划思路
对于仿射非线性系统式(4),评价网络可以代替执行网络来实现控制器的作用。因此,ADP算法结构可以简化为单评价网络结构,如图3所示。算法流程见算法1。
图2ADP算法基本结构
Fig.2ADP algorithm basic structure
图3受限下基于ADP算法的学习过程
Fig.3Learning process based on ADP algorithm under constraints
算法1 受限下ADP算法
Alg.1 ADP algorithm under constraints
2.2 策略设计
2.2.1 神经网络逼近
构造 Hamilton 函数:
(8)
式中:λ为伴随变量,。
根据纳什均衡原理,该微分博弈应满足HJB方程:
(9)
假设HJB方程式(9)的解存在且唯一,则微分博弈策略可根据极值条件求得:
(10)
其中:。
此时,将代入u(UM),可得:
(11)
式中:表示的第i个分量。
联立式(8)、式(10)、式(11),HJB方程(9)可改写为:
(12)
式(12)为关于的时变非线性偏微分方程,难以求得解析解。在此,将结合自适应动态规划算法设计一个评价网络在线逼近性能指标函数和最优微分博弈策略,并完成对HJB方程的近似求解。
为此,先给出如下合理性假设:
假设1 针对模型(7)和微分博弈策略(10),存在一个连续可微的Lyapunov函数Js(x)满足0。那么,一定存在一个正定矩阵Λ∈R使得式(13)成立。
(13)
设计的评价网络结构为:
(14)
式中:W*为神经网络的理想权重向量;S(X)为神经网络的激活函数;ε(X)为神经网络的有界逼近误差,ε(X)满足,其中δ为正常数。从而可以得到J的梯度为。
将式(14)代入G*,可得:
(15)
令,则式(10)可改写为:
(16)
其中,下标i表示对应向量的第i个分量。
综上所述,HJB方程(12)简化为:
(17)
式中:表示向量ψ的第i个分量;εHJB是由神经网络的有界逼近误差ε(X)引起的残差项,满足
φi表示向量φ的第i个分量。
但是,由于理想权重通常是未知的,上述HJB方程依然无法求解。因此,构建评价网络的在线输出Wc估计理想权重W*,式(14)的近似结构为:
(18)
式中,为对性能指标函数J*的估计。则其梯度为。
将式(18)代入式(10),获得近似的微分博弈策略:
(19)
其中:。
2.2.2 神经网络权值自适应更新律
将式(19)重新代入式(12),可得:
(20)
对比式(17)和式(20)可知,神经网络节点趋近于无穷时,由神经网络残差引起的逼近误差eH将趋近于0。因此,选取评价网络的误差函数为。
对此,需要设计一个评价网络的权值更新律,使得逼近误差eH趋近于0。通过梯度下降法,设计评价网络的权值更新律为:
(21)
式中:αc>0表示评价网络的学习率;mβc=1+A2=AI1+AI2,A1=且IG=diag;P=-tanh()-sgn(); Js为满足假设1的Lyapunov函数;定义为
至此,权值更新律设计完成。
2.2.3 稳定性证明
在进行稳定性证明前,给出如下假设:
假设2 评价网络的理想权值W*与逼近误差偏导数的范数均有界,即存在大于0的常数使得成立。考虑到有界,则式(16)中的评价网络残差项均有界,满足。
基于以上分析,可以得出如下定理:
定理1 针对式(7),当假设1、假设2成立时,设计微分博弈策略和评价网络的权值更新律分别如式(19)、式(21)所示,则闭环系统的状态和权值估计误差满足最终一致有界稳定。其中,权值误差定义为。
证明:选取Lyapunov函数:
(22)
则Lx(t)关于时间求导可得:
(23)
在继续证明之前,先做如下的处理:
将式(20)和式(17)作差,可推得:
(24)
根据ψ和的定义,可得:
(25)
则eH最终表示为:
(26)
其中:
根据式(21),考虑到,可得:
(27)
式中,可整理为:
(28)
综上所述,式(23)最终可整理为:
(29)
定义可得:
(30)
式中:
-λmin(·)表示对应矩阵的最小特征值。
考虑到式(30)的取值和有关,下面根据的取值分两种情况讨论:
情况 1。此时满足则式(30)可改写为:
(31)
此时,若式(32)成立,则
(32)
情况 2。此时,在评价网络的学习过程中闭环信号不再有界,考虑如式(33)所示的泰勒级数展开式。
(33)
式中:的高阶无穷小。
又有,此时,式(30)转换为:
(34)
当假设1成立时,即
,则式(34)简化为:
(35)
式中:b1=σbobD-bDbM-bBbI1-bCbI2,bD、bM、bB、bC、bI1、bI2均为有界复合常数;。
因此,若要保证,必须满足:
(36)
或者
(37)
通过上述证明,可以保证权值更新误差是半全局一致最终有界的,定理1证毕。
3 仿真验证
为验证本文所提出的机动能力受限下基于自适应动态规划算法的博弈弹道优化方法的正确性和有效性,设置如下仿真场景,并将仿真结果与比例导引法、非机动能力受限下自适应动态规划算法(在策略设计时未考虑机动能力受限,仅在仿真中对加速度进行限幅处理)进行对比研究。由于在打击阶段不存在拦截导弹,故采用比例导引打击目标。
3.1 仿真条件
各仿真参数如下:
突防阶段1控制能量权重wt1I1=0.1、wt1I2=0.1、wt1M=0.08;突防阶段2控制能量权重wt2I2=0.88、wt2M=0.1;初始时间t0=0 s;拦截导弹1、拦截导弹2和弹道导弹在弹道系x、z方向上的最大加速度分别取0 m/s2、60 m/s2。
仿真使用的神经网络为单隐层神经网络,突防阶段1输入层为12个状态量,隐含层中含有12个神经元;突防阶段2输入层为8个状态量,隐含层中含有8个神经元;神经网络相关参数均为无量纲量,设计如下:
1)突防阶段1:学习率αct1=-3×10-6,增益σt1=60,设计参数Y1t1=3,Y2t1=30×[1,1,1,1,1,1,1,1,1,1,1,1]T。
2)突防阶段2:学习率αct2=-3×10-6,增益σt2=60,设计参数Y1t2=3,Y2t2=30×[1,1,1,1,1,1,1,1]T。
需要注意的是,由于模型中状态量X的各分量的量级差异较大,在使用激活函数之前需要进行归一化处理。
攻防双方的博弈初始条件如表1所示。
表1攻防双方的博弈初始条件
Tab.1Initial condition of the game between attack and defense
3.2 仿真结果
本节将在数值仿真中验证所设计的机动能力受限下自适应动态规划算法,并与比例导引法、非机动能力受限下自适应动态规划算法的仿真结果进行对比,仿真结果如图4~7所示。为了充分体现本文所提方法的突防有效性,还将设置两个策略组合,并通过数值打靶的方式计算弹道导弹的突防成功概率,仿真结果如图8、表2所示。
由图4、图5可知,在本文提出的突防方法下,弹道导弹很好地完成了突防任务。具体来说,在面对拦截导弹1、拦截导弹2的攻击时,弹道导弹采取了适当的机动来躲避拦截导弹的进攻,从而实现成功突防。在成功躲避拦截导弹后,也完成了打击地面目标的任务。而在比例导引法下,弹道导弹并没有考虑逃逸机动,且拦截导弹的初始位置和初始速度更具优势,使得弹道导弹无法成功突防。
图4机动能力受限下攻防双方在xOz平面的飞行轨迹
Fig.4Flight trajectories of attack and defense in xOz plane with limited maneuverability
图5比例导引法下攻防双方在xOz平面的飞行轨迹
Fig.5Flight trajectories of attack and defense in xOz plane with proportional navigation method
从弹道导弹的加速度曲线图6可以看出,相较于非机动能力受限下自适应动态规划算法,在所设计的控制算法下,弹道导弹的控制输入始终处于机动能力受限范围内,这表明所设计的算法实现了对输入饱和现象的有效处理。
图6弹道导弹加速度曲线
Fig.6Ballistic missile acceleration curve
从拦截导弹的加速度曲线图7可以看出,相较于非机动能力受限下的自适应动态规划算法,在所设计的控制算法下,拦截导弹的控制输入也更小。
为系统评估本文所提方法的突防性能,设置了两种策略组合进行对比仿真。基准策略组合(1号):攻防双方均采用经典的比例导引法。待考察策略组合(2号):弹道导弹采用本文所提的方法,而拦截导弹仍采用比例导引法。通过调整弹道导弹的初始位置,设置110组数值打靶仿真工况。弹道导弹x方向初始位置的区间为-20~20 km,步长为4 km;z方向初始位置的区间为-10~10 km,步长为2 km,不包括0 km。图8中,突防成功表示弹道导弹能够摆脱拦截导弹,并成功打中目标;反之,便是突防失败。
从图8能够看出,在策略组合1下,弹道导弹的x方向初始位置距离拦截导弹越近,留给拦截导弹的反应距离越短,能够突防成功时的z方向初始位置区间就越大。而在策略组合2下,z方向初始距离绝对值过大,会突防失败,这是由于弹道导弹在拦截阶段进行躲避机动,在打击阶段时距离目标较远,无法打中目标。
图7拦截导弹加速度曲线
Fig.7Intercept missile acceleration curve
图8不同策略组合下的数值打靶结果
Fig.8Numerical target shooting results under different strategy combinations
表2不同策略组合下的突防成功概率
Fig.2The probability of successful penetration under different strategy combinations
从表2能够看出,策略组合2相比策略组合1的突防成功概率提升了30%,这表明了本文所提方法能够有效地提升“一红突二蓝”场景下弹道导弹的突防成功概率。
4 结论
本文针对机动能力受限下微分博弈问题的数值求解研究,设计了考虑机动能力受限的性能指标函数以及微分博弈模型,设计了一种机动能力受限下的博弈策略,并引入自适应动态规划算法在线求解该问题得到微分博弈数值策略。所生成的博弈策略考虑了机动能力受限问题并有效实现弹道导弹的突防和打击地面高价值目标的任务。仿真结果表明了所提出的“一红突二蓝”场景下考虑机动能力受限的微分博弈问题的自适应动态规划求解方法的有效性。




