弹道导弹机动能力受限反拦截博弈弹道优化方法
doi: 10.11887/j.issn.1001-2486.25030012
游勇安 , 孙瑞胜 , 刘宣廷 , 陈伟
南京理工大学能源与动力工程学院,江苏 南京 210094
基金项目: 国家自然科学基金资助项目(12572403) ; 水下信息与控制重点实验室资助项目(2022-JCJQ-LB-030-09)
Ballistic missile maneuverability limited anti-interception game trajectory optimization method
YOU Yongan , SUN Ruisheng , LIU Xuanting , CHEN Wei
School of Energy and Power Engineering, Nanjing University of Science and Technology, Nanjing 210094 , China
摘要
针对突防-拦截过程中存在的机动能力受限问题,提出了一种机动能力受限下基于自适应动态规划的博弈弹道优化策略求解方法。通过建立仿射非线性微分博弈模型,并考虑到机动能力受限,设计了含积分形式的控制能量项的性能指标函数;基于微分博弈理论推导了博弈鞍点控制策略,并基于自适应动态规划算法设计一个评价网络对微分博弈策略进行近似逼近求解,给出了神经网络权值自适应更新律,并对其稳定性进行了推导证明。仿真结果表明,所提出的策略求解方法能够在机动能力受限的情况下实现反拦截效果,精确打击敌方目标。
Abstract
Aiming at the problem of maneuverability limitation in the process of penetration and interception, a game trajectory optimization strategy solution based on adaptive dynamic programming was proposed under the condition of limited maneuverability. By establishing an affine nonlinear differential game model and considering the limited maneuverability, the performance index function of the control energy term with integral form was designed. The saddle point control strategy of the game was derived based on the differential game theory, and an evaluation network was designed based on the adaptive dynamic programming algorithm to approximate the solution of the differential game strategy. The weight adaptive updating law of the neural network was given and its stability was proved. Simulation results show that the proposed strategy solving method can achieve anti-interception effect and accurately strike enemy targets under the circumstance of limited maneuverability.
弹道导弹具有速度快、射程远、精度高、威力大、突防能力强等特点,如何对来袭弹道导弹实施有效拦截一直是各军事强国防空能力建设的重点[1]。在此背景下,突防能力已逐渐成为衡量弹道导弹性能的核心指标[2]。突防弹道优化问题也可以看作是一种双方竞争对抗过程,双方通过采取不同攻防策略寻求自身收益的最大化。由于突防满足博弈问题的特性,国内外的学者们开始利用博弈理论来研究导弹的突防弹道优化问题。其中,微分博弈法最受学者们青睐[3-8]
微分博弈是一种无限策略型博弈,这种无限策略集对应的策略空间主要受最大机动能力等限制,一般以控制约束的形式在模型中体现。考虑到战场环境的复杂多变性,加之各类约束条件的存在,这无疑给微分博弈问题的求解增添了重重困难,使之面临更高的要求和挑战。因此,相应的先进控制方法和现代控制理论也被应用于微分博弈问题从而提高系统的稳定性和鲁棒性[9]。文献[10-13]均考虑了机动能力受限情况下的突防微分博弈问题,但是其考虑的模型是线性化模型,过于简单,不符合弹道导弹突防问题的非线性、强耦合性。文献[14-16]针对非线性系统的微分博弈问题,结合自适应动态规划算法进行在线求解,但是其并没有在策略求解过程中考虑机动能力受限问题,这对系统的稳定性及鲁棒性带来了很大的挑战。Gao等[17]针对一类具有约束输入的导弹系统,设计了一种滑模控制器,然后基于零和微分博弈理论的自适应动态规划算法进行求解。Zhao等[18]针对具有不匹配干扰的输入受限非线性系统,利用自适应动态规划算法设计滑模容错控制策略,并采用经验回放技术更新评价指标权重。Wang等[19]针对具有状态约束的高超声速飞行器,提出了一种基于自适应动态规划算法的自适应容错控制设计方法,以提高系统的跟踪性能和容错能力。从上述研究中能够发现,由于增加了输入约束,问题的求解难度进一步增加,且所设计的求解算法也更加复杂。
针对以上问题,本文建立了仿射非线性微分博弈模型,设计了对控制能量项进行积分约束的性能指标函数,并基于微分博弈理论和自适应动态规划算法对微分博弈策略进行在线逼近,给出了神经网络权值自适应更新律,并对其稳定性进行了推导证明,通过仿真算例来验证所提模型和算法的有效性。
1 模型建立
1.1 非线性微分博弈模型
图1给出了博弈问题的突防场景。在突防场景中,我方成员包括弹道导弹,敌方成员包括两枚拦截导弹(拦截导弹1,2)和目标。将攻防对抗过程划分为突防阶段1、突防阶段2和打击阶段,并假设弹道导弹在突防阶段1结束时摆脱拦截导弹1,在突防阶段2结束时摆脱拦截导弹2。
1突防场景
Fig.1Penetration scenario
由于不同阶段的模型类似,为缩减篇幅,下文将仅推导突防阶段1的微分博弈策略。
在地面坐标系水平面内描述弹道导弹(M)、拦截导弹1(I1)、拦截导弹2(I2)和目标(T)的运动,相对运动方程组为:
X˙=AX+BUI1+CUI2+DUM
(1)
式中,X为状态向量,UI1UI2UM分别为拦截导弹1、拦截导弹2、弹道导弹的加速度向量,ABCD为系数矩阵。
将弹道导弹、拦截导弹1、拦截导弹2在弹道坐标系下的加速度U2i=[ax2iaz2i]Ti={M,I1,I2})作为控制向量,则由弹道坐标系和地面坐标系的转换关系可得:
axiazi=L-1ψViax2iaz2i,i={M,I1,I2}
(2)
式中,Lψv=cosψv-sinψvsinψvcosψvψv为弹道偏角。
则有:
X˙=AX+BL-1UII+CL-1UI2+DL-1UM
(3)
BL=BL-1CL=CL-1DL=DL-1,则:
X˙=AX+BLUI1+CLUI2+DLUM=f(X)+i=13 gi(X)ui
(4)
式中,fX)和giX)均为关于状态量X的非线性连续函数。式(4)即为水平面内的非线性微分博弈模型,属于一种典型的仿射非线性系统。
1.2 性能指标函数
微分博弈问题本质上是一种连续、动态的冲突竞争行为[9]。根据微分博弈理论,突防双方应选取合适的控制策略以最大化或最小化给定的性能指标函数,从而使自身利益最大化,同时要考虑机动能力受限并保证系统的稳定性。
为此,定义性能指标函数为:
J=120tf XTQX+UI1TWI1UI1+UI2TWI2UI2-uUMdt
(5)
式中:Q=I2×2 02×2 02×2 02×2 02×2 02×202×2 I2×2 02×2 02×2 02×2 02×202×2 02×2 -I2×2 02×2 02×2 02×202×2 02×2 02×2 02×2 02×2 02×202×2 02×2 02×2 02×2 02×2 02×202×2 02×2 02×2 02×2 02×2 02×2; WI1=wI1x00wI1zWI2=wI2x00wI2z分别为拦截导弹1、拦截导弹2控制能量的权重矩阵,假设wI1x=wI1z=wI1wI2x=wI2z=wI2tf为突防阶段博弈结束时刻;uUM)为处理机动能力受限问题选择的泛函。
考虑到机动能力受限问题,性能指标函数中弹道导弹的控制能量项设计为如式(6)所示的积分形式,而不是二次型形式,从而对机动能力受限问题进行有效处理。
uUM=20UM σarctanhτσTWMdτ
(6)
式中:τ为积分变量,表示弹道导弹加速度的中间增量;WM=wMx00wMz为弹道导弹控制能量的权重矩阵,wMx=wMz=wMσ为待设计增益,是在数值上不大于导弹最大加速度的无量纲量。处理受限问题时常用的符号函数sgn(·)是不连续的,这会影响系统的性能,因此使用连续的反双曲正切函数arctanh(·)代替。
拦截导弹1希望最小化J,拦截导弹2希望最小化J,弹道导弹希望最大化J
微分博弈模型为:
maxUMmI1, UI2 120tf XTQX+UI1TWI1UI1+
UI2TWI2UI2-uUMdt s. t. X˙=AX+BLUI1+CLUI2+DLUM
(7)
2 弹道优化策略
2.1 基本思想
2.1.1 自适应动态规划的基本原理
自适应动态规划(adaptive dynamic programming,ADP)是通过设计强化学习中的“执行-评价”结构,利用函数近似方法,完成对非线性偏微分方程的近似求解。ADP算法的基本结构如图2所示。
图2可以看出,ADP算法主要包括动态系统、执行网络、评价网络三部分。其中:动态系统通常是已知的系统状态微分方程;执行网络相当于控制器,根据评价网络反馈的信息生成相应的控制策略;评价网络则用于逼近最优性能指标函数。执行网络和评价网络构成了智能体系统。
2.1.2 机动能力受限下自适应动态规划思路
对于仿射非线性系统式(4),评价网络可以代替执行网络来实现控制器的作用。因此,ADP算法结构可以简化为单评价网络结构,如图3所示。算法流程见算法1。
2ADP算法基本结构
Fig.2ADP algorithm basic structure
3受限下基于ADP算法的学习过程
Fig.3Learning process based on ADP algorithm under constraints
算法1 受限下ADP算法
Alg.1 ADP algorithm under constraints
2.2 策略设计
2.2.1 神经网络逼近
构造 Hamilton 函数:
H=12XTQX+UI1TWI1UI1+UI2TWI2UI2-uUM+
λTAX+BLUI1+CLUI2+DLUM
(8)
式中:λ为伴随变量,λ=XJ=JX
根据纳什均衡原理,该微分博弈应满足HJB方程:
0=HX,UI1*,UI2*,UM*
(9)
假设HJB方程式(9)的解存在且唯一,则微分博弈策略可根据极值条件HUIIHUI2HUM求得:
UI1*=-WI1-1BLTXJUI2*=-WI2-1CLTXJUM*=σtanhG*
(10)
其中:G*=1σWM-1DLTXJ
此时,将UM*代入uUM),可得:
uUM=2σXJTDLtanhG*+σ2i=12 WMiln1-tanh2Gi*
(11)
式中:Gi*表示G*的第i个分量。
联立式(8)、式(10)、式(11),HJB方程(9)可改写为:
0=12XTQX-12XJTBLWII-1BLTXJ-12XJTCLWI2-1CLTXJ+XJTAX+σ2i=12 WMiln1-tanh2Gi*
(12)
式(12)为关于XJ的时变非线性偏微分方程,难以求得解析解。在此,将结合自适应动态规划算法设计一个评价网络在线逼近性能指标函数和最优微分博弈策略,并完成对HJB方程的近似求解。
为此,先给出如下合理性假设:
假设1 针对模型(7)和微分博弈策略(10),存在一个连续可微的Lyapunov函数Jsx)满足J˙sX=XJsTAX+BLUI1*+CLUI2*+DLUM*<0。那么,一定存在一个正定矩阵ΛR使得式(13)成立。
J˙s(X)<-XJsTΛXJs
(13)
设计的评价网络结构为:
J=W*TS(X)+ε(X)
(14)
式中:W*为神经网络的理想权重向量;SX)为神经网络的激活函数;εX)为神经网络的有界逼近误差,εX)满足|εX|δ,其中δ为正常数。从而可以得到J的梯度为XJ=STW*+Xε
将式(14)代入G*,可得:
G*=1σWM-1DLT(S)TW*+1σWM-1DLTXε
(15)
ψ=1σWM-1DLTSTW*,则式(10)可改写为:
UI1*=-WI1-1BLT(S)TW*-εI1*UI2*=-WI2-1CLT(S)TW*-εI2*UM*=σtanh(ψ)-εM*
(16)
其中,εI1*=WI1-1BLTXεεI2*=WI2-1CLTXεεM*=-i=12 WMi1-tanh2ξiDLTXεξiψiGi*下标i表示对应向量的第i个分量。
综上所述,HJB方程(12)简化为:
0=12XTQX+W*TSAX+εHJB+σ2i=12 WMiln1-tanh2ψi-12W*TBI1W*-12W*TBI2W*
(17)
式中:BI1=SAI1STAI1=BLWI1-1BLT; BI2=SAI2STAI2=CLWI2-1CLT; ψi表示向量ψ的第i个分量;εHJB是由神经网络的有界逼近误差εX)引起的残差项,满足
εHJB=σ2i=12 WMi1η2i-2tanhη1i[1-tanh2η1iφi-12XεTAI12 (S) TW*+Xε-12XεTAI22 (S) TW*+Xε+XεTAX
φi表示向量φ的第i个分量。
但是,由于理想权重通常是未知的,上述HJB方程依然无法求解。因此,构建评价网络的在线输出Wc估计理想权重W*,式(14)的近似结构为:
J^=WcTS(X)
(18)
式中,J^为对性能指标函数J*的估计。则其梯度为XJ^=STWc
将式(18)代入式(10),获得近似的微分博弈策略:
U^I1=-WI1-1BLT(S)TWcU^I2=-WI2-1CLT(S)TWcU^M=σtanh(G^)
(19)
其中:G^=1σWM-1DLTSTWc
2.2.2 神经网络权值自适应更新律
将式(19)重新代入式(12),可得:
0=12XTQX+WcTSAX+σ2i=12 WMiln1-tanh2Gi*-12WcTBI1Wc-12WcTBI2WceH
(20)
对比式(17)和式(20)可知,神经网络节点趋近于无穷时,由神经网络残差引起的逼近误差eH将趋近于0。因此,选取评价网络的误差函数为EH=12eHTeH
对此,需要设计一个评价网络的权值更新律,使得逼近误差eH趋近于0。通过梯度下降法,设计评价网络的权值更新律为:
W˙c=-αcβcmβc2eH+αcX,U^II,U^I2,U^MSA1-A2XJs+αcσSDLPβcTmβc2+12βcmβc2WcTBI1+BI2-Y2-Y1βcTmβcWc
(21)
式中:αc>0表示评价网络的学习率;mβc=1+βcTβcβc=SAX+BLU^I1+CLU^I2+DLU^M; A2=AI1+AI2A1=DLWM-1I-IGDLTIG=diagtanh2G^iP=-tanh(G^)-sgn(G^); Js为满足假设1的Lyapunov函数;XU^11U^12U^M定义为
至此,权值更新律设计完成。
2.2.3 稳定性证明
在进行稳定性证明前,给出如下假设:
假设2 评价网络的理想权值W*与逼近误差偏导数ε的范数均有界,即存在大于0的常数使得W*<bWXε<bs成立。考虑到Xε有界,则式(16)中的评价网络残差项ε11*ε12*εM*均有界,满足ε11*<b11ε12*<b12εM*<bM
基于以上分析,可以得出如下定理:
定理1 针对式(7),当假设1、假设2成立时,设计微分博弈策略和评价网络的权值更新律分别如式(19)、式(21)所示,则闭环系统的状态和权值估计误差满足最终一致有界稳定。其中,权值误差定义为W*=Wc+W~c
证明:选取Lyapunov函数:
Lx(t)=Js(X)+12W~cTαc-1W~˙c
(22)
Lxt)关于时间求导可得:
L˙x(t)=XJsTAX+BLU^II+CLU^I2+DLU^M+W~cTαc-1W~˙c
(23)
在继续证明之前,先做如下的处理:
将式(20)和式(17)作差,可推得:
eH=-W~cTSAX+2σ2WMψTsgn(ψ)-G^sgn(G^)+2σ2i=12 WMi1+exp-2ψisgnψi1+exp-2G^isgnG^i-W~cTSLU^I1-W~cTSCLU^I2+12W~cTBI1W~c+12W~cTBI2W~c-εHJB
(24)
根据ψG^的定义,可得:
2σ2WMψTsgn(ψ)-G^sgn(G^)=σW~cTSDLsgn(G^)+σW~cTSDL[sgn(ψ)-sgn(G^)]
(25)
eH最终表示为:
eH=-W~cTSAX+BLU^I1+CLU^I2+DLU^M+σSDL[-tanh(G^)-sgn(G^)]+12W~cTBI1W~c+12W~cTBI2W~c+ΔeH
(26)
其中:
ΔeH=σW~cTSDL[sgn (ψ) -sgn (G^) ]+2σ2i=12 WMi1+exp-2ψisgnψi1+exp-2G^isgnG^i-εHJB
根据式(21),考虑到W~c=W*-Wc,可得:
W~cTαc-1W~˙c=-W~cTββcTmβc2W~c+ΔeHβcTmβc2W~c-σW~cTSLPβcTmβc2W*+12W~cTβcmβc2W*TBI1+BI2W*-W~cTβcmβc2W*TBI1+BI2W*-W~c-X,U^I1,U^I2,U^MXJsTA1-A2(S)TW~c+W~cTY2-Y1βcTmβcWc
(27)
式中,W~cTY2-Y1βcTmβcWc可整理为:
W~cTY2-Y1βcTmβcWc=W~cTY2W*-W~cTY2W~c-W~cTY1βcTmβcW*+W~cTY1βcTmβcW~c
(28)
综上所述,式(23)最终可整理为:
L˙x(t)=-W~cTββcTmβc2W~c-W~cTY2W~c+W~cTβcmβcY1+1mβcW*TBI1+BI2W~c+W~cTβcmβc-12mβcW*TBI1+BI2W*+1mβcΔeH+XJsTAX+BLU^I1+CLU^I2+DLU^M+W~cTY2W*-Y1βcTmβcW*-σSDLPβcTmβc2W*-X,U^I1,U^I2,U^MXJsTA1-A2(S)TW~c
(29)
定义zT=W~cTW~cTβ¯cβ¯c=βcmβc可得:
L˙x(t)=-zTMz+zTN+XJsTAX+BLU^I1+CLU^I2+DLU^M-X,U^I1,U^I2,U^MXJsTA1-A2(S)TW~c-λmin(M)z2+Nz+XJsTAX+BLU^I1+CLU^I2+DLU^M-X,U^I1,U^I2,U^MXJsTA1-A2(S)TW~c
(30)
式中:
M=Y2mI2mI2IN=Y2W*-Y1β¯TW*-Γ-12mβcW*TBI1+BI2W*+1mβcΔeHmI2=-12Y1+1mβcW*TBI1+BI2Γ=σSDLPβ¯TmβcW*
-λmin(·)表示对应矩阵的最小特征值。
考虑到式(30)的取值和XU^I1U^I2U^M有关,下面根据XU^I1U^I2U^M的取值分两种情况讨论:
情况 1XU^11U^12U^M=0。此时XJs满足XJsTAX+BLU^I1+CLU^I2+DLU^M<0则式(30)可改写为:
L˙x(t)-λmin(M)z-N2λmin(M)2+N24λmin(M)
(31)
此时,若式(32)成立,则L˙xt<0
z>Nλmin(M)
(32)
情况 2XU^IIU^I2U^M=1。此时,在评价网络的学习过程中闭环信号不再有界,考虑如式(33)所示的泰勒级数展开式。
tanh(ψ)-tanh(G^)=1σWM-1I-IGDLT(S)TW~c+bo
(33)
式中:bo=oψ-G^2ψ-G^2的高阶无穷小。
又有Xε=-STW~c,此时,式(30)转换为:
L˙x(t)-λmin(M)z2+Nz+XJsTAX+BLUI1*+CLUI2*+DLUM*+σboXJsTDL-XJsTDLεM*-XJsTBLεI1*-XJsTCLεI2*
(34)
当假设1成立时,即
J˙sX<-XJsTΛXJs,则式(34)简化为:
L˙x(t)-λmin(M)z-N2λmin(M)2-λmin(Λ)XJs-b12λmin(Λ)2+b2
(35)
式中:b1=σbobD-bDbM-bBbI1-bCbI2bDbMbBbCbI1bI2均为有界复合常数;b2=N24λminM+b124λminΛ
因此,若要保证L˙xt<0,必须满足:
z>N2λmin(M)+b2λmin(M)
(36)
或者
XJs>b12λmin(Λ)+b2λmin(Λ)
(37)
通过上述证明,可以保证权值更新误差W~c是半全局一致最终有界的,定理1证毕。
3 仿真验证
为验证本文所提出的机动能力受限下基于自适应动态规划算法的博弈弹道优化方法的正确性和有效性,设置如下仿真场景,并将仿真结果与比例导引法、非机动能力受限下自适应动态规划算法(在策略设计时未考虑机动能力受限,仅在仿真中对加速度进行限幅处理)进行对比研究。由于在打击阶段不存在拦截导弹,故采用比例导引打击目标。
3.1 仿真条件
各仿真参数如下:
突防阶段1控制能量权重wt1I1=0.1、wt1I2=0.1、wt1M=0.08;突防阶段2控制能量权重wt2I2=0.88、wt2M=0.1;初始时间t0=0 s;拦截导弹1、拦截导弹2和弹道导弹在弹道系xz方向上的最大加速度分别取0 m/s2、60 m/s2
仿真使用的神经网络为单隐层神经网络,突防阶段1输入层为12个状态量,隐含层中含有12个神经元;突防阶段2输入层为8个状态量,隐含层中含有8个神经元;神经网络相关参数均为无量纲量,设计如下:
1)突防阶段1:学习率αct1=-3×10-6,增益σt1=60,设计参数Y1t1=3,Y2t1=30×[1,1,1,1,1,1,1,1,1,1,1,1]T
2)突防阶段2:学习率αct2=-3×10-6,增益σt2=60,设计参数Y1t2=3,Y2t2=30×[1,1,1,1,1,1,1,1]T
需要注意的是,由于模型中状态量X的各分量的量级差异较大,在使用激活函数之前需要进行归一化处理。
攻防双方的博弈初始条件如表1所示。
1攻防双方的博弈初始条件
Tab.1Initial condition of the game between attack and defense
3.2 仿真结果
本节将在数值仿真中验证所设计的机动能力受限下自适应动态规划算法,并与比例导引法、非机动能力受限下自适应动态规划算法的仿真结果进行对比,仿真结果如图4~7所示。为了充分体现本文所提方法的突防有效性,还将设置两个策略组合,并通过数值打靶的方式计算弹道导弹的突防成功概率,仿真结果如图8表2所示。
图4图5可知,在本文提出的突防方法下,弹道导弹很好地完成了突防任务。具体来说,在面对拦截导弹1、拦截导弹2的攻击时,弹道导弹采取了适当的机动来躲避拦截导弹的进攻,从而实现成功突防。在成功躲避拦截导弹后,也完成了打击地面目标的任务。而在比例导引法下,弹道导弹并没有考虑逃逸机动,且拦截导弹的初始位置和初始速度更具优势,使得弹道导弹无法成功突防。
4机动能力受限下攻防双方在xOz平面的飞行轨迹
Fig.4Flight trajectories of attack and defense in xOz plane with limited maneuverability
5比例导引法下攻防双方在xOz平面的飞行轨迹
Fig.5Flight trajectories of attack and defense in xOz plane with proportional navigation method
从弹道导弹的加速度曲线图6可以看出,相较于非机动能力受限下自适应动态规划算法,在所设计的控制算法下,弹道导弹的控制输入始终处于机动能力受限范围内,这表明所设计的算法实现了对输入饱和现象的有效处理。
6弹道导弹加速度曲线
Fig.6Ballistic missile acceleration curve
从拦截导弹的加速度曲线图7可以看出,相较于非机动能力受限下的自适应动态规划算法,在所设计的控制算法下,拦截导弹的控制输入也更小。
为系统评估本文所提方法的突防性能,设置了两种策略组合进行对比仿真。基准策略组合(1号):攻防双方均采用经典的比例导引法。待考察策略组合(2号):弹道导弹采用本文所提的方法,而拦截导弹仍采用比例导引法。通过调整弹道导弹的初始位置,设置110组数值打靶仿真工况。弹道导弹x方向初始位置的区间为-20~20 km,步长为4 km;z方向初始位置的区间为-10~10 km,步长为2 km,不包括0 km。图8中,突防成功表示弹道导弹能够摆脱拦截导弹,并成功打中目标;反之,便是突防失败。
图8能够看出,在策略组合1下,弹道导弹的x方向初始位置距离拦截导弹越近,留给拦截导弹的反应距离越短,能够突防成功时的z方向初始位置区间就越大。而在策略组合2下,z方向初始距离绝对值过大,会突防失败,这是由于弹道导弹在拦截阶段进行躲避机动,在打击阶段时距离目标较远,无法打中目标。
7拦截导弹加速度曲线
Fig.7Intercept missile acceleration curve
8不同策略组合下的数值打靶结果
Fig.8Numerical target shooting results under different strategy combinations
2不同策略组合下的突防成功概率
Fig.2The probability of successful penetration under different strategy combinations
表2能够看出,策略组合2相比策略组合1的突防成功概率提升了30%,这表明了本文所提方法能够有效地提升“一红突二蓝”场景下弹道导弹的突防成功概率。
4 结论
本文针对机动能力受限下微分博弈问题的数值求解研究,设计了考虑机动能力受限的性能指标函数以及微分博弈模型,设计了一种机动能力受限下的博弈策略,并引入自适应动态规划算法在线求解该问题得到微分博弈数值策略。所生成的博弈策略考虑了机动能力受限问题并有效实现弹道导弹的突防和打击地面高价值目标的任务。仿真结果表明了所提出的“一红突二蓝”场景下考虑机动能力受限的微分博弈问题的自适应动态规划求解方法的有效性。
1突防场景
Fig.1Penetration scenario
2ADP算法基本结构
Fig.2ADP algorithm basic structure
3受限下基于ADP算法的学习过程
Fig.3Learning process based on ADP algorithm under constraints
4机动能力受限下攻防双方在xOz平面的飞行轨迹
Fig.4Flight trajectories of attack and defense in xOz plane with limited maneuverability
5比例导引法下攻防双方在xOz平面的飞行轨迹
Fig.5Flight trajectories of attack and defense in xOz plane with proportional navigation method
6弹道导弹加速度曲线
Fig.6Ballistic missile acceleration curve
7拦截导弹加速度曲线
Fig.7Intercept missile acceleration curve
8不同策略组合下的数值打靶结果
Fig.8Numerical target shooting results under different strategy combinations
1攻防双方的博弈初始条件
Tab.1Initial condition of the game between attack and defense
2不同策略组合下的突防成功概率
Fig.2The probability of successful penetration under different strategy combinations
赵蒙, 端军红, 王明宇, 等. 大气层外弹道导弹中段拦截弹道规划[J]. 兵工学报,2022,43(7):1589-1595.ZHAO M, DUAN J H, WANG M Y,et al. Trajectory planning for exoatmospheric midcourse ballistic missile interception[J]. Acta Armamentarii,2022,43(7):1589-1595.(in Chinese)
桂航, 孙瑞胜, 刘宣廷. 固体弹道导弹大气层外弹道飞行时间控制方法[J]. 宇航学报,2023,44(7):1042-1052.GUI H, SUN R S, LIU X T. Control method for extra-atmospheric flight time of solid ballistic missiles[J]. Journal of Astronautics,2023,44(7):1042-1052.(in Chinese)
WANG C G, CHEN D H, LIAO W H. Interactive multiple-model learning filter for spacecraft pursuit-evasion game strategy Switch based on long short-term memory network[J]. Aerospace,2024,11(11):894.
程涛, 周浩, 董晓飞, 等. 多飞行器突防打击一体化微分对策制导律设计[J]. 北京航空航天大学学报,2022,48(5):898-909.CHENG T, ZHOU H, DONG X F,et al. Differential game guidance law design for integration of penetration and strike of multiple flight vehicles[J]. Journal of Beijing University of Aeronautics and Astronautics,2022,48(5):898-909.(in Chinese)
张乘铭, 朱彦伟, 杨乐平, 等. 航天器交会型轨道追逃策略的滚动时域优化[J]. 国防科技大学学报,2024,46(3):21-29.ZHANG C M, ZHU Y W, YANG L P,et al. Receding horizon optimization for spacecraft pursuit-evasion strategy in rendezvous[J]. Journal of National University of Defense Technology,2024,46(3):21-29.(in Chinese)
LIANG H Z, LI Z, WU J Z,et al. Optimal guidance laws for a hypersonic multiplayer pursuit-evasion game based on a differential game strategy[J]. Aerospace,2022,9(2):97.
XI A X, CAI Y L, DENG Y F,et al. Zero-sum differential game guidance law for missile interception engagement via neuro-dynamic programming[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering,2023,237(14):3352-3366.
CHEN J Q, SUN R S, LU Y. Cooperative game penetration guidance for multiple hypersonic vehicles under safety critical framework[J]. Chinese Journal of Aeronautics,2024,37(1):247-255.
陈必露, 刘春生, 高煜欣. 输入受限下的鲁棒微分博弈拦截制导律设计[J]. 飞行力学,2022,40(3):57-64.CHEN B L, LIU C S, GAO Y X. Robust differential game guidance law design of interception system with input constraints[J]. Flight Dynamics,2022,40(3):57-64.(in Chinese)
JA′AFARU A B, IBRAGIMOV G. On some pursuit and evasion differential game problems for an infinite number of first-order differential equations[J]. Journal of Applied Mathematics,2012,2012(1):717124.
黄诘, 张友安, 赵育良, 等. 基于终端落角和加速度约束的末制导律设计[J]. 飞行力学,2020,38(3):52-56,62.HUANG J, ZHANG Y A, ZHAO Y L,et al. Design of terminal guidance law based on terminal fall angle and acceleration constraints[J]. Flight Dynamics,2020,38(3):52-56,62.(in Chinese)
赵亮博, 徐玮, 朱广生, 等. 再入飞行器中制导段微分对策式主动机动方法研究[J]. 导弹与航天运载技术(中英文),2022(6):83-89.ZHAO L B, XU W, ZHU G S,et al. Autonomous anti-interception penetration based on differential games for reentry vehicle on mid-course gliding guidance[J]. Missiles and Space Vehicles,2022(6):83-89.(in Chinese)
梁丽, 王佳楠, 王春彦, 等. 机动能力受限的目标-攻击-防御定性微分对策[J]. 指挥与控制学报,2022,8(4):471-476.LIANG L, WANG J N, WANG C Y,et al. Target-attacking-defending qualitative differential game with limited maneuverability[J]. Journal of Command and Control,2022,8(4):471-476.(in Chinese)
MING Z Y, ZHANG H G, LIANG Y L,et al. Nonzero-sum differential games of continuous-time nonlinear systems with uniformly ultimately ε-bounded by adaptive dynamic programming[J]. Applied Mathematics and Computation,2022,430:127248.
王子瑶, 唐胜景, 郭杰, 等. 高超声速攻防博弈自适应微分对策三维制导[J]. 兵工学报,2023,44(8):2342-2353.WANG Z Y, TANG S J, GUO J,et al. Adaptive 3-dimensional differential game guidance for hypersonic attack and defense[J]. Acta Armamentarii,2023,44(8):2342-2353.(in Chinese)
陈畅文. 再入航天器的离轨再入轨迹优化与控制[D]. 哈尔滨: 哈尔滨工业大学,2023.CHEN C W. Optimization and control of de-orbit re-entry trajectory of re-entry spacecraft[D]. Harbin: Harbin Institute of Technology,2023.(in Chinese)
GAO Y X, LIU C S, JIANG S,et al. Zero-sum differential games-based fast adaptive robust optimal sliding mode control design for uncertain missile autopilot with constrained input[J]. International Journal of Control,2022,95(7):1789-1801.
ZHAO H, WANG H Q, NIU B,et al. Event-triggered fault-tolerant control for input-constrained nonlinear systems with mismatched disturbances via adaptive dynamic programming[J]. Neural Networks,2023,164:508-520.
WANG L, QI R Y, JIANG B. Adaptive fault-tolerant optimal control for hypersonic vehicles with state constrains based on adaptive dynamic programming[J]. Journal of the Franklin Institute,2024,361(8):106833.