融合协同进化的多约束卫星追逃博弈优化方法
doi: 10.11887/j.issn.1001-2486.24120041
韩昊东1 , 王俊琦1 , 马宸宇浩1 , 张勃1 , 许旭升2 , 袁秋帆2 , 刘田青2 , 周大明1
1. 西北工业大学 航天学院,陕西 西安 710072
2. 上海宇航系统工程研究所,上海 201109
基金项目: 国家自然科学基金面上基金资助项目(52377215,51977177) ; 西北工业大学教育教学改革研究资助项目(2025JGG03) ; 中国航天科技集团公司第八研究院产学研合作基金资助项目(SAST2023-088) ; 西北工业大学“双一流”学科建设基金资助项目(WH00001049)
Integrated cooperative co-evolutionary optimization method for multi-constraint satellite pursuit-evasion game
HAN Haodong1 , WANG Junqi1 , MA Chenyuhao1 , ZHANG Bo1 , XU Xusheng2 , YUAN Qiufan2 , LIU Tianqing2 , ZHOU Daming1
1. School of Astronautics, Northwestern Polytechnical University, Xi′an 710072 , China
2. Shanghai Institute of Aerospace Systems Engineering, Shanghai 201109 , China
摘要
针对传统方法在应对多目标、多约束优化时效率较低,难以满足动态复杂环境下的需求的问题,基于协同进化机制、斑马优化算法和微分对策理论,提出了一种融合协同进化算法。通过采用分阶段优化策略对轨迹和策略进行动态适应性优化,同时引入多种群协同进化机制,增强了算法的全局探索能力和局部收敛性能,并结合微分对策理论,提升了博弈策略的稳定性和可靠性。仿真实验结果表明,该方法在多约束条件下能够显著提高任务完成效率,同时可兼顾追逃双方的动态策略调整,为天基空间目标侦察监视任务中的卫星追逃博弈提供了有效的解决方案。
Abstract
Traditional methods often exhibit low efficiency in addressing multi-objective and multi-constraint optimization problems, failing to meet the requirements of dynamic and complex environments. In this case, a cooperative co-evolution algorithm was proposed based on cooperative co-evolution mechanisms, zebra optimization algorithms, and differential game theory. A phased optimization strategy was adopted to dynamically and adaptively optimize trajectories and strategies, while a multi-population co-evolution mechanism was introduced to enhance global exploration capability and local convergence performance. Differential game theory was integrated to improve the stability and reliability of game strategies. Simulation results demonstrate that this method significantly improves mission completion efficiency under multi-constraint conditions. It effectively balances dynamic strategy adjustments for both pursuers and evaders, providing an effective solution for satellite pursuit-evasion games in space-based target reconnaissance and surveillance missions.
随着航天应用技术的飞速发展,人类社会对各类航天器的依赖不断增加,尤其是资源卫星、气象卫星、通信卫星和导航卫星等,它们不仅显著提升了生产力,也便利了人们的日常生活。正因如此,各航天大国对空间资源的争夺愈发激烈,导致空间安全形势日益严峻[1]。在这一背景下,空间追逃博弈[2]作为一种关键的对抗策略,已成为现代空间任务中不可忽视的重要研究方向之一。在空间环境中,卫星作为高价值资产,常处于对抗态势,尤其是在侦察与反侦察任务中,侦察方试图获取目标信息,而反侦察方则试图规避或干扰侦察,双方在动态对抗中形成了典型的追逃博弈关系。追逃博弈的优化不仅决定任务的成败,还直接影响资源的有效利用和风险控制。因此,如何在多重约束下优化卫星追逃博弈的路径规划,是成功完成空间侦察任务的关键。
卫星追逃博弈通常涉及多目标、多约束的优化问题。早期的研究主要集中于基于微分对策[3-4]的航天器追逃问题求解。Pontani等[5]提出的半直接法(semi-direct method)为航天器三维轨道追逃微分对策提供了一种较为稳健的求解途径,算法具备较好的鲁棒性和收敛性,广泛应用于实际的拦截、交汇和能量匹配等任务中。Prince等[6]将这一方法进一步拓展,应用于复杂的航天器追逃任务,但在非线性、大扰动环境下的计算效率问题仍未完全解决。近年来,微分对策理论进一步扩展至多人博弈场景:李振瑜等[7]提出追踪-逃逸-防御三方博弈模型,通过线性二次型微分对策推导纳什均衡条件,证明防御器可显著提升逃逸方的生存概率。
强化学习在航天器动力学与控制中的研究吸引了不少学者的关注[8-10]。Zhu等[11]将神经网络用于追逃博弈问题,提高了计算效率,减少了计算耗时,与直接法的优化结果对比吻合较好。耿远卓等[12]引入终端诱导强化学习(terminally induced reinforcement learning,TIRL),利用博弈终局奖励稀疏性设计时间差分误差奖励机制,使脉冲推力航天器快速收敛至纳什均衡策略。Yang等[13]将轨道脉冲追逐-规避任务建模为两阶段博弈问题,其中采用顺序二次规划(sequential quadratic programming,SQP)方法将远距离追逐-规避问题转化为多脉冲会合轨迹优化问题,并应用深度确定性策略梯度(deep deterministic policy gradient,DDPG)方法将近距离追逐-规避问题建模为策略强化学习问题。Chu等[14]利用深度Q学习在完成航天器合作交会任务的同时有效规避了碰撞。刘冰雁等[15]为避免应对连续空间存在的维数灾难问题,通过构建模糊推理模型表征连续空间,提出了一种具有多组并行神经网络和共享决策模块的分支深度强化学习架构。Yang等[16]将物理信息神经网络(physics-informed neural networks,PINN)与水平集方法结合,构建了基于连续推力的捕获区动态演化模型,为航天器追逃任务中的威胁关系确定、任务可行性分析和轨道博弈规则总结提供了量化决策依据。许旭升等[17]提出了一种基于多智能体深度强化学习的集群卫星空间轨道追逃博弈方法,通过多智能体深度确定性策略梯度(multi-agent DDPG,MADDPG)方法训练数据,在脉冲机动下的集群追逃场景中实现了策略泛化能力的提升。Zhao等[18]在考虑航天器机动能力和任务时间限制的前提下,针对脉冲机动形势下的轨道追逃问题,提出了基于预测反馈检测的多智能体深度确定性策略梯度(predict-reward-detect MADDPG,PRD-MADDPG)方法。但是,基于强化学习的训练面临可解释性差、理论证明难、可靠性不高等问题,训练好的决策模型缺乏解析表达式,仅能通过仿真打靶验证其决策的正确性,且缺乏高效的训练赋能方法,航天器通常需要博弈上万回合才能学习到最优追逃策略。
优化算法在空间追逃博弈场景中也得到了广泛应用,显著提升了博弈策略的求解效率和质量。Prince等[6]研究了以时间为优化目标的椭圆轨道交会问题,并应用遗传算法(genetic algorithm,GA)进行了数值求解。Wu等[19]针对J2摄动下的远程连续推力拦截轨道设计问题,提出混合遗传-二次规划方法,实现远程拦截的燃料-时间均衡。Liu等[20]针对多卫星围捕逃逸目标场景,提出了一种博弈与优化相结合的策略求解方法,在考虑预期目的、燃料消耗和机动安全的条件下设计代价函数,利用粒子群优化(particle swarm optimization,PSO)算法对双方策略进行优化,得到了双方的最优策略。吴其昌等[21]在航天器追逃博弈研究中提出了用蚁群算法对航天器追逃博弈问题进行优化,进一步丰富了优化算法在该领域的应用范畴。
尽管轨道追逃博弈现有研究已经取得了一定的进展,但大多数方法仍集中在较为简单的任务场景中,且多以单阶段目标优化为主。面对复杂的动态环境和非合作博弈条件,现有的优化策略仍存在一定的改进空间。为此,本文将脉冲推力模型转化为约束控制,建立了航天器相对运动模型,并基于协同进化机制、斑马优化算法和微分对策理论,提出了一种融合协同进化的算法,用于求解空间侦察任务。与传统优化方法(遗传算法、粒子群优化算法等)相比,通过多种群协同进化机制,能够增强算法的全局探索能力和局部收敛性能,避免传统方法在复杂多峰问题中陷入局部最优的缺陷。结合微分对策理论,算法能够实时响应博弈对手的策略变化,实现动态调整,解决了传统静态优化方法难以适应高动态环境的问题。面对传统方法的单一优化框架,难以兼顾多阶段任务需求的不足,本文将任务分解为“抵近段”和“持续段”,分别优化不同目标,提高了计算效率,从而为卫星追逃问题提供一种更高效、更具适应性的解决方案。
1 场景描述与建模
在地球同步轨道上分布着高价值的主星及保障其运行的任务卫星。主星附近出现了一个未知目标卫星,如图1所示。为确保主星的安全,任务卫星对目标卫星进行侦察,以支持空间监测、追踪或防御等任务。然而,由于卫星速度脉冲(脉冲大小和脉冲间隔)、任务时间和总燃料量等多重限制条件,侦察过程变得复杂。
1问题描述图解
Fig.1Diagram illustrating the problem description
以主星为原点建立参考轨道坐标系Ob-XYZ,航天器单位质量控制力产生的瞬时加速度u图2所示。
定义uXObY平面之间的夹角为β,在XObY平面内的投影与X轴之间的夹角为α。则uOb-XYZ三个轴的分量表示如式(1)所示。
(1)
其中,α∈[-π,π],β∈[-π/2,π/2]。
2航天器控制力及其在轨道坐标系下的分解
Fig.2Spacecraft control forces and their decomposition in the orbital coordinate system
采用CW(Clohessy-Wiltshire)方程描述航天器(任务卫星、目标卫星)与主星的相对运动:
(2)
其中,n为参考轨道的角速度,n=μ/a3μ是中心天体的标准重力参数,a是参考轨道的半长轴。
定义航天器在t时刻的状态为xt)=[x  y  z  x˙   y˙  z˙],t0时刻施加于航天器的瞬时加速度为ut)=[ax  ay  az],令τ=t-t0,则自t0t航天器状态转移方程为:
x(t)=Φ(τ)xt0+ψ(τ)u(t)
(3)
式中:
Φ(τ)=4-3cos(nτ)00sin(nτ)n2-2cos(nτ)n06(sin(nτ)-nτ)102cos(nτ)-2n4sin(nτ)-3nτn000cos(nτ)00sin(nτ)n3nsin(nτ)00cos(nτ)2sin(nτ)06ncos(nτ)-6n00-2sin(nτ)4cos(nτ)-3000-nsin(nτ)00cos(nτ)
(4)
ψ(τ)=1-cos(nτ)n22nτ-2sin(nτ)n202sin(nτ)-2nτn24-4cos(nτ)n2-3τ220001-cos(nτ)n2sin(nτ)n2-2cos(nτ)n02cos(nτ)-2n4sin(nτ)-3nτn000sin(nτ)n
(5)
由式(3)可知,当航天器的初始状态xt0)和时刻t控制加速度ut)已知时,可得到航天器于任意时刻t在轨道坐标系下的状态xt)。
假设固定对策时间为T,将T离散化为N+1个时间子区间[kT/N,(k+1)T/N](k=0,1,2,···,N)。航天器从时刻kT/N到时刻(k+1)T/N的状态转移方程为:
x(k+1)TN=ΦTNxkTN+ψTNukTN
(6)
假设仅在离散时间节点kT/Nk=0,1,2,···,N)上施加速度脉冲,并且每次施加脉冲后立即影响航天器的状态,而不持续作用。即脉冲在每个时间子区间起始点进行调整,脉冲的施加仅发生在离散时间节点上,而不是在连续的时间范围内。
如果在节点kT/N施加于航天器的速度脉冲为0,则该转移方程可以进一步简化为:
x(k+1)TN=ΦTNxkTN
(7)
2 约束条件
2.1 侦察条件约束
完成空间侦察任务的前提是任务卫星能够在规定的时间内接近目标卫星至特定范围,并在合适的顺光角度下进行有效侦察,确保任务能够持续一定时长。
2.1.1 相对距离约束
为了确保任务卫星能够有效地完成对目标卫星的侦察,任务卫星与目标卫星之间的相对距离必须小于允许侦察的最小距离且与目标卫星保持安全距离。如果距离过近,可能会导致卫星间发生碰撞;如果距离过远,则无法满足卫星侦察系统的性能需求。相对距离约束确保任务卫星在侦察过程中保持满足侦察的距离,从而获得精确的数据。该约束可表示为:
dmddM
(8)
式中,dmdM分别为安全距离和允许的最小侦察距离。
2.1.2 顺光角度约束
顺光角度θ是指太阳光方向与任务卫星至目标卫星的观测矢量之间的夹角,如图3所示。
3顺光角度示意图
Fig.3Sunlight angle diagram
空间任务会受到空间环境的影响,光照条件是一个重要的因素,强烈的阳光会使星载成像传感器难以正常观测,从而无法完成对目标的侦察任务。当太阳光照方向与观测矢量夹角满足一定角度时,有利于更好地完成对目标卫星的观测。该约束可以表示为:
θminθθmax
(9)
式中,θminθmax为顺光角度的最小值和最大值。
2.1.3 侦察时间约束
为了确保数据的有效性和精度,任务卫星必须在满足上述相对距离和顺光角度的约束条件下,持续侦察一定时长T,以确保能够获得准确数据。该约束可表示为:
TminT
(10)
式中,Tmin是完成空间侦察任务要求的最小时间。
2.2 速度脉冲控制约束
2.2.1 脉冲大小约束
任务卫星的速度脉冲有最大和最小幅度限制。脉冲大小决定了任务卫星轨道变化的幅度,即速度的变化量。设定速度脉冲大小的约束为:
uminuumax
(11)
式中,uminumax分别表示速度脉冲的最小值和最大值。
2.2.2 脉冲间隔约束
脉冲间隔指的是两次脉冲机动之间的时间间隔,它控制着卫星轨道调整的频率和节奏。脉冲间隔的限制可以表示为:
ΔtminΔt
(12)
式中,Δtmin表示脉冲间隔的最小值。
2.2.3 能量消耗约束
卫星的能量资源有限,且每次脉冲调整都会消耗卫星的燃料。能量消耗约束确保卫星在整个任务过程中能够合理分配能量,避免因燃料不足而导致任务中断。忽略卫星质量的变化,可以将其转化为总速度脉冲量。该约束可以表示为:
ΔvΔvmax
(13)
式中,∑Δv为总速度脉冲量,Δvmax为卫星的累计速度脉冲上限。
2.3 时间约束
任务的总时长必须在给定的任务时长内。该约束可以表示为:
tfTf
(14)
式中,tf为任务的总时长,Tf为允许的最大任务时长。
3 融合协同进化算法设计与实现
为了求解空间侦察任务中的追逃博弈问题,采用斑马优化算法[22](zebra optimization algorithm,ZOA),引入协同进化机制和微分对策理论,提出了一种融合协同进化算法(evolutionary algorithm,EA)。该算法的核心思想是基于任务卫星和目标卫星的控制策略,分别构建两个独立的斑马种群。通过交替联合进化的方式使两个种群不断优化,最终都能达到稳定的最优解,从而实现任务卫星和目标卫星的最优控制策略。
3.1 优化算法选取
为了评估ZOA在空间侦察任务的追逃博弈问题中的表现,本研究选取了多个经典优化算法,包括PSO算法、GA、鲸鱼优化算法(whale optimization algorithm,WOA)、灰狼优化算法(grey wolf optimizer,GWO)、EA,并利用标准的优化测试函数对这些算法进行了性能对比。选择这些算法的目的是全面考察算法在不同优化问题中的适应性、全局搜索能力、收敛速度以及逃脱局部最优解的能力。
3.1.1 测试函数选取
为了全面评估各算法的性能,选用了以下几种经典的测试函数。
Rastrigin函数:该函数是一个典型的多峰函数,具有大量的局部极小值,适合考察算法的全局搜索能力。它能够测试优化算法在面对复杂搜索空间时是否能有效地避免局部最优,探索全局最优解,如图4所示。
f(x)=AQ+Σi=1Qxi2-Acos2πxi
(15)
式中:A为常数,取A=10;Q为维度,取Q=30。
4Rastrigin函数下的收敛曲线对比
Fig.4Convergence curve comparison for the Rastrigin function
Ackley函数:包含多个局部极小值,主要用于考察算法在多峰优化问题中的表现。该函数对算法的全局搜索和局部优化能力提出了较高的要求,是测试算法是否能够快速收敛并避开局部最优的理想选择,如图5所示。
f(x)=-20exp-0.21QΣi=1Qxi2-exp1QΣi=1Qcos2πxi+20+e
(16)
式中,Q=30,e为自然常数。
5Ackley函数下的收敛曲线对比
Fig.5Convergence curve comparison for the Ackley function
Sphere函数:作为一个单峰函数,Sphere函数主要用于考察算法的收敛性。其形状简单,能够清晰地反映算法在搜索过程中收敛到全局最优解的速度和效率,如图6所示。
f(x)=Σi=1Qxi2
(17)
式中,Q=30。
6Sphere函数下的收敛曲线对比
Fig.6Convergence curve comparison for the Sphere function
Griewank函数:该函数包含多个局部极小值,适用于测试算法在逃脱局部最优解时的能力。其复杂性在于每个局部极小值都可能导致算法陷入局部最优,测试算法如何跳出这些局部解是一个重要的考察点,如图7所示。
(18)
式中,Q=30。
7Griewank函数下的收敛曲线对比
Fig.7Convergence curve comparison for the Griewank function
这些测试函数能够覆盖多种优化问题的特征,帮助全面评价不同算法在处理复杂优化问题时的优势与不足。
3.1.2 结果分析
仿真结果验证了ZOA在不同测试函数上的优势。
1)Rastrigin函数:该函数测试了算法的全局搜索能力。ZOA表现出优越的跳出局部极小值的能力。
2)Ackley函数:ZOA在多峰优化问题中表现出较好的全局优化能力,快速收敛且有效避免了局部最优。
3)Sphere函数:在单峰函数上,ZOA展现了较快的收敛速度。
4)Griewank函数:ZOA有效逃脱局部最优解,展现了较强的全局搜索能力。
综合来看,ZOA在多个经典优化测试函数中展现了卓越的性能,特别是在全局搜索能力和收敛速度方面均表现出色。这些优势表明,ZOA在解决空间侦察任务中的追逃博弈问题时具有较大的潜力。因此,本文决定选用ZOA作为后续研究的基础优化算法。
3.2 适应度函数设计
侦察任务可以描述为先靠近目标卫星,然后在满足侦察条件的要求下持续一定的时间。因此,可以将整个任务分为抵近段和持续段两个阶段。将任务总时长tf按照一定的速度脉冲间隔Δt分成多离散化的子区间,则整个决策时间tf被简化为tf/Δt+1个离散的时间点,表示向下取整。
对于抵近段而言,目标函数为终止时刻任务卫星与目标卫星的相对距离、顺光角度及其阈值的比较结果。设计抵近段的目标函数为:
SAppr=min0ttfΔt+1 maxr1t-r2t-d,0+maxφSr1t,r2t-θ,0
(19)
式中,rt1rt2表示t时刻任务卫星和目标卫星的位置矢量,d为任务卫星与目标卫星之间的相对距离阈值,φS(·)表示顺光角度计算函数。
对于持续段而言,任务卫星的优化目标函数与抵近段基本相同,差异之处在于持续段需要每个时刻都满足阈值条件,因此外围的最小化改为最大化,具体如下:
SDur =max0ttfΔt+1 maxr1t-r2t-d,0+maxφSr1t,r2t-θ,0
(20)
若目标函数为0,则任务成功,可以结束任务;否则,持续迭代至迭代次数上限,结束任务,任务失败。
3.3 微分对策模型
在实际应用场景中,目标卫星在面对任务卫星的行为时,必然会做出相应的策略性反应。鉴于目标卫星同样拥有机动能力,本文构建了一个微分博弈模型,并设计了融合协同进化算法来求解该微分博弈模型。任务卫星最小化的损失函数为SLL∈{Appr,Dur}表示侦察阶段,即抵近段和持续段。任务卫星和目标卫星的优化目标不同,需要对它们分别建模。
在抵近段,任务卫星的策略是在规定的最大任务时间Tf内,通过优化控制变量,最小化与空间侦察任务相关的损失函数。任务卫星的控制参数包括任务总时间tf、机动时刻tA=t1At2AtkAAT、脉冲量uA=u1Au2AukAAT、脉冲与XObY平面之间的夹角βA=β1Aβ2AβkAAT以及在XObY平面内的投影与X轴之间的夹角αA=α1Aα2AαkAATkAkAMAXkAMAX表示任务卫星最大脉冲机动次数。任务卫星的优化模型可以表示为:
(21)
其中:uOtOαOβO是目标卫星的控制策略,它们影响任务卫星的最优策略;tAf为任务卫星执行抵近段的任务总时间;uMAXA为任务卫星单次脉冲的最大值;ΔtAmin为任务卫星两次脉冲机动时间间隔的最小值,约束条件确保任务卫星的控制变量在物理和任务允许范围内,保证了优化问题的实际可行性。
持续段任务卫星不需要优化任务时间,优化模型为:
(22)
目标卫星的损失函数与任务阶段无关,且其优化目标并非一定仅涉及躲避任务卫星,实际中可以根据需求的不同为目标卫星设置不同的目标使其更加智能。为目标卫星设计两个目标:其一是躲避任务卫星的侦察或进攻等行动,即在博弈过程中最大幅度地远离任务卫星;其二是尽可能靠近主星并对主星进行一定目的的行动。目标卫星的控制变量包括机动时刻to=t1ot2otkOOT、脉冲量uO=u1Ou2OukOOT、脉冲与XObY平面之间的夹角β0=β10β20βk00T以及在XObY平面内的投影与X轴之间的夹角α0=α10α20αk00Tk0k0MAXk0MAX表示目标卫星最大脉冲机动次数。与任务卫星的损失函数计算方法类似,对于一段时长为tr的博弈,目标卫星的损失函数可以表达为:
R=max0ntrΔt+1 maxdRM-r1n-r2n,0+r2n
(23)
式中,dMR为目标卫星最小安全距离。
在抵近段,博弈时长tr为任务卫星的任务时长tAf;在持续段,博弈时长tr是任务卫星侦察任务的持续时长T。目标卫星的策略是在与任务卫星对抗时间内,优化脉冲时刻、脉冲量及角度等参数,最小化其损失函数。目标卫星优化模型为:
(24)
其中:uAtAαAβA表示任务卫星的控制策略;uMAXO表示目标卫星单次脉冲量上限;ΔtOmin表示目标卫星两次脉冲机动时间间隔的最小值。
一个任务卫星和一个目标卫星的追逃博弈问题,需要在各项给定约束条件下寻求满足以下鞍点解的最优控制策略:
SLuA*,tA*,αA*,βA*;uO,tO,αO,βOSLuA,tA,αA,βA;uO,tO,αO,βO
(25)
RuA,tA,αA,βA;u0*,t0*,α0*,β0*RuA,tA,αA,βA;uO,tO,αO,βO
(26)
其中:uA*tA*αA*βA*表示任务卫星的最优控制策略;uO*tO*αO*βO*表示目标卫星的最优控制策略。
式(25)和式(26)的解表示微分博弈中的鞍点解,意味着任务卫星和目标卫星在博弈过程中会达到一个稳定状态,其中任务卫星和目标卫星的策略在某种程度上相互对抗并达到最优平衡。具体而言,任务卫星的最优策略是在最大化自身效益的同时,考虑到目标卫星的反应,并进行合理调整;而目标卫星的最优策略则是在躲避任务卫星的同时最大化其自身目标,尽可能避免被侦察。
3.4 策略更新和协同进化机制设计
在斑马算法中,个体通过协作与竞争的机制来优化其行为。在协同进化的框架下,任务卫星和目标卫星之间通过相互的竞争和动态调整来优化各自的轨道控制策略。在任务的抵近段和持续段,任务卫星根据目标卫星的逃逸策略进行追踪,而目标卫星则根据任务卫星的追踪策略来规避任务卫星的追击。两个卫星在相互作用中不断优化各自的行为,以实现各自的任务目标最大化。
3.4.1 群体初始化
任务卫星种群:由NA个个体组成,每个个体的策略由任务总时长tf、脉冲机动时刻tAi、脉冲量uAi及两个指向角αAiβAi五个控制变量组成。
SA=SiAi=1,2,,NA
(27)
SiA=tf,tiA,uiA,αiA,βiA
(28)
其中:任务总时长tf在抵近段为优化变量,不超过任务限定的最大时间,即tfTf;在持续段不需要优化此变量,任务总时长为满足卫星侦察任务的持续时长T。脉冲量则需要考虑任务卫星的运动能力,在速度脉冲的最小值和最大值的区间内优化,即uAi∈[uAminuAmax]。
目标卫星种群:由NO个个体组成,由于目标卫星与任务卫星处于同一场博弈中,任务总时长是一样的,因此不需要对目标卫星的任务总时长进行优化,而要将任务卫星的任务总时长作为博弈时间,个体的控制变量为脉冲机动时刻tOi、脉冲量uOi及两个指向角αOiβOi
S0=Si0i=1,2,,N0
(29)
Si0=ti0,ui0,αi0,βi0
(30)
其中,uOi∈[uOminuOmax]表示目标卫星的脉冲量也需要在其速度脉冲的最小值与最大值的区间内优化。
3.4.2 适应度评估
式(19)、式(20)分别为任务卫星在抵近段和持续段的适应度函数,式(23)为目标卫星的损失函数。对每个个体的策略进行评估,计算其在当前环境下的任务卫星种群和目标卫星种群的表现。
3.4.3 斑马行为模拟
(1)觅食阶段
在种群中选定先锋斑马,先锋斑马引导其他斑马走向它在种群中的位置。位置更新公式为:
Sijnew =Sij+rPj-ISij
(31)
(32)
其中:i代表斑马个体数;Si·j为斑马在第j维的位置,Snewi·j为更新后的斑马在第j维的位置;Pj为每一个种群的先锋斑马在第j维的位置;Si为先锋斑马的位置,Snewi为更新后的先锋斑马的位置;Fi为第i个个体的目标函数值,计算方式参考式(19)~(20)、式(23);r为[0,1]之间的随机数;I为控制步长的参数,决定移动幅度,I∈{1,2},I的值越高,代表种群变化越大。
在觅食过程中,每个个体会依据自身的适应度值来判断其相对于种群的优劣。因此,计算适应度是优化过程中的关键步骤。
适应度计算如下。
Step 1:计算所有个体的适应度。任务卫星:根据不同的任务阶段,分别使用式(19)和式(20)计算适应度。目标卫星:依据式(23)计算适应度。
Step 2:选取适应度最高的个体作为先锋斑马,并使用式(31)~(32)引导种群更新位置。
Step 3:计算更新后个体的适应度,并进行筛选,若新适应度更优,则保留新位置;否则,回溯到上一位置,或进行微调(如缩小搜索步长)以防止陷入局部最优解。
(2)抵御捕食者攻击阶段
野生斑马在草原上可能会遇到两类捕食者,假设两种情况发生的概率相同。
Phase1:狮子攻击斑马,斑马群体选择逃跑策略。
Phase2:其他捕食者(如鬣狗、灰狼等较小体型捕食者)攻击斑马,斑马群体选择聚集或进攻策略。
位置更新公式为:
(33)
(34)
其中:P为两种策略发生的概率,区间为[0,1];C是值为0.01的常数;r∈[0,1]为随机数; M为最大迭代次数;m为当前迭代次数; Aj是被攻击斑马在第j维的位置; I为控制步长的参数。
在优化过程中,斑马个体会根据环境和适应度调整其位置,整体优化流程如下。
Step 1:计算斑马个体在新位置的适应度。若适应度提高,保留新位置;若适应度降低,可能陷入局部最优,需调整策略。
Step 2:选择优化策略(根据捕食者类型)。策略1——逃跑策略(Phase1),适应度较低的个体会执行大步长移动,迅速远离捕食者,增加生存概率。策略2——聚集策略(Phase2),适应度较高的个体会吸引其他个体靠近,增强整体适应性,提高生存能力。
Step 3:执行优化策略。适应度较低的个体可能回溯到上一位置,或调整步长以避免陷入局部最优。适应度较高的个体在聚集策略中会引导其他个体移动,使种群更具优势。
3.4.4 求解流程
融合协同进化算法的流程如图8所示。
8融合协同进化算法流程
Fig.8Flowchart of the integrated cooperative co-evolution algorithm
详细流程描述如下。
Step 1:定义优化过程的初始条件和相关参数。需要确定任务卫星和目标卫星的初始状态、控制变量的优化范围以及斑马优化算法(ZOA)的初始参数。
Step 2:初始化任务卫星和目标卫星种群。对于目标卫星和任务卫星种群的控制变量,在其优化范围内均匀随机选择一个初始位置,作为初始斑马个体。
Step 3:使用ZOA更新目标卫星种群。根据目标卫星损失函数,对目标卫星种群进行更新。
Step 4:使用ZOA更新任务卫星种群。根据任务卫星损失函数,对任务卫星种群进行更新。
Step 5:判断是否达到最大迭代次数。检查当前迭代次数是否达到预设的最大迭代次数,如果未达到,则返回Step 3继续迭代。
Step 6:从两个种群中选择最优个体。最终选择的最优个体代表在该对抗过程中表现最好的策略,能够保证任务卫星和目标卫星均实现自身损失最小化。
4 仿真结果与分析
主星位于距地面约36 000 km的地球同步轨道上,其轨道参数如下:半长轴为42 378 km,偏心率为0,轨道倾角为40°,升交点赤经为20°,近地点角距为0°,真近点角为87°。在以主星为原点的轨道坐标系下,任务卫星和目标卫星的初始状态如表1所示。
任务卫星针对目标卫星开展空间侦察任务,在抵近段和持续段中,任务卫星的机动次数均不超过20,单次脉冲量不超过2 m/s,且两次脉冲机动时间间隔不低于200 s。在与目标卫星的博弈过程中,任务卫星通过优化自身运动参数来满足侦察任务的各种约束条件。目标卫星拥有一定的机动能力,每阶段机动次数同样不超过20,单次脉冲量不超过1 m/s,两次脉冲机动时间间隔不低于400 s。目标卫星在博弈过程中试图远离任务卫星并靠近主星。二者对抗的时间上限为100 000 s,仿真步长为20 s。
任务卫星距离主星20 km做环绕飞行,保障主星的安全。目标卫星位于与主星同轨道的前方150 km处。任务卫星对目标卫星进行侦察,侦察场景参数设置为两星相对距离在20 km以内、顺光角度在40°以内,对目标卫星持续观测1 000 s,任务最大时间为100 000 s。这一目标要求任务卫星必须在规定的时间内,通过精确控制与目标卫星的相对位置与顺光角度,达到任务设定的需求。而目标卫星则采取积极的逃避策略,尽力避开任务卫星的观测,并在条件允许的情况下,尽量接近主星。
表2表3详细记录了任务卫星和目标卫星在抵近段与持续段的脉冲时间、脉冲量以及角度情况。可以看出,任务卫星在抵近段(从任务开始到46 720 s),总共进行了8次脉冲,成功将相对距离和顺光角度调整至预定范围内。进入持续段,任务卫星在接下来的1 000 s内通过4次脉冲进行调整,确保目标卫星始终保持在合适的相对位置,并且满足顺光角度的要求,与此同时,目标卫星则在抵近段采取了12次脉冲。进入持续段后,目标卫星仍试图通过2次脉冲来改变其轨迹,尽可能摆脱任务卫星。最终,任务卫星成功在47 720 s时达成了对目标卫星的侦察任务。
1任务卫星和目标卫星初始状态
Tab.1Initial states of the mission satellite and target satellite
2任务卫星脉冲机动情况
Tab.2Impulse maneuver parameters of the mission satellite
图9展示了任务卫星与目标卫星在主星坐标系下的运动轨迹。通过观察轨迹曲线,可以看出任务卫星和目标卫星都通过多次脉冲机动来调整各自的轨迹,从而实现各自的任务目标。任务卫星通过多次脉冲机动逐步接近目标卫星,并在持续段执行连续多次脉冲机动调整相对距离和顺光角度,完成侦察任务。目标卫星则在对抗初期倾向于靠近主星,后期则试图远离任务卫星,意在躲避任务卫星侦察。这充分展示了融合协同进化算法在复杂动态环境下的决策能力和优化效率,体现了该算法在任务执行中的高效性和适应性。
3目标卫星脉冲机动情况
Tab.3Impulse maneuver parameters of the target satellite
9任务场景空间路径
Fig.9Spatial path of the mission scenario
任务卫星与目标卫星在抵近段和持续段的相对距离变化和顺光角度变化如图10图11所示。从图10可以看出,在抵近段期间,任务卫星与目标卫星的相对距离逐渐缩短,但一直到两者相距约5 km时才完成了抵近段的优化。这一现象主要是因为任务卫星需要在不断调整其状态来保证尽量接近目标卫星的同时,兼顾顺光角度的约束。进入持续段后,任务卫星与目标卫星的相对距离开始缓慢增大。然而,由于任务卫星在完成抵近后对轨迹进行了精确调整,相对距离依旧被严格控制在场景设定的20 km以内并持续了1 000 s,满足了侦察任务需求。与此同时,图11所示的顺光角度是本次观测的另一重要约束。在抵近段,顺光角度先呈现上升趋势,而后随着姿态与机动调整快速下降,最终达到符合观测要求的范围。进入持续段后,顺光角度出现数次小幅波动,但任务卫星通过精确的控制策略将顺光角度逐渐减小并保持在40°以内,并持续了足够长的时间(1 000 s)。
10相对距离变化
Fig.10Relative distance variation
11顺光角度变化
Fig.11Variation of relative sunlight angle
任务卫星与目标卫星在抵近段和持续段的适应度变化如图12所示,从图中可以看出,在抵近段期间,任务卫星的适应度值在第三次迭代后降为0并保持稳定,这表明任务卫星的策略达到最优,能够有效追踪目标卫星并满足侦察条件。而目标卫星的适应度有所下降,试图躲避任务卫星侦察。进入持续段,任务卫星的适应度稳定为0,能够有效保持对目标卫星的追踪,完成侦察任务,展示出策略的最优性。
从任务执行结果来看,执行任务总时间为47 720 s,任务卫星在此期间通过12次脉冲机动完成了对目标卫星的观测任务,总速度增量约为11.58 m/s。目标卫星在整个对抗博弈过程中,进行了14次脉冲机动,总速度增量约为3.23 m/s。任务卫星能够根据目标卫星的逃避策略来更新自己的策略,在复杂的动态环境中成功实现对目标卫星的侦察任务,展示了出色的任务执行能力。与传统优化方法相比,融合协同进化算法在多约束动态环境下的表现显著更优,微分对策理论的引入使得任务卫星能够稳定应对目标卫星的机动变化,而传统方法在动态博弈中易出现策略失效。
12适应度变化
Fig.12Variation of fitness
5 结论
针对脉冲推力模型的卫星追逃博弈问题,本文主要聚焦于空间侦察场景。为了解决这一复杂问题,本文基于斑马优化算法、协同进化机制以及微分对策理论,设计了一种融合协同进化算法。该算法将脉冲推力航天器的轨道动力学问题转化为具有多重约束条件的最优化问题,并将整个空间侦察任务分解为“抵近段”和“持续段”两个阶段。对于每个阶段,本文分别建立了优化模型,确保在两个阶段的相互配合下能够高效地执行整个侦察任务。通过此方法能够在复杂的空间环境中实现任务卫星与目标卫星的动态博弈,提升任务执行的优化效率。
仿真结果表明,本文提出的融合协同进化算法能够有效解决空间侦察问题。在计算时效性方面,本文算法在抵近段的平均计算时间为60 s,持续段的平均计算时间为8 s,能够较快满足任务需求。本文算法展现出较高的侦察任务成功率和策略可靠性,能够在动态环境下应对目标卫星的机动变化,满足复杂任务的多约束条件需求。
融合协同进化算法在解决多约束卫星追逃博弈问题时展现出显著优势。协同进化机制克服了传统优化算法(遗传算法、粒子群优化算法等)易早熟收敛的问题,通过多种群交互提升全局优化能力。斑马优化算法的引入进一步提高了搜索效率,寻优能力强、收敛速度快的特点优于传统优化方法。传统静态优化方法难以实现动态博弈,而微分对策理论确保了策略的动态稳定性,使任务卫星能够实时调整以应对目标卫星的逃逸策略。
针对复杂多变的空间环境,本文的研究不仅能够有效地应用于空间侦察场景,还能在其他空间任务中提供一定的借鉴。例如,在空间封锁任务中,该方法能够根据目标卫星的机动性动态调整策略,通过博弈优化来实现有效的区域封锁与控制;在空间防御任务中,任务卫星可以根据不同威胁级别的卫星行为来调整防御策略,并在博弈过程中考虑卫星间的协同与对抗。尽管这些应用场景的具体任务目标不同,但基于融合协同进化算法的动态调整机制可以为其提供灵活有效的优化解决方案。未来的研究可以进一步拓展到更广阔的空间任务领域,包括但不限于空间封锁和空间防御等,探讨如何在这些复杂空间环境中利用融合协同进化算法优化任务执行效果,并进一步提高算法的普适性与实用性。
1问题描述图解
Fig.1Diagram illustrating the problem description
2航天器控制力及其在轨道坐标系下的分解
Fig.2Spacecraft control forces and their decomposition in the orbital coordinate system
3顺光角度示意图
Fig.3Sunlight angle diagram
4Rastrigin函数下的收敛曲线对比
Fig.4Convergence curve comparison for the Rastrigin function
5Ackley函数下的收敛曲线对比
Fig.5Convergence curve comparison for the Ackley function
6Sphere函数下的收敛曲线对比
Fig.6Convergence curve comparison for the Sphere function
7Griewank函数下的收敛曲线对比
Fig.7Convergence curve comparison for the Griewank function
8融合协同进化算法流程
Fig.8Flowchart of the integrated cooperative co-evolution algorithm
9任务场景空间路径
Fig.9Spatial path of the mission scenario
10相对距离变化
Fig.10Relative distance variation
11顺光角度变化
Fig.11Variation of relative sunlight angle
12适应度变化
Fig.12Variation of fitness
1任务卫星和目标卫星初始状态
Tab.1Initial states of the mission satellite and target satellite
2任务卫星脉冲机动情况
Tab.2Impulse maneuver parameters of the mission satellite
3目标卫星脉冲机动情况
Tab.3Impulse maneuver parameters of the target satellite
HIRIART T, SALEH J H. Observations on the evolution of satellite launch volume and cyclicality in the space industry[J]. Space Policy,2010,26(1):53-60.
赵力冉, 党朝辉, 张育林. 空间轨道博弈: 概念、原理与方法[J]. 指挥与控制学报,2021,7(3):215-224.ZHAO L R, DANG C H, ZHANG Y L. Orbital game:concepts,principles and methods[J]. Journal of Command and Control,2021,7(3):215-224.(in Chinese)
ISAACS R. Differential games:a mathematical theory with applications to warfare and pursuit,control and optimization[M]. New York: Wiley,1965.
BERKOVITZ L D. Necessary conditions for optimal strategies in a class of differential games and control problems[J]. SIAM Journal on Control,1967,5(1):1-24.
PONTANI M, CONWAY B A. Numerical solution of the three-dimensional orbital pursuit-evasion game[J]. Journal of Guidance Control and Dynamics,2009,32(2):474-487.
PRINCE E R, HESS J A, COBB R G. Elliptical orbit proximity operations differential games[J]. Journal of Guidance Control and Dynamics,2019,42(7):1458-1472.
李振瑜, 林鲲鹏, 侯育卓, 等. 航天器追踪-逃逸-防御三方博弈均衡解[J]. 中国空间科学技术(中英文),2024,44(4):90-101.LI Z Y, LIN K P, HOU Y Z,et al. Equilibrium of orbital pursuit-evasion-defense three-sided game[J]. Chinese Space Science and Technology,2024,44(4):90-101.(in Chinese)
黄旭星, 李爽, 杨彬, 等. 人工智能在航天器制导与控制中的应用综述[J]. 航空学报,2021,42(4):524201.HUANG X X, LI S, YANG B,et al. Spacecraft guidance and control based on artificial intelligence:review[J]. Acta Aeronautica et Astronautica Sinica,2021,42(4):524201.(in Chinese)
IZZO D, MÄRTENS M, PAN B F. A survey on artificial intelligence trends in spacecraft guidance dynamics and control[J]. Astrodynamics,2019,3(4):287-299.
朱彦伟, 张乘铭, 杨傅云翔, 等. 航天器轨道追逃动力学与控制问题研究综述[J]. 国防科技大学学报,2024,46(3):1-11.ZHU Y W, ZHANG C M, YANG F Y X,et al. Survey on dynamics and control problem research in spacecraft orbital pursuit-evasion game[J]. Journal of National University of Defense Technology,2024,46(3):1-11.(in Chinese)
ZHU Q, SHAO Z. Real-time receding horizon pursuit and evasion games of missile guidance based on neural network[J]. Aerospace Electronics Information Engineering and Control,2019,41(7):1597-1605.
耿远卓, 袁利, 黄煌, 等. 基于终端诱导强化学习的航天器轨道追逃博弈[J]. 自动化学报,2023,49(5):974-984.GENG Y Z, YUAN L, HUANG H,et al. Terminal-guidance based reinforcement-learning for orbital pursuit-evasion game of the spacecraft[J]. Acta Automatica Sinica,2023,49(5):974-984.(in Chinese)
YANG B, LIU P X, FENG J L,et al. Two-stage pursuit strategy for incomplete-information impulsive space pursuit-evasion mission using reinforcement learning[J]. Aerospace,2021,8(10):299.
CHU X Y, ALFRIEND K T, ZHANG J R,et al. Q-learning algorithm for path-planning to maneuver through a satellite cluster[C]//Proceedings of AAS/AIAA Astrodynamics Specialist Conference,2018:2063-2082.
刘冰雁, 叶雄兵, 高勇, 等. 基于分支深度强化学习的非合作目标追逃博弈策略求解[J]. 航空学报,2020,41(10):324040.LIU B Y, YE X B, GAO Y,et al. Strategy solution of non-cooperative target pursuit-evasion game based on branching deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica,2020,41(10):324040.(in Chinese)
YANG F Y X, YANG L P, ZHU Y W. A physics-informed deep learning framework for spacecraft pursuit-evasion task assessment[J]. Chinese Journal of Aeronautics,2024,37(5):363-376.
许旭升, 党朝辉, 宋斌, 等. 基于多智能体强化学习的轨道追逃博弈方法[J]. 上海航天(中英文),2022,39(2):24-31.XU X S, DANG Z H, SONG B,et al. Method for cluster satellite orbit pursuit-evasion game based on multi-agent deep deterministic policy gradient algorithm[J]. Aerospace Shanghai(Chinese & English),2022,39(2):24-31.(in Chinese)
ZHAO L R, ZHANG Y L, DANG Z H. PRD-MADDPG:an efficient learning-based algorithm for orbital pursuit-evasion game with impulsive maneuvers[J]. Advances in Space Research,2023,72(2):211-230.
WU W, CHEN J, LIU J. A hybrid optimisation method for intercepting satellite trajectory based on differential game[J]. The Aeronautical Journal,2023,127(1312):900-922.
LIU Y H, SHE H P, MENG B,et al. A method of surrounding escapable space target by combining game with optimization[C]//Proceedings of the 42nd Chinese Control Conference(CCC),2023:8088-8093.
吴其昌, 张洪波. 基于生存型微分对策的航天器追逃策略及数值求解[J]. 控制与信息技术,2019(4):39-43.WU Q C, ZHANG H B. Spacecraft pursuit strategy and numerical solution based on survival differential strategy[J]. Control and Information Technology,2019(4):39-43.(in Chinese)
TROJOVSKÁ E, DEHGHANI M, TROJOVSK Ý P. Zebra optimization algorithm:a new bio-inspired optimization algorithm for solving optimization algorithm[J]. IEEE Access,2022,10:49445-49473.