深度强化学习在导弹弹道规划中的应用

张敬; 李彤; 李建锋; 谭立国; 张士峰; ZHANG Jing; LI Tong; LI Jianfeng; TAN Liguo; ZHANG Shifeng

深度强化学习在导弹弹道规划中的应用

doi: 10.11887/j.cn.202503012

张敬¹ ，李彤¹ ，李建锋² ，谭立国³ ，张士峰⁴

1. 军事科学院国防科技创新研究院, 北京 100071

2. 哈尔滨工业大学控制理论与制导技术研究中心, 黑龙江哈尔滨 150000

3. 哈尔滨工业大学空间环境与物质科学研究院, 黑龙江哈尔滨 150000

4. 国防科技大学空天科学学院, 湖南长沙 410073

基金项目: 国家部委基金资助项目(2022A000300)

详细信息

作者简介

张敬（1982—），男，四川泸州人，助理研究员，博士，E-mail: zhang505jing@163.com

通讯作者

李彤（1989—），男，河北保定人，助理研究员，博士，E-mail: li_tong122@126.com

中图分类号: TP18；TP27；V24

文献标识码: A

文章编号: 1001-2486(2025)03-109-10

Application of deep reinforcement learning to missile trajectory planning

ZHANG Jing¹ ， LI Tong¹ ， LI Jianfeng² ， TAN Liguo³ ， ZHANG Shifeng⁴

1. National Innovation Institute of Defense Technology, Academy of Military Sciences, Beijing 100071 , China

2. Center for Control Theory and Guidance Technology， Harbin Institute of Technology, Harbin 150000 , China

3. Laboratory for Space Environment and Physical Sciences, Harbin Institute of Technology, Harbin 150000 , China

4. College of Aerospace Science and Engineering, National University of Defense Technology, Changsha 410073 , China

摘要

针对导弹弹道规划问题，搭建了适用性的Gym训练环境，基于双延迟深度确定性策略梯度框架设计了智能体网络结构，根据终端约束和过程约束设计奖励函数，形成了智能弹道规划方法。通过部署于嵌入式GPU计算加速平台，进行了拉偏仿真和对比测试，结果表明：该方法在不同射程任务要求下能够满足导弹能力和过程约束，有效克服环境干扰，具有针对不同对象模型的适应性。同时，该方法计算速度极快，远超流行的GPOPS-Ⅱ工具箱，单步弹道指令计算用时在ms以下，能够支持实时在线弹道生成，为工程应用提供了有效实现途径和技术支撑。

关键词

弹道规划 / 深度强化学习 / 导弹 / 嵌入式GPU平台

Abstract

Aiming for missile trajectory planning, an applicable Gym training evironment was established. An intelligent agent network structure and its reward functions were designed based on twin delayed deep deterministic policy gradient framework and according to terminal and process constraints, forming an intelligent trajectory planning method. Through deploying the algorithm on an embedded GPU computing acceleration platform, bias simulation and comparison tests were conducted. The results show that the method can reach the requirements of missile capability and process constraints under different range tasks and effectively overcome environmental disturbances with adaptability to distinct object models. Meanwhile, the method has an extremely fast calculation speed, far surpassing the popular GPOPS-Ⅱ toolbox. The computation time for single step trajectory command is less than a millisecond so that it can support real-time online trajectory generation, which provides an effective implementation path and technical support for engineering applications.

Keywords

trajectory planning / deep reinforcement learning / missile / embedded GPU platform

1 深度强化学习环境搭建 1.1 导弹动力学与运动学建模 1.2 弹目相对运动描述 1.3 参数偏差与环境干扰 1.4 Gym训练环境搭建 2 基于TD3框架的弹道规划方法设计 2.1 TD3深度强化学习算法框架 2.2 智能体网络结构设计 2.3 奖励函数设计 2.4 智能体训练过程 3 仿真与测试 3.1 仿真与测试环境 3.2 算法有效性测试 3.3 拉偏仿真与性能测试 3.4 运算速度对比测试 4 结论

导弹弹道规划是一个多约束、强非线性的优化问题，贯穿于导弹总体、气动、制导、控制、动力以及结构等各个环节的设计过程。随着最优控制问题研究的深入和技术指标要求的提升，导弹弹道规划方法已由传统基于线性系统的解析方法，逐步发展为以直接法和间接法为主的数值解法，很多学者都对规划方法做了总结归纳和详细综述^[1-7]。由于间接法需要求解Hamilton边值问题，计算较为复杂和烦琐，因此，直接法成为目前主流的弹道规划方法。直接法包含多种不同类型方法，其中应用较为广泛的是伪谱法，尤其GPOPS工具箱软件^[8]的出现使得Gauss伪谱法成为最为流行的弹道规划方法。伪谱法基于多项式有限基函数进行全局插值和配点，将微分方程约束转换为代数约束，并通过多项式求导近似微分方程动力学，因而具有较高的计算效率，同时对于复杂问题也能够分段处理^[9]。但是，随着弹道规划任务的复杂化，例如突发故障、空中变轨以及紧急发射等新需求，伪谱法作为数值解法对计算资源相对依赖，并且解算耗时对于初始节点和配点较为敏感，无法满足求解时间要求，另外，伪谱法无法完全保证求解收敛性，因此，伪谱法难以实现实时在线计算，不满足应用可靠性要求。

随着智能时代的来临，深度强化学习作为智能优化方法得到广泛研究。深度强化学习有效结合了深度学习和强化学习的优势，很好地解决了环境感知与探索决策问题，能够通过环境交互试错自主形成适应实际任务的动作选择策略，具有良好的长期效应和动态鲁棒性^[10]。在路径规划^[11]、轨迹规划^[12-13]和运动规划^[14]等相关领域，一些学者已经基于深度强化学习理论开展了一定研究，但该类研究目前还处于探索阶段，很多研究仍需结合传统技术方案，更多聚焦于局部细节改善，无法实现整体策略的替代，同时这些分析也主要针对应用前景和面临挑战，无法为实际应用提供支撑。随着确定性策略梯度类算法被提出，如确定性策略梯度^[15]（deterministic policy gradient，DPG）、深度确定性策略梯度^[16]（deep deterministic policy gradient，DDPG）以及双延迟深度确定性策略梯度^[17]（twin delayed deep deterministic policy gradient，TD3）等框架，其相比随机性策略梯度不需要在状态和动作空间积分，大幅度减小了训练所需的样本数据，提高了计算效率，因此深度强化学习应用领域愈加广泛，非常适用于解决导弹弹道规划问题，并已在轨迹规划领域取得一定研究成果^[18-20]。同时，GPU计算硬件平台快速迭代发展，已经在一定程度上实现了高性能、低功耗和小型化要求，如NVIDIA公司的Jetson Xavier NX和华为的Atlas 200等，也为深度强化学习在导弹弹道规划问题领域的工程应用提供了硬件支持和实现途径，给予了替代传统弹道规划技术方案的可能。

由此，本文针对导弹弹道规划问题搭建深度强化学习环境，应用TD3框架对弹道规划方法进行设计，并部署于嵌入式GPU平台，通过开展拉偏仿真和对比测试，分析说明本文所设计方法相对传统技术方案的优势性。

1 深度强化学习环境搭建

1.1 导弹动力学与运动学建模

所研究的弹道规划问题主要针对导弹射程范围内的给定射程，在考虑弹道约束条件下，快速生成满足要求的规划弹道。应建立相应数学模型对其运动进行描述，考虑到导弹所执行的任务不同，导弹各项物理参数并不一致，机动方式也不相同，因此，建立明确数学模型是导弹弹道规划方法设计的基础。由于弹道规划不涉及导弹绕质心运动且该动态过程能够用二阶系统近似，因此，基于一般导弹结构和运动特点建立适用于导弹弹道规划的三自由度动力学与运动学模型。导弹动力学模型在速度坐标系中表示如式（1）所示^[21]。

(1)

其中：m和V为导弹质量和导弹速度；θ、ψ_v和γ_v分别为弹道倾角、弹道偏角和速度倾斜角；α和β分别为攻角和侧滑角；P为推力，由地面试车推力和发动机喷管出口压力差构成；g为重力加速度大小，考虑到导弹对象飞行空域和飞行包线，将地球视为匀质圆球处理，不再将重力加速度地视为常数，而将其描述为关于海拔的函数；X、Y和Z分别为阻力、升力和侧向力，由相应气动系数、导弹动压和特征面积乘积得到。由于仅考虑弹体三自由度运动，不涉及导弹舵面操纵，因此气动系数主要与攻角α、侧滑角β以及马赫数Ma相关，采用上述三个因素为变量的三维插值表，通过插值获得相应气动系数，另外空气密度采用国家标准大气模型（见GB 1920—80）。

导弹运动学模型在惯性坐标系下表示为

[\begin{matrix} \frac{d x}{d t} \\ \frac{d y}{d t} \\ \frac{d z}{d t} \end{matrix}] = C (θ, ψ_{v}) [\begin{matrix} V \\ 0 \\ 0 \end{matrix}]

(2)

式中，C（θ，ψ_v）为弹道坐标系至惯性坐标系的方向余弦矩阵。

采用攻角α、侧滑角β和滚转角γ作为弹道指令，可应用于侧滑转弯（skid-to-turn，STT）（γ=0°）和倾斜转弯（bank-to-turn，BTT）（β=0°）机动类型导弹弹道的设计。因此，欧拉角几何关系方程的建立需基于α、β、γ、θ和ψ_v求解γ_v以及姿态角中的俯仰角φ和偏航角ψ，具体方程形式根据坐标系变换转序不同而有所区别。

1.2 弹目相对运动描述

为便于设计深度强化学习奖励函数，需建立导弹相对于指定目标点的弹目相对运动学模型。导弹和目标点分别用M和T表示，则有

(3)

其中，R和

\dot{R}

分别为弹目相对距离及其导数，x_r=x_T-x_M，y_r=y_T-y_M，z_r=z_T-z_M。

纵向和横向视线角q_ε和q_β及其角速率

{\dot{q}}_{ε}

和

{\dot{q}}_{β}

分别表示为

(4)

1.3 参数偏差与环境干扰

参数偏差主要考虑在导弹气动、质量、动力等参数上施加拉偏扰动，通常气动系数拉偏范围为±30%，质量拉偏范围为±1%，推力拉偏范围为±5%，发射角偏差范围为±15°。

环境干扰主要考虑风场扰动，风场模型包括纬圈风和经圈风，本文中忽略风速随纬度、季节等长周期变化项，假设风速仅为高度的函数，其幅值取为随纬度、季节变化峰值内的随机值。风速随高度变化之间的关系如表1所示^[22]。

风场扰动会改变导弹相对于空气相对运动速度大小和方向，计算导弹所受气动力需要考虑由此所产生的附加速度、附加攻角和附加侧滑角。

1.4 Gym训练环境搭建

Gym是OpenAI推出的强化学习训练环境，它覆盖的场景非常多，包括Car-Pole、Mountain-Car以及Atari Go等经典实验和游戏，提供了比较全面的智能体与环境交互功能，极大方便了用户对强化学习算法的实现和验证。

表1风场扰动模型

Tab.1 Model of gust disturbance

本文弹道规划采用Gym框架搭建强化学习的训练环境。Gym环境中主要包含上文建立的导弹动力学与运动学模型、弹目相对运动模型和参数偏差与环境干扰，以及动力学模型所需的导弹质量插值表、发动机推力曲线、三轴气动力三维（攻角、侧滑角和马赫数）插值表、大气压力密度计算、重力加速度计算、坐标转换矩阵解算、欧拉角解算和二阶过渡环节模型。针对STT机动类型导弹弹道规划问题进行研究，因此环境观测状态（state）和智能体动作（action）分别选定为

(5)

考虑导弹模型特性、变量数量级以及输入约束，对环境状态和智能体动作做归一化处理。

(6)

由此，通过上述处理，环境状态变量数量级在[-100，100]之间，智能体动作变量数量级在[-1，1]之间。

环境模型的单步推进（step）通过设定固定步长采用欧拉积分求解，完成结束判断（is_done）为导弹落地或超出过程约束限制。

2 基于TD3框架的弹道规划方法设计

2.1 TD3深度强化学习算法框架

由于弹道连续性与整体性，探索的样本量受到一定限制，且导弹动力学方程计算时间相对较长，因此，更适合确定性策略梯度的深度强化学习算法。采用TD3框架对弹道规划方法进行设计。TD3是一种Actor-Critic框架的深度强化学习算法，在DDPG的基础上拓展而来，能够有效解决DDPG框架的Q网络过拟合问题，防止Q值过估计，是目前性能最优的主流确定性策略算法，其框架如图1所示^[17]。

图1TD3算法框架

Fig.1Algorithm framework of TD3

TD3在DDPG基础上主要采用3个关键技术^[23]提高算法的稳定性和性能，适用于解决弹道规划问题。

1）剪裁双Q学习。由于弹道规划问题中，导弹智能体的探索在经验池中分布不均匀，在采样训练过程中通常会造成Critic网络对Q值的过估计。TD3算法目标估值计算采用双重网络中的最小值，能够有效防止Critic网络非均匀过估计问题。

y = r (s, a) + γ m i n Q_{θ_{i}^{'}} (s^{'}, {\tilde{a}}^{'}) i = 1,2

(7)

式中，y为目标估值，r（s，a）、s和a分别为当前时刻奖励值、环境状态和智能体动作，γ为折扣率，

Q_{θ_{i}^{'}}

（·）（i=1，2）为双重Critic目标网络Q值估计，θ′_i（i=1，2）为双重Critic目标网络参数，s′为下一时刻环境状态，

{\tilde{a}}^{'}

为Actor目标网络下一时刻智能体策略动作的正则化。

2）目标策略平滑正则化。当导弹智能体落点位于目标点附近时，目标估计方差较大，容易导致过拟合问题。TD3引入正则化方法来减少目标值方差，通过添加限幅噪声方式，在目标动作附近一个小邻域内随机生成动作，从而有利于平滑目标估值，防止自举带来的过估计，同时保持目标接近原始动作，提高目标估值准确性，保证网络训练过程的鲁棒性，同时能够改进具有故障情况的随机域，变相增加探索能力。

(8)

其中：π_φ′（·）为Actor目标网络策略；φ′为Actor目标网络参数；ε表示均值为0、标准差为σ、幅值为c的截断正态分布随机噪声。

3）Actor策略延迟更新。在导弹智能体训练过程中，Critic网络收敛是非常缓慢的，虽然随着更新步数上升，Critic网络能够逐渐减小评估值与目标值之间的误差，但Actor网络保持相同更新频率会使策略动作出现离散行为，在DDPG框架下的导弹智能体训练几乎无法收敛。TD3算法通过使Actor网络更新频率低于Critic网络，在保证目标估值稳定后再更新策略，能够解决Actor网络在训练过程中的发散问题。

2.2 智能体网络结构设计

基于TD3框架的弹道规划智能体网络结构需要设计6个神经网络，包括1个Actor网络、1个Actor目标网络、2个Critic网络、2个Critic目标网络。

Actor网络用于实现输入状态s到输出动作a之间的映射，即π_φ（s），φ为网络参数。根据环境状态维数输入神经元个数为6，根据智能体动作维数输出神经元个数为2，考虑到计算精度与模型复杂度，采取4层全连接层反向传播（back propagation，BP）神经网络结构6-256-256-2。同时，为了克服梯度消失问题，提高训练速度，采用修正线性单元（rectified linear unit，ReLU）函数作为激活函数。Actor目标网络与Actor网络结构一致。

Critic网络用于实现从输入状态s和动作a到输出Q值估计函数Q（s，a）之间的映射。根据环境状态维数和智能体动作维数，输入神经元个数为8（6+2），输出神经元个数为1，同样采用4层全连接层BP神经网络结构8-256-256-1，并采用ReLU函数作为激活函数。Critic目标网络与Critic网络结构一致。

2.3 奖励函数设计

导弹弹道规划通常需要考虑终端约束、过程约束及控制量约束。终端约束是指在弹道末端需满足的条件，即最优控制问题中的边界条件；过程约束，即飞行过程中弹道参数必须满足的约束条件，包括导弹能够承受的动压、过载、气动热及机动能力等因素；控制量约束包括攻角、过载或推力等设计输入限制。由于控制量约束已在智能体设计动作范围内给予考虑，弹道约束主要考虑终端约束和过程约束。其中，终端约束包括落角约束和落点约束，过程约束包括法向过载约束和动压约束，具体表示如下。

终端约束：

(9)

过程约束：

(10)

其中，t_f为终端时间，q_d为期望视线角，n_y为导弹法向过载，q为导弹动压，ρ为空气密度。

为引导智能体到达给定目标点，同时满足上述弹道约束，奖励函数由三部分构成。

1）距离奖励：

(11)

式中：R（t-1）和R（t）分别为上一时刻和当前时刻弹目相对距离；||V（t）||为速度矢量大小；w₁为奖励权值系数，默认取值为1。

2）终端约束奖励：

(12)

式中，

(13)

其中：r^tf₂为落点约束奖励，用于激励智能体加速收敛，仅当is_done判断为True且导弹正常落地时生效；d_min为弹目可接受距离；r_act为设定激励值；ζ为常数（取值为20）；指数部分用于约束落角，同时能够使规划弹道更加平滑；w₂为奖励权值系数，默认取值为1。

3）过程约束奖励：

r_{3} (t) = w_{3} \cdot r_{3}^{t_{f}}

(14)

式中，

(15)

其中：r^tf₃为过程约束奖励；该奖励用于惩罚智能体超出过程约束范围，仅当is_done判断为True且导弹超出过程约束时生效；w₃为奖励权值系数，默认取值为1。

最终奖励函数为上述奖励值之和，即

r_{total} (t) = r_{1} (t) + r_{2} (t) + r_{3} (t)

(16)

2.4 智能体训练过程

智能体基于TD3算法更新过程进行训练。训练过程通过在经验池（replay buffer）中采样批次（batch size）数据，对各网络进行更新。除采用上文提到的3个关键技术外，Actor网络通过最大化累积期望奖励进行更新（确定性策略梯度），任选双重Critic网络之一计算Q值，动作不施加噪声，本文选定为双重Critic网络中的第1个Critic网络；双重Critic网络均通过最小化目标估值的时间差分误差（temporal difference error，TD-error）逼近贝尔曼方程进行更新；Actor和Critic目标网络均通过软更新方式进行更新。智能体基于TD3算法整体训练流程如算法1^[17]所示。

算法1 TD3算法智能体训练伪代码

Alg.1 Pseudo code of TD3 algorithm for agent training

3 仿真与测试

3.1 仿真与测试环境

基于TD3弹道规划智能体网络训练选择搭载NVIDIA GeForce RTX 1660Ti独立显卡PC作为硬件平台，仿真与测试环境选择Realtimes RTSO-6002载板搭载NVIDIA Jetson Xavier NX核心作为算法运行的硬件部署环境，其尺寸仅为信用卡大小。软件采用Python语言编写，采用PyCharm作为编译器，由Anaconda进行集成开发，基于PyTorch强化学习架构搭建和OpenAI Gym环境训练，软件环境配置如表2所示。

表2软件环境配置

Tab.2 Software environment settings

选择导弹模型为水平垂直对称结构，导弹纵向和横向动态特性一致，因此为便于测试，弹道规划智能体网络训练仅针对二维纵向弹道，并采用最大设计射程作为固定射程进行训练，网络训练参数设置如表3所示。

表3网络训练参数

Tab.3 Parameters of network training

3.2 算法有效性测试

为验证所设计的弹道规划方法的有效性，选择两个特性不同的导弹模型进行训练，分别为典型岸舰导弹和反坦克导弹，其基本参数如表4所示。

表4导弹模型参数

Tab.4 Parameters of missile model

两个导弹模型的智能体网络分别采用最大设计射程50 km和7 km进行训练，每隔1 000步对训练中的智能体网络进行测试，得到总奖励值和脱靶量，如图2和图3所示。

图2岸舰导弹模型训练过程

Fig.2Training process of anti-ship missile model

图3反坦克导弹模型训练过程

Fig.3Training process of anti-tank missile model

由图2~3可知，随着探索步数增加，两导弹模型智能体网络总奖励值均达到收敛。由脱靶量曲线可以看出，智能体到达目标点成功率逐渐增加，最终落点误差分别为1.25 m和0.57 m，精度达到m级，同时说明弹道满足相应约束。两导弹模型智能体与环境交互结果验证了所设计的深度强化学习弹道规划方法的可行性和有效性，并且说明该方法能够应用于不同导弹模型，具有针对不同对象模型的适应性。

3.3 拉偏仿真与性能测试

为进一步测试所设计的弹道规划方法的性能，考虑1.3节所述参数偏差和环境干扰，针对已训练的岸舰导弹模型智能体网络进行拉偏仿真，在设计射程范围内每隔10 km设定目标射程进行100次Monte-Carlo打靶性能测试，仿真测试步长为10 ms，测试结果如图4~8所示。

由图4~8可知，岸舰导弹模型智能体网络能够克服气动、质量、推力和发射角的参数偏差以及风场环境扰动，达到给定的不同目标射程，满足终端约束和过程约束要求，生成的弹道指令攻角均在动作范围内，并且弹道曲线整体较为平滑，随着弹道射程的增加，攻角曲线逐渐由负向正变化，过渡平缓，符合弹道设计要求。每个目标射程100次仿真平均落点误差分别为2.15 m、1.72 m、0.31 m、1.63 m和1.52 m，弹道落点精度较高。由此，所设计的深度强化学习弹道规划方法能够满足导弹不同射程任务下的鲁棒性要求，具备较好的工程应用前景。

图410 km目标射程Monte-Carlo拉偏仿真

Fig.4Monte-Carlo bias simulation of 10 km target range

图520 km目标射程Monte-Carlo拉偏仿真

Fig.5Monte-Carlo bias simulation of 20 km target range

图630 km目标射程Monte-Carlo拉偏仿真

Fig.6Monte-Carlo bias simulation of 30 km target range

图740 km目标射程Monte-Carlo拉偏仿真

Fig.7Monte-Carlo bias simulation of 40 km target range

图850 km目标射程Monte-Carlo拉偏仿真

Fig.8Monte-Carlo bias simulation of 50 km target range

3.4 运算速度对比测试

为验证所设计的弹道规划方法能够满足导弹制导控制系统计算周期和计算速度要求，本小节以Gauss伪谱法作为对比方法，采用搭载Intel i9-9880H的PC作为计算平台，对比Xavier NX平台的深度强化学习弹道规划方法，测试运行时间及弹道规划结果。Gauss伪谱法计算效率高，应用普遍，在间接法中具有较强代表性，能够作为参考验证性能。

本文采用工具箱GPOPS toolbox，通过Gauss伪谱法，针对岸舰导弹模型及其约束，在设计射程范围内每隔10 km设定目标射程进行弹道规划，规划结果如图9和图10所示，弹道规划用时与已训练岸舰导弹模型智能体网络对比结果如表5所示。

图9Gauss伪谱法不同射程弹道规划结果

Fig.9Results of Gauss pseudo-spectral method for different ranges

图10Gauss伪谱法不同射程攻角曲线

Fig.10Curves of angle of attack of Gauss pseudo-spectral method for different ranges

表5弹道规划用时对比

Tab.5 Comparison of trajectory planning time

由图9和图10可知，Gauss伪谱法相比已训练的岸舰导弹模型智能体网络，所规划的弹道平滑度较差，弹道指令过渡特性不够平缓，部分指令超出了攻角约束范围，并且弹道高度有较大差异，弹道部分阶段达到导弹过载和落角约束极限，弹道能量损耗相对较大。整体而言，Gauss伪谱法弹道规划水平低于智能体网络。

由表5可知，智能体网络弹道规划用时小于GPOPS工具箱。由于智能体网络按10 ms步长生成弹道指令，规划用时随着目标射程而增加，平均每个步长弹道指令生成用时0.232 6 ms，远小于实际导弹要求的1~10 ms制导控制周期，满足实用性和工程性要求。相较而言，Gauss伪谱法受初始配点影响较大，规划用时与目标射程不相关，且规划用时较长，难以支持实时在线规划。由此，智能体网络不仅能够实现整体弹道的离线快速规划，也能够支持弹道指令的在线快速生成，相比传统的弹道规划方法和工具箱，更具有运算速度优势，且嵌入式GPU计算加速平台依托极小尺寸的Jetson Xavier NX，工程实用性较强。

4 结论

本文采用Gym搭建了导弹弹道规划问题的深度强化学习环境，基于TD3深度强化学习框架设计了一种导弹弹道规划方法，并部署于Jetson Xavier NX微小型计算平台，通过拉偏仿真和对比测试对其性能进行了分析和验证。研究表明：

1）所设计弹道规划方法具有较好的鲁棒性和适应性，其与环境的交互策略对于不同射程任务要求均能够满足导弹能力和过程约束，具备应对突发情况和环境干扰的优势；

2）所设计弹道规划方法具有快速性优势，计算速度远超过现有流行软件工具，且单步弹道指令计算用时在ms级以下，能够支持实时在线弹道生成；

3）所设计弹道规划方法能够部署于微小型嵌入式GPU计算加速硬件平台，为工程应用提供有效实现途径和技术支撑。

图1TD3算法框架

Fig.1Algorithm framework of TD3

下载: 全尺寸图片

图2岸舰导弹模型训练过程

Fig.2Training process of anti-ship missile model

下载: 全尺寸图片

图3反坦克导弹模型训练过程

Fig.3Training process of anti-tank missile model

下载: 全尺寸图片

图410 km目标射程Monte-Carlo拉偏仿真

Fig.4Monte-Carlo bias simulation of 10 km target range

下载: 全尺寸图片

图520 km目标射程Monte-Carlo拉偏仿真

Fig.5Monte-Carlo bias simulation of 20 km target range

下载: 全尺寸图片

图630 km目标射程Monte-Carlo拉偏仿真

Fig.6Monte-Carlo bias simulation of 30 km target range

下载: 全尺寸图片

图740 km目标射程Monte-Carlo拉偏仿真

Fig.7Monte-Carlo bias simulation of 40 km target range

下载: 全尺寸图片

图850 km目标射程Monte-Carlo拉偏仿真

Fig.8Monte-Carlo bias simulation of 50 km target range

下载: 全尺寸图片

图9Gauss伪谱法不同射程弹道规划结果

Fig.9Results of Gauss pseudo-spectral method for different ranges

下载: 全尺寸图片

图10Gauss伪谱法不同射程攻角曲线

Fig.10Curves of angle of attack of Gauss pseudo-spectral method for different ranges

下载: 全尺寸图片

表1风场扰动模型

下载: 全尺寸图片

表2软件环境配置

下载: 全尺寸图片

表3网络训练参数

下载: 全尺寸图片

表4导弹模型参数

下载: 全尺寸图片

表5弹道规划用时对比

下载: 全尺寸图片

图1TD3算法框架

Fig.1Algorithm framework of TD3

图2岸舰导弹模型训练过程

Fig.2Training process of anti-ship missile model

图3反坦克导弹模型训练过程

Fig.3Training process of anti-tank missile model

图410 km目标射程Monte-Carlo拉偏仿真

Fig.4Monte-Carlo bias simulation of 10 km target range

图520 km目标射程Monte-Carlo拉偏仿真

Fig.5Monte-Carlo bias simulation of 20 km target range

图630 km目标射程Monte-Carlo拉偏仿真

Fig.6Monte-Carlo bias simulation of 30 km target range

图740 km目标射程Monte-Carlo拉偏仿真

Fig.7Monte-Carlo bias simulation of 40 km target range

图850 km目标射程Monte-Carlo拉偏仿真

Fig.8Monte-Carlo bias simulation of 50 km target range

图9Gauss伪谱法不同射程弹道规划结果

Fig.9Results of Gauss pseudo-spectral method for different ranges

图10Gauss伪谱法不同射程攻角曲线

Fig.10Curves of angle of attack of Gauss pseudo-spectral method for different ranges

表1风场扰动模型

表2软件环境配置

表3网络训练参数

表4导弹模型参数

表5弹道规划用时对比

引用提醒

图(10) / 表(5)

引用本文

张敬, 李彤, 李建锋, 等. 深度强化学习在导弹弹道规划中的应用[J]. 国防科技大学学报, 2025, 47(3): 109-118.

复制

ZHANG J, LI T, LI J F, et al. Application of deep reinforcement learning to missile trajectory planning[J]. Journal of National University of Defense Technology, 2025, 47(3): 109-118.

Copy

计量

图1TD3算法框架

Fig.1Algorithm framework of TD3

图2岸舰导弹模型训练过程

Fig.2Training process of anti-ship missile model

图3反坦克导弹模型训练过程

Fig.3Training process of anti-tank missile model

图410 km目标射程Monte-Carlo拉偏仿真

Fig.4Monte-Carlo bias simulation of 10 km target range

图520 km目标射程Monte-Carlo拉偏仿真

Fig.5Monte-Carlo bias simulation of 20 km target range

图630 km目标射程Monte-Carlo拉偏仿真

Fig.6Monte-Carlo bias simulation of 30 km target range

图740 km目标射程Monte-Carlo拉偏仿真

Fig.7Monte-Carlo bias simulation of 40 km target range

图850 km目标射程Monte-Carlo拉偏仿真

Fig.8Monte-Carlo bias simulation of 50 km target range

图9Gauss伪谱法不同射程弹道规划结果

Fig.9Results of Gauss pseudo-spectral method for different ranges

图10Gauss伪谱法不同射程攻角曲线

Fig.10Curves of angle of attack of Gauss pseudo-spectral method for different ranges

表1风场扰动模型

表2软件环境配置

表3网络训练参数

表4导弹模型参数

表5弹道规划用时对比

BETTS J T. Survey of numerical methods for trajectory optimization[J]. Journal of Guidance, Control,and Dynamics,1998,21(2):193-207.

雍恩米, 陈磊, 唐国金. 飞行器轨迹优化数值方法综述[J]. 宇航学报,2008,29(2):397-406. YONG E M, CHEN L, TANG G J. A survey of numerical methods for trajectory optimization of spacecraft[J]. Journal of Astronautics,2008,29(2):397-406.(in Chinese)

陈聪, 关成启, 史宏亮. 飞行器轨迹优化的直接数值解法综述[J]. 战术导弹控制技术,2009,31(2):33-40. CHEN C, GUAN C Q, SHI H L. Survey of numerical methods for direct aircraft trajectory optimization[J]. Control Technology of Tactical Missile,2009,31(2):33-40.(in Chinese)

陈功, 傅瑜, 郭继峰. 飞行器轨迹优化方法综述[J]. 飞行力学,2011,29(4):1-5. CHEN G, FU Y, GUO J F. Survey of aircraft trajectory optimization methods[J]. Flight Dynamics,2011,29(4):1-5.(in Chinese)

黄国强, 陆宇平, 南英. 飞行器轨迹优化数值算法综述[J]. 中国科学: 技术科学,2012,42(9):1016-1036. HUANG G Q, LU Y P, NAN Y. A survey of numerical algorithms for trajectory optimization of flight vehicles[J]. Scientia Sinica(Technologica),2012,42(9):1016-1036.(in Chinese)

黄长强, 国海峰, 丁达理. 高超声速滑翔飞行器轨迹优化与制导综述[J]. 宇航学报,2014,35(4):369-379. HUANG C Q, GUO H F, DING D L. A survey of trajectory optimization and guidance for hypersonic gliding vehicle[J]. Journal of Astronautics,2014,35(4):369-379.(in Chinese)

崔乃刚, 郭冬子, 李坤原, 等. 飞行器轨迹优化数值解法综述[J]. 战术导弹技术,2020(5):37-51,75. CUI N G, GUO D Z, LI K Y,et al. A survey of numerical methods for aircraft trajectory optimization[J]. Tactical Missile Technology,2020(5):37-51,75.(in Chinese)

PATTERSON M A, RAO A V. GPOPS-Ⅱ:a MATLAB software for solving multiple-phase optimal control problems using hp-adaptive Gaussian quadrature collocation methods and sparse nonlinear programming[J]. ACM Transactions on Mathematical Software,2014,41(1):1-37.

BENSON D A, HUNTINGTON G T, THORVALDSEN T P,et al. Direct trajectory optimization and costate estimation via an orthogonal collocation method[J]. Journal of Guidance, Control,and Dynamics,2006,29(6):1435-1440.

SUTTON R S, BARTO A G. Reinforcement learning:anintroduction[M].2nd ed. Cambridge, Massachusetts: The MIT Press,2018.

段建民, 陈强龙. 利用先验知识的Q-Learning路径规划算法研究[J]. 电光与控制,2019,26(9):29-33. DUAN J M, CHEN Q L. Prior knowledge based Q-Learning path planning algorithm[J]. Electronics Optics & Control,2019,26(9):29-33.(in Chinese)

LI S, WU F, LUO S Y,et al. Dynamic online trajectory planning for a UAV-enabled data collection system[J]. IEEE Transactions on Vehicular Technology,2022,71(12):13332-13343.

李跃, 邵振洲, 赵振东, 等. 面向轨迹规划的深度强化学习奖励函数设计[J]. 计算机工程与应用,2020,56(2):226-232. LI Y, SHAO Z Z, ZHAO Z D,et al. Design of reward function in deep reinforcement learning for trajectory planning[J]. Computer Engineering and Applications,2020,56(2):226-232.(in Chinese)

孙辉辉, 胡春鹤, 张军国. 移动机器人运动规划中的深度强化学习方法[J]. 控制与决策,2021,36(6):1281-1292. SUN H H, HU C H, ZHANG J G. Deep reinforcement learning for motion planning of mobile robots[J]. Control and Decision,2021,36(6):1281-1292.(in Chinese)

SILVER D, LEVER G, HEESS N,et al. Deterministic policy gradient algorithms[J]. Proceedings of Machine Learning Research,2014,32(1):387-395.

LILLICRAP T P, HUNT J J, PRITZEL A,et al. Continuous control with deep reinforcement learning[EB/OL].(2019-07-05)[2023-04-01].https://arxiv.org/abs/1509.02971v6.

FUJIMOTO S, VAN HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[EB/OL].(2018-10-22)[2023-04-01].https://arxiv.org/abs/1802.09477v3.

BAO C Y, WANG P, HE R Z,et al. Autonomous trajectory planning method for hypersonic vehicles in glide phase based on DDPG algorithm[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering,2022,237(8):1855-1867.

XU X B, CHEN Y S, BAI C C. Deep reinforcement learning-based accurate control of planetary soft landing[J]. Sensors,2021,21(23):8161.

WU T C, WANG H L, LIU Y H,et al. Learning-based interfered fluid avoidance guidance for hypersonic reentry vehicles with multiple constraints[J]. ISA Transactions,2023,139:291-307.

钱杏芳, 林瑞雄, 赵亚男. 导弹飞行力学[M]. 北京: 北京理工大学出版社,2022. QIAN X F, LIN R X, ZHAO Y N. Missile flight mechanics[M]. Beijing: Beijing Institute of Technology Press,2022.(in Chinese)

DROB D P, EMMERT J T, CROWLEY G,et al. An empirical model of the Earth′s horizontal wind fields: HWM07[J]. Journal of Geophysical Research: Space Physics,2008,113: A12304.

DONG H, DING Z H, ZHANG S H. Deep reinforcement learning fundamentals,research and applications:fundamentals,research and applications[M]. Berlin: Springer,2020.

首页

期刊介绍

投稿指南

编委会

出版声明

开放获取声明

联系我们

期刊订阅

Rss

AI检索

English

1 深度强化学习环境搭建

2 基于TD3框架的弹道规划方法设计

3 仿真与测试

4 结论