深度强化学习在导弹弹道规划中的应用
作者:
作者单位:

1.军事科学院 国防科技创新研究院, 北京 100071 ; 2.哈尔滨工业大学 控制理论与制导技术研究中心,黑龙江 哈尔滨 150000 ; 3.哈尔滨工业大学 空间环境与物质科学研究院, 黑龙江 哈尔滨 150000 ;4.国防科技大学 空天科学学院, 湖南 长沙 410073

作者简介:

张敬(1982—),男,四川泸州人,助理研究员,博士,E-mail:zhang505jing@163.com

通讯作者:

中图分类号:

TP18;TP27;V24

基金项目:

国家部委基金资助项目(2022A000300)


Application of deep reinforcement learning tomissile trajectory planning
Author:
Affiliation:

1.National Innovation Institute of Defense Technology, Academy of Military Sciences, Beijing 100071 , China ;2.Center for Control Theory and Guidance Technology, Harbin Institute of Technology, Harbin 150000 , China ;3.Laboratory for Space Environment and Physical Sciences, Harbin Institute of Technology, Harbin 150000 , China ;4.College of Aerospace Science and Engineering, National University of Defense Technology, Changsha 410073 , China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献()
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对导弹弹道规划问题,搭建了适用性的Gym训练环境,基于双延迟深度确定性策略梯度框架设计了智能体网络结构,根据终端约束和过程约束设计奖励函数,形成了智能弹道规划方法。通过部署于嵌入式GPU计算加速平台,进行了拉偏仿真和对比测试,结果表明:该方法在不同射程任务要求下能够满足导弹能力和过程约束,有效克服环境干扰,具有针对不同对象模型的适应性。同时,该方法计算速度极快,远超流行的GPOPS-Ⅱ工具箱,单步弹道指令计算用时在ms以下,能够支持实时在线弹道生成,为工程应用提供了有效实现途径和技术支撑。

    Abstract:

    Aiming for missile trajectory planning, an applicable Gym training evironment was established. An intelligent agent network structure and its reward functions were designed based on twin delayed deep deterministic policy gradient framework and according to terminal and process constraints, forming an intelligent trajectory planning method. Through deploying the algorithm on an embedded GPU computing acceleration platform, bias simulation and comparison tests were conducted. The results show that the method can reach the requirements of missile capability and process constraints under different range tasks and effectively overcome environmental disturbances with adaptability to distinct object models. Meanwhile, the method has an extremely fast calculation speed, far surpassing the popular GPOPS-Ⅱ toolbox. The computation time for single step trajectory command is less than a millisecond so that it can support real-time online trajectory generation, which provides an effective implementation path and technical support for engineering applications.

    参考文献
    相似文献
    引证文献
引用本文

张敬, 李彤, 李建锋, 等. 深度强化学习在导弹弹道规划中的应用[J]. 国防科技大学学报, 2025, 47(3): 109-118.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-05-08
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2025-06-03
  • 出版日期:
文章二维码