元学习探索隐变量的强化学习方法
作者:
作者单位:

1.军事科学院 国防科技创新研究院, 北京 100071 ; 2.中国人民解放军32806部队, 北京 100091 ;3.西安卫星测控中心, 陕西 西安 710043

作者简介:

李艺颖(1992—),女,山东淄博人,助理研究员,博士,E-mail:liyiying10@nudt.edu.cn

通讯作者:

中图分类号:

TP181

基金项目:

国家自然科学基金青年基金资助项目 (62206307)


Reinforcement learning method via meta-learning the exploring latent variable
Author:
Affiliation:

1.National Innovation Institute of Defense Technology, Academy of Military, Beijing 100071 , China ; 2.The PLA Unit 32806, Beijing 100091 , China ; 3.Xi′an Satellite Control Center, Xi′an 710043 , China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献()
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对智能体传统探索工作对交互数据利用率低或需要其他任务数据的问题,创新性地引入一个表征当前任务特点的可在线学习的探索隐变量,辅助策略网络进行行为决策。无须其他多任务数据,也无须多余的当前任务的环境交互步,探索隐变量在所引入的可学习的环境模型中进行更新;而环境模型又进而通过智能体与真实环境的交互数据进行监督式更新。因此,探索隐变量即在模拟真实环境的模型中提前帮助“探路”,该任务探索信息可帮助智能体在真实环境中加强探索、提高性能。实验在强化学习典型连续控制任务上有约30%的性能提升,对单任务探索工作和元强化学习研究具有指导和借鉴意义。

    Abstract:

    Aiming at the issues of low utilization of interaction data or the need for additional task data in traditional agent exploration work, an online-learnable exploration latent variable that characterizes the current task features to assist the policy network in behavioral decision-making was innovatively introduced. There was no need for additional multi-task data or additional environmental interaction steps in the current task. The exploring latent variable was updated in the learnable environment model, and the environment model underwent supervised updates based on the intelligent agent and real environment interaction data. The exploration in advance in the simulated environment model was assisted by the exploring latent variable, and thus the performance of agents in the real environment was improved. The performance in typical continuous control tasks was raised by about 30% in the experiments, which was of guiding significance for the single-task exploration and meta reinforcement learning research.

    参考文献
    相似文献
    引证文献
引用本文

李艺颖, 周伟. 元学习探索隐变量的强化学习方法[J]. 国防科技大学学报, 2025, 47(5): 197-205.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-05-21
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2025-10-08
  • 出版日期:
文章二维码