摘要:在复杂的强对抗环境中,实体感知信息不完整、实时响应要求高,对长时域、前瞻性动态兵力部署决策提出了挑战。如何通过可解释的有效奖励激励,实现策略的高效探索,是利用学习类方法驱动动态兵力部署策略规划的关键。本文针对动态兵力部署问题,首先提出了一种基于沙普利值分解(Shapley Value Decomposition, SVD)多智能体强化学习的策略规划方法,借助沙普利值分解来解释协作多智能体之间的奖励分配,利用基于沙普利分解强化学习方法求解马尔可夫凸博弈策略;其次,围绕海空跨域协同对抗场景,分析异构多实体协同对抗中空间域作战资源的分配,构建动态兵力部署策略规划模型,设计问题的状态空间、动作空间和奖励函数。最后,围绕典型应用场景,利用兵棋推演系统对动态兵力部署问题组织了仿真实验验证,结果表明本文所提方法与多类基线算法相比在动态兵力部署策略规划方面性能优异,同时理论上具备可解释性,学到了“层层拦截、分区对抗,掩护核心、分层破击”长时域动态兵力部署策略。该方法的项目地址:https://gitee.com/jrluo2049/shapleymarl。