卫星集群发展现状与轨迹规划方法综述
doi: 10.11887/j.issn.1001-2486.26020002
周恒1 , 王璟贤1 , 赵勇1,2 , 白玉铸1,2 , 陈致钧3 , 陈荣1,2
1. 国防科技大学 空天科学学院, 湖南 长沙 410073
2. 太空系统运行与控制全国重点实验室, 湖南 长沙 410073
3. 复杂航空系统仿真全国重点实验室,北京 100076
基金项目: 国家自然科学基金资助项目(12502410,12472047,62401597) ; 天基智能信息处理全国重点实验室基金资助项目(TJ-03-25-01) ; 国防科技大学青年自主创新科学基金资助项目(ZK25-67)
Review on the development status of satellite clusters and trajectory planning methods
ZHOU Heng1 , WANG Jingxian1 , ZHAO Yong1,2 , BAI Yuzhu1,2 , CHEN Zhijun3 , CHEN Rong1,2
1. College of Aerospace Science and Engineering, National University of Defense Technology, Changsha 410073 , China
2. State Key Laboratory of Space System Operation and Control, Changsha 410073 , China
3. National Key Laboratory of Complex Aviation System Simulation, Beijing 100076 , China
摘要
卫星集群作为一种分布式协同航天器系统,在对地观测、在轨组装、深空探测等领域具有巨大的应用价值。在空间动态环境与星载计算资源受限等约束下,如何设计高效的集群轨迹规划求解方法是确保集群任务顺利开展的核心问题。面向国内外典型的卫星集群系统,归纳整理了卫星集群的应用场景以及发展趋势。对卫星集群轨迹规划方法研究进行了综述,分别从欧氏空间和流形空间两个维度出发,讨论了现有方法的优缺点。并从当前热门研究的机器学习方法出发,探讨了深度学习和强化学习结合传统方法的卫星集群轨迹规划方法发展现状。最后总结了卫星集群轨迹规划方法面临的问题,并展望了其未来研究方向。
Abstract
Satellite clusters, as a distributed collaborative spacecraft system, possess significant application value in areas such as Earth observation, on-orbit assembly, and deep space exploration. Given the constraints of the dynamic space environment and limited on-orbit computing resources, the primary challenge is to devise an effective technique for cluster trajectory planning to ensure the successful execution of cluster tasks. Based on typical satellite cluster systems both domestically and internationally, related application scenarios and developmental tendencies were summarized. The development status of satellite cluster trajectory planning methods was comprehensively elaborated. From the perspectives of Euclidean space and manifold space, the advantages and disadvantages of existing methods were discussed. Starting from recent popular machine learning techniques, the development status of satellite cluster trajectory planning methods that combine deep learning and reinforcement learning with traditional approaches was introduced. Finally, the challenges were encapsulated, and future research avenues were anticipated.
在当前国际航天竞争日益激烈的背景下,世界主要航天国家正加速部署各类航天器系统,以抢占宝贵的空间轨道与频谱资源。卫星集群作为一种分布式航天器系统架构,凭借其协同与分布式特性,在天基合成孔径雷达干涉测量、稀疏孔径光学成像、地球遥感、天文观测以及深空探测等领域展现出显著的应用潜力。国际上已涌现一系列代表性项目,例如美国国家航空航天局(National Aeronautics and Space Administration,NASA)提出的用于空间成像的“轨道彩虹”微型卫星系统[1];欧空局提出的包含19颗微卫星的小行星数量调查和探索集群(asteroid population investigation and exploration swarm,APIES)项目[2];包含33颗光学测量卫星的微角秒级X射线成像任务[3](micro arcsecond X-ray imaging mission,MAXIM);包含1 000颗皮卫星的探索小行星任务[4-5](prospecting asteroid mission,PAM);包含由数百上千颗100 g级卫星组成、用于稀疏孔径传感或恒星干涉测量的硅晶片集成飞卫星集群(swarms of silicon wafer integrated femtosatellites,SWIFT)项目[6];已经成功发射了105颗皮卫星以验证微小卫星集群空间生存能力的KickSat-2任务[7]
根据卫星集群相关研究及典型项目特征,本文给出定义:卫星集群是由多个卫星组成、在特定空间域内保持稳定相对运动关系,并通过协同轨道设计、通信组网、轨迹规划与控制等技术,以分布式协同方式完成特定任务的航天器系统。与传统结构复杂且冗余度高的大型单体卫星相比,卫星集群通过空间分布形成了更长且灵活可调的基线,同时将功能与载荷分散化,从而有效突破了单体卫星在性能、成本与可靠性方面的局限。为明确概念范畴,本文根据现有文献,对大规模卫星集群、卫星集群、卫星编队、巨型星座、卫星星座等相关概念进行了对比梳理,如表1所示。本文主要围绕卫星集群和大规模卫星集群开展相关调研,但当前的许多文献模糊了卫星编队与卫星集群的概念,所以后续分析中也会引述卫星编队的相关文献,以充分分析卫星集群相关技术的发展现状和趋势。
1不同卫星群概念的特点
Tab.1Characteristics of different satellite cluster concepts
卫星集群的分布式结构是实现协同探测、空间防御等任务功能的基础。然而,物理上的分散并不等同于功能上的协同,其核心在于对集群空间构型的精确操控,主要包括构型维持与构型重构两类操作。构型维持指集群在外部扰动下保持既定阵型,构型重构则要求集群根据任务需求动态调整至最优配置。这两类操作的实现均高度依赖于轨迹规划技术的支撑。轨迹规划技术为集群中的每颗卫星生成从当前位置到目标位置的安全、高效且节能的运动轨迹,是将构型控制意图转化为实际空间运动的关键桥梁。缺乏先进的轨迹规划技术,构型维持与重构便难以实现。尤其在目标高速机动的场景中,传统预设或周期性调整的轨道策略难以适应目标的快速变化与对抗性机动。必须依托实时在线的轨迹规划技术,使集群系统作为一个整体智能响应环境变化,并通过动态构型重构持续优化性能指标,确保对目标的持续跟踪与覆盖。因此,集群轨迹规划技术不仅具有重要的理论价值,也是卫星集群从概念验证迈向工程应用的关键技术,决定了集群任务的最终效能,成为当前国际航天领域围绕卫星集群开展研究的一个重要方向。
1 国内外卫星集群项目发展
现有卫星集群项目可根据卫星数量,划分为中小规模与大规模两类。
1.1 中小规模卫星集群项目
以集群几何构型,特别是星间相对运动关系的约束范围为界定依据,中小规模集群可细分为分布式与接触式两种主要类型。分布式集群指成员卫星间保持特定、非零距离协同工作的构型。接触式集群指各卫星通过引力场或电磁力等方式软连接,集成为一个具有更大功能整体的构型,在轨组装[14]是接触式集群典型的任务场景。此处需要注意,本文所讨论的接触式卫星集群不包括通过电缆或缆绳等物理硬连接方式集结的绳系卫星,这是因为系绳所引发的复杂刚柔耦合动力学问题与松散的分布式集群动力学模型存在显著差异。
1.1.1 Starling集群项目
Starling集群项目[15]是美国国家航空航天局的一项重要项目,旨在验证小型卫星集群的自主编队飞行和分布式导航技术。如图1所示,Starling集群由四颗6U立方星组成,于2023年7月在新西兰的火箭实验室1号发射场发射升空。主要开展了集群重构与轨道维持实验(reconfiguration and orbit maintenance experiments onboard,ROMEO)、移动自组织网络(mobile ad-hoc network,MANET)、Starling编队飞行光学实验(Starling formation-flying optical experiment,StarFOX)、分布式航天器自主(distributed spacecraft autonomy,DSA)系统四项实验。其中StarFOX采用了斯坦福大学研发的角度绝对和相对轨迹测量系统(absolute and relative trajectory measurement system,ARTMS),在轨验证首次仅靠光学相机和星间通信实现集群自主导航。
在完成基础任务后,Starling集群项目延长至2025年12月,称为“Starling1.5”,核心任务是与星链卫星合作开展跨集群的自主协调避撞,双方系统交换轨迹数据,并由Starling自主执行机动。这标志着太空交通管理从“单系统自主机动”迈向了“多系统协同运行”的新阶段。
1Starling集群项目构想图[15]
Fig.1Concept diagram of Starling cluster project[15]
1.1.2 天拓三号集群项目
天拓三号集群由国防科技大学自主设计与研制,为6颗卫星构成的分布式集群系统,包括1颗主星、1颗手机卫星和4颗芯片卫星,于2015年9月通过长征六号运载火箭以一箭二十星方式发射入轨。卫星入轨后,手机卫星与芯片卫星按计划与主星分离,采用主带副模式,通过空间自组网通信实现六星协同集群飞行,如图2所示。该集群中,主星主要负责接收星载航空目标广播式自动相关监视信号及船舶自动识别系统信号;手机卫星以手机主板为核心单元,通过加装电源、通信与姿态控制等模块完成适应性改造,充分利用手机原有硬件加速卫星研制进程。主星与多颗副星协同开展了在轨释放、空间自组网及多星协同操作等多项在轨关键技术验证。
2天拓三号在轨飞行示意图
Fig.2Schematic diagram of Tiantuo-3 in orbit flight
1.1.3 Python4集群项目
Python4[16]由匹兹堡卡内基梅隆大学研制、NASA小型航天器技术项目资助。项目由4颗3U立方星组成,如图3所示,于2024年3月4日在艾姆斯研究中心搭乘猎鹰9号v1.2发射,旨在演示航天器间测距、在轨导航以及协同多点同步辐射测量等任务。Python4采用特殊的电子平台PyCubed,将电力、计算、通信、姿态确定和轨道控制等功能集成到一个单板系统中。PyCubed作为开源系统,完全采用Python编程语言进行编程,并使用价格合理的商业现成组件。
3Python4集群项目的4颗3U立方星[16]
Fig.3Four 3U CubeSats in the Python4 cluster project[16]
1.1.4 Hive在轨自组装试验平台
美国航空航天公司于2018年开始聚焦于模块卫星在轨组装技术,开发名为Hive的智能单元在轨自组装试验平台[17]。该平台由一群卫星单元组成,这些卫星单元可以在空间中组装为特定空间结构或针对各类任务进行构型重构,如图4所示。各单元间可以进行热、电和数据传输,并进行相对滚动、跳跃和交换,按需或自主地进行会合、对接和重构。Hive平台的自组装和多单元协同能力,可以大幅提高空间系统的灵活性和弹性,具有前瞻性和创新性。
4Hive在轨重构示意图[17]
Fig.4Schematic diagram of Hive in-orbit reconstruction[17]
1.1.5 ElectroVoxels可重构机器人
美国麻省理工学院计算机科学与人工智能实验室于2022年开发了一款基于立方体结构的可重构机器人ElectroVoxels[18],如图5所示。受成本、复杂性、组装难度与尺寸限制,传统自重构机器人难以实现规模化应用。为应对这一挑战,ElectroVoxels采用基于电磁铁的驱动框架,通过枢轴机构实现三维重构,其驱动过程无须电机或推进剂,并可在微重力环境下正常运行。该机器人的运动机制依赖于嵌入每个立方体边缘的电磁铁,通过生成相同或相反极化的电磁对,分别产生排斥力或吸引力,从而实现运动与重构。研究表明,这种基于电磁驱动的旋转立方体结构具有构造简单、易于操作与维护的优点,为构建模块化可重构系统提供了可行路径。
5ElectroVoxels实验图[18]
Fig.5ElectroVoxels experimental diagram[18]
以分布式集群和接触式集群为代表的中小规模项目已成为技术验证的主力。分布式集群侧重于功能协同与资源共享,Starling计划、天拓三号和Python4的成功在轨验证,充分证明了其在深空探测、技术实验和对地观测等领域的巨大潜力。其核心挑战在于高精度的相对状态维持、星间通信与自主协同控制。接触式集群则聚焦于在轨构建大型结构,如Hive平台的自主重构和ElectroVoxels的电磁驱动组装,为解决未来大型空间基础设施的在轨建造与维护提供了全新的、低成本的技术路径。其核心难点在于高可靠对接机构设计、多模块重构规划算法与组合体控制技术。
1.2 大规模卫星集群项目
国际上大规模卫星集群项目主要应用于深空探测和稀疏孔径阵列这两大领域。本节将介绍几个具有代表性的大规模卫星集群项目,并概述其发展现状与未来前景,以及涉及的关键技术。
1.2.1 ANTS项目
自主纳米技术集群(autonomic nano technology swarm,ANTS)项目由NASA在2000年提出,目的在于研究革命性技术,用于空间资源探测。ANTS计划包括了超小型化可寻址可重构技术(super miniaturized addressable reconfigurable technology,SMART)、PAM、土星自主环阵列(Saturn autonomous ring array,SARA)、月球基地活动应用(application lunar base activities,ALBA)四个部分[4-5],其中PAM和SARA是以大规模卫星集群开展深空探测的项目。
2003年提出的PAM计划构建由1 000颗各自搭载一种监测设备及星载计算机的微纳卫星组成的大规模集群系统,飞往小行星带探索天体生物学相关起源的资源和材料,其任务模式如图6所示,集群内包含指令官、作业星、通信星等成员协同完成小行星探索任务。由于质量限制,每颗卫星主要以太阳帆作为推进器,利用太阳光压驱动,并辅以微型推进器进行控制。由此限制了卫星的推进器能力,PAM计划不可避免地会面临星间碰撞或与小行星发生碰撞的问题,预计60%~70%的卫星将在探索小行星带的任务中损毁。
6探索小行星的ANTS-PAM计划任务[4]
Fig.6ANTS-PAM mission for detecting asteroids[4]
因此,2004年提出的SARA任务计划考虑研究基于核推进的控制结构,以保证在探测土星环时避免星间碰撞以及卫星与土星环中的物质发生碰撞。SARA的主要任务是采用1 000颗皮卫星对土星环进行原位探测,以了解它们的组成和形成方式。
ANTS项目属于NASA先进概念使命阶段的预研项目,并未投入工程研制,但是该项目的理念对于后续分布式卫星系统的发展意义深远。
1.2.2 APIES项目
APIES是由欧洲宇航防务集团阿斯特里姆公司(European Aeronautic Defence and Space Company Astrium,EADS Astrium)在2004年响应欧洲航天局2002年发布的“群”任务征集的号召而提出的项目[2]。APIES提出以19颗同构的微型卫星组成集群,按照图7所示的构型多次飞越100多颗主带小行星,测量无法通过地面观测轻易获得的小行星特性,包括它们的质量、密度和表面物理特征。
7APIES飞越小行星时的集群构型[2]
Fig.7Cluster configuration of APIES flying over asteroids[2]
APIES项目中的卫星被称为小行星带探索者(belt explorer,BEE),由枢纽与行星际飞行器(hub and interplanetary vehicle,HIVE)使用太阳能电推进器携带大量BEE一起转移到小行星带,然后释放BEE完成集群部署。为了尽可能地增加APIES中BEE的数量,将BEE的质量严格限制到45 kg以下,其中推进系统占总质量的40%~45%,以保证卫星在执行探索小行星任务时的机动能力。APIES任务着重强调了微型卫星的系统小型化设计、推进技术、集群通信技术和自主操控技术。APIES通过大量微小卫星组成集群,能够实现传统航天器无法完成的科学目标。
1.2.3 轨道彩虹与SWIFT
轨道彩虹是NASA先进概念研究所于2014年发布的,应用于未来空间光学、自主系统和光学操纵的科学研究项目[18]。基本思想是利用1 000颗以上的高度小型化卫星在空间中构成光学系统“云”,使其具备可变焦距、组合折射和反射透镜设计以及高光谱成像等功能。应用场景如图8所示,通过大规模的卫星集群构成稀疏孔径阵列,可实现对地球或深空的光学探测。基于此项目,喷气动力实验室(Jet Propulsion Laboratory,JPL)提出了SWIFT概念,包含100~1 000颗100 g级的卫星在低地球轨道上集群飞行,主要应用于稀疏孔径阵列和分布式传感器网络[6]。SWIFT展示了由大规模卫星集群组成的群阵列技术,实现了由光学性能指标驱动的有效稀疏孔径阵列系统。
1.2.4 KickSat-2芯片卫星集群项目
KickSat-2是由康奈尔大学研制的3U立方星,其以堆载形式搭载了105颗Sprite芯片卫星。Sprite由35 mm×35 mm的印刷电路板制成,质量仅为4 g,集成了太阳能电池、传感器(温度计、磁力计、陀螺仪和加速度计)、微型控制器和无线电收发器。这105颗Sprite芯片卫星已于2019年3月18日成功从KickSat-2分离部署,如图9所示,在300 km高度的轨道上形成大规模卫星集群[7]。KickSat-2的主要任务是演示大规模卫星集群的部署,以及验证星间通信网络和对地通信技术。KickSat-2以低成本方式开创了大规模卫星集群在轨技术实验的先河,为后续测量地球磁场和大气、探索地外小行星等科学应用场景打下了基础。
8轨道彩虹任务概念图[8]
Fig.8Conceptual diagram of orbiting rainbows mission[8]
9KickSat-2释放大规模Sprite卫星集群[7]
Fig.9KickSat-2 releases a large-scale Sprite satellite cluster[7]
以ANTS、APIES、轨道彩虹等为代表的大规模集群项目,虽然多数仍处于概念研究阶段,但其所描绘的应用前景极具革命性。这些项目旨在通过成百上千颗微纳卫星的协同,构建稀疏孔径阵列或执行大范围深空探测,实现传统单体航天器无法完成的极高分辨率观测、多目标普查探测等科学目标。
1.3 小结
结合上述分析可知,全球卫星集群技术正处于从概念验证迈向工程应用的关键发展阶段。中小规模集群技术趋于成熟,应用目标明确;大规模集群概念前瞻性强,是未来探索方向。
综合来看,卫星集群技术将从小规模验证走向大规模应用:当前成熟的中小规模集群技术将率先投入业务化应用,成为空间系统的重要组成部分。与此同时,随着自主人工智能、先进通信、新型推进等技术的突破,大规模集群项目将从概念逐步走向现实,开启人类航天活动的新范式。未来的卫星集群将高度智能化,能够根据任务目标自主进行构型设计、轨迹规划、故障重构和协同决策,成为一个真正自主的多智能体集群。因此,集群将凭借其灵活性和冗余性,能够更好地同时服务于通信、导航、遥感等多种任务,实现一簇多用,极大提升空间资源的利用效率和系统的韧性。
2 集群轨迹规划方法
上述各类卫星集群项目,无论其规模大小与构型如何,其功能的实现都依赖于一个关键前提:集群中的卫星必须能够安全、精确、高效地运动到指定的相对位置,并保持期望的协同构型。这正是卫星集群轨迹规划技术所要解决的核心问题。该技术是确保集群从发射部署、在轨运行到任务重构等全周期行为成功的关键使能。接下来,本文将系统阐述卫星集群轨迹规划方法的研究进展。
卫星集群轨迹规划可以理解为多智能体的最优控制问题,通常包含五类要素:目标函数、状态方程、路径约束、边界条件和控制能力约束。可以简单描述为:在时间区间[t0tf]上确定控制输入函数ut)和相应的参考状态变量xt),在满足一系列约束情况下,使得大规模卫星集群从初始构型转换为目标构型,同时使目标函数最优。一般数学表达式可写为
(1)
式中:J表示目标函数,包含两部分,是与初始时间t0、终端时间tf以及对应的初始状态xt0)和终端状态xtf)相关的指标函数,是与中间任意时刻t,以及对应的状态量xt)和控制量ut)的时间积分相关的指标函数;F1表示群系统的动力学约束;F2表示集群中第i和第j个卫星之间要满足的避撞约束,彼此之间的距离大于设定的避撞距离RcaGpos表示状态量中位置项的提取矩阵,M表示大规模集群的卫星数量;x0xf分别表示根据卫星集群的初始构型与目标构型计算的卫星初始与终端状态约束;||·||是求取无穷范数的符号,umax是卫星的控制能力上限值。
易知,卫星集群轨迹规划问题是一个非确定性多项式困难(non-deterministic polynomial-hard,NP-Hard)问题,难以直接进行求解。已有研究所提出的方法包括欧氏空间的直接法、间接法,以及转化到流形空间的测地线方法等。这些方法在求解集群轨迹规划问题时各自对计算效率、轨迹最优性、约束处理能力、初值敏感性等算法性能指标进行提升,但这些算法性能指标往往互相矛盾,难以同时得到提高。接下来针对当前的集群轨迹规划方法进行综述,分为欧氏空间轨迹规划和流形空间轨迹规划方法两类。
2.1 欧氏空间轨迹规划
欧氏空间中的卫星集群轨迹规划方法是指在三维欧几里得空间中,为卫星集群设计满足特定约束条件的最优或可行运动路径的计算方法和策略,可大致分为两类:直接法和间接法。直接法不依赖最优性必要条件的解析推导,其核心思路是将连续的最优控制问题离散化,把状态量和控制量转化为有限维的决策变量,进而将原问题转化为非线性规划或凸优化等数值优化问题,直接通过优化算法求解离散变量以得到近似最优轨迹。求解卫星集群轨迹的常见直接法包括打靶法、配点法、凸优化、参数化近似法、图搜索法、智能优化算法、随机采样法等。
打靶法通过离散集群控制变量,然后积分生成状态轨迹,迭代调整集群控制序列初值以满足终端约束。其特点是变量仅为控制序列,计算量适中;但是一般对动力学模型精度和优化初值极为敏感,且难以直接处理复杂的集群路径约束。近期的研究通过融合其他技术来克服这些不足。针对模型依赖性问题,Cheng等[19]提出Neural-iLQR框架,引入一个结构简单的神经网络,在优化迭代中在线学习局部系统动力学,从而显著降低了对精确先验模型的依赖。为提升计算效率并缓解初值敏感性,Sun等[20]提出降维打靶算法,通过坐标系变换减少需要打靶的变量维度,并推导出降维后打靶方程的解析积分解,从而避免了冗长的轨迹数值积分过程,提高了求解效率。
配点法通过离散状态与控制变量,将最优控制问题转化为非线性规划问题。其中,伪谱法采用全局正交多项式,在精度和收敛速度上优势明显。均匀离散策略的伪谱法易在解决集群轨迹规划问题时引发计算负担与控制精度的矛盾,因此Wang等[21]提出碰撞预警驱动的自适应多段伪谱凸规划方法,通过将任务划分为碰撞预警与非预警阶段,分别采用密集与稀疏离散网格,并结合碰撞约束过滤策略,在不牺牲安全的前提下大幅降低计算复杂度,高效实现集群重构轨迹燃耗最优与避撞需求。Chen等[22]提出两段式伪谱凸闭环控制方法,融合凸优化、滚动时域控制与状态反馈校正机制,既延续了自适应离散对效率与精度的平衡优势,又通过两阶段任务分解与实时反馈,解决了不确定性环境下的集群实时规划与闭环控制问题,实现了从静态重构到动态任务的拓展。
凸优化方法将非凸问题转化为凸问题,计算速度快,且可嵌入凸化后的约束,可以得到全局近似最优解。Huang等[23]针对具有避撞约束的卫星集群能量与时间最优重构问题,通过线性化和凸限制技术对非凸避撞约束进行凸化处理,并结合高斯伪谱法进行求解,但在凸化过程中可能损失了部分最优性。而延伸的序列凸优化方法在解决此类非线性非凸问题时,可通过迭代求解一系列凸化子问题来逼近原问题最优解[21]。但是,基于凸优化理论的方法的应用前提是将非凸的动力学、集群避撞等约束转化为凸约束,可能会存在建模困难的问题。
相比之下,参数化近似法将卫星集群的状态量或控制量直接参数化为B样条、贝塞尔曲线等基函数[24-25],忽略精确建模要求,通过优化基函数系数快速生成光滑轨迹,不仅计算效率高、适配在线规划需求[24],还能与其他优化方法协同互补;但其最优性相对有限,难以精确处理复杂动力学模型与强非线性路径约束[26]。在卫星集群重构及相关空间任务中,参数化方法常被用于简化特定约束条件,成为提升整体规划性能的关键环节。利用参数化方法处理终端构型约束,可将原本需拆分为多个优化问题描述的集群构型重构问题集成到单个模型中求解,有效规避了传统离散方法导致的问题规模膨胀[25]。利用分段三次贝塞尔曲线的曲率连续性,可将移动障碍物避撞等非凸约束转化为可高效求解的实时规划问题,为动态环境下的集群轨迹规划提供简洁可行的约束处理方案[26]
图搜索法可将包含避撞等约束的复杂连续空间离散为简单的图节点进行搜索。例如,Sarkar等[27]利用Voronoi图和Dijkstra算法确定集群躲避空间碎片的备用轨道,虽然计算时间较长,但在有非紧急机动需求时可行。A*算法通过启发函数引导搜索方向,在栅格化地图中能高效找到最短路径[28]。Wang等[29]将A*算法与人工势场法结合规划避撞路径,但没有考虑动态的复杂环境。Li等[30]针对数十个移动障碍物场景,利用A*算法直接规划初始粗轨迹,然后以二次规划(quadratic programming,QP)的形式求解精确轨迹。进一步地,Ren等[31]基于安全区间路径规划和A*算法的搜索规则,设计了规避大量障碍物(包括动态障碍物)的多目标路径规划算法。然而,这种方法生成的是由离散节点连接成的折线路径,忽视了卫星集群连续、平滑的动力学要求,且在高维状态空间(如同时考虑位置、速度、姿态)中面临维度灾难[32]。如果加上这两点考虑,又会增加算法的计算时间,如Weiss等[33]通过安全正不变集将集群约束机动规划问题简化为图搜索,以牺牲计算速度为代价,提高了机动的时间和燃耗效率。
智能优化算法如遗传算法(genetic algorithm,GA)、粒子群优化(particle swarm optimization,PSO)算法、差分进化(differential evolution,DE)算法等凭借群体智能的并行搜索机制,无须依赖梯度信息,具备较好的全局寻优能力,能够有效处理卫星集群轨迹优化场景中的高度非线性问题[34]。相比于图搜索法,智能优化算法在三维复杂环境中具有更好的适用性。Sato等[35]基于多目标遗传算法设计了地球静止轨道卫星集群躲避碎片威胁的机动策略,尽可能减少了燃料消耗。Zhang等[36]提出了一种集群路径最短的粒子群优化方法,相比于标准PSO,路径长度减少66%以上。Hu等[37]通过集成差分进化和粒子群优化算法,提高了集群轨迹的最优性。但是,他们都没有考虑提高算法的计算速度。Seong和Kim[38]对比分析了GA、PSO、DE和模拟退火(simulated annealing,SA)算法在解决集群规避障碍物群时的计算性能,其中DE能获得相对最小能耗的解,但他们的计算时间约为40 min。Yang等[39]和Li等[40]提出了改进的蚁群优化(ant colony optimization,ACO)用于集群轨迹规划,并与标准ACO和GA进行了比较,表现出更快的计算速度和更低的能耗,但计算时间仍然需要数十秒。可见,此类算法普遍存在计算成本较高、收敛性难以严格保证的缺陷,且在多约束、高维或特定复杂场景下难以适用。
随机采样法如快速探索随机树(rapidly-exploring random trees,RRT)或概率路线图(probabilistic roadmap,PRM)可实现高维空间高效探索、高效处理路径约束;概率完备但非确定最优,轨迹可能不光滑。例如,Agachi等[41]针对集群协作与轨迹跟踪需求,提出基于RRT算法的领航-跟随架构,利用RRT算法为领航者生成避障参考路径,充分发挥其高维空间障碍环境探索的优势,但该方法未对RRT本身生成的轨迹光滑性进行额外优化,仍依赖控制策略适配轨迹特性。为了提高轨迹的光滑性,Wu等[42]提出混合PRM算法,在PRM框架中融入B样条算法对生成路径进行光滑优化,解决了传统PRM路径不光滑、质量低的问题,且通过数据驱动的采样策略保留了概率完备性。类似地,Gao等[43]将正不变集与RRT结合生成了时变安全走廊,算法复杂度较高,计算耗时长。Chen等[44]考虑集群动力学约束进行RRT算法的采样,轨迹能耗得到了优化但增加了计算负担。Zhong等[45]将线性二次型调节器(linear quadratic regulator,LQR)和RRT结合,在集群躲避障碍物轨迹的能耗和计算速度之间做了一些平衡。
综上所述,将卫星集群轨迹规划的各种直接求解方法归纳对比如表2所示。
2卫星集群轨迹规划直接法对比
Tab.2Comparison of direct methods for satellite cluster trajectory planning
集群轨迹规划中的间接法是一种基于最优控制理论的经典求解框架,其核心思想是通过变分原理推导出最优轨迹的必要条件,将原始优化问题转化为两点边值问题,再通过数值方法求解[46]。通过间接法能够获得高精度和连续控制的解,但由于其对初始协态变量的依赖性高,相较于其他方法,间接法的计算会消耗较多的计算资源和时间成本。Wang等[47]利用间接法构建集群构型控制的燃耗最优问题,但在求解过程中,由于协态变量缺乏清晰的物理意义,其初始值猜测较为复杂且对边界条件和约束都较为敏感,求解稳定性差。因此,Li等[48]采用了同伦方法来减轻轨迹初始猜测的敏感性和控制不连续性。进一步地,Mitani等[49]将控制输入的幅值与方向约束纳入最优控制框架,通过构造障碍函数将原始约束条件内嵌于性能指标函数中,进而基于Pontryagin极值原理构建了序列无约束集群重构轨迹规划的迭代求解框架。但由于卫星集群动力学的强非线性和复杂的约束条件,基于间接法求解集群轨迹规划问题一般都较为困难,或应用场景受限。直接法和间接法的对比如表3所示。在实际航天任务中,可将间接法与直接法结合,形成直接法初筛、间接法精修的混合策略,以平衡计算效率与精度需求。
3卫星集群轨迹规划的直接法和间接法对比
Tab.3Comparison of direct and indirect methods for satellite cluster trajectory planning
2.2 流形空间轨迹规划
轨迹规划方法通常在欧氏空间中进行,通过欧氏空间的参数对系统位姿进行描述。然而,这类方法忽略了系统位形空间本身所具有的非欧几里得几何与拓扑结构特性,容易导致奇异性、次优解等问题,甚至使算法陷入局部极值[50]
为突破传统欧氏空间轨迹规划方法的局限,可以在流形空间中开展轨迹规划研究。与在欧氏空间中直接进行轨迹规划不同,流形空间轨迹规划方法充分考虑系统位形空间的流形拓扑结构,通过构建系统对应的流形空间,并在该流形上进行轨迹规划。
流形是一类局部与欧氏空间同胚但整体非欧的拓扑空间,是对欧氏空间中曲线、曲面等几何对象的推广。在自然界和工程系统中,许多运动过程本质上都发生在流形空间中。例如,欧氏空间本身可以看作一种特殊的流形;空间中刚体的六自由度运动构成一个光滑流形,即李群;地球表面可视为二维流形;而宇宙空间可视为三维流形。由于流形具有局部欧氏的性质,使得其在复杂动力学系统建模与控制问题中具有广泛应用价值。
本节旨在对流形空间中的轨迹规划方法进行系统性综述。根据方法原理的不同,将其划分为四类:基于李群的优化方法、基于向量场的方法、基于采样的流形扩展方法以及基于不变流形的方法,并分别分析各类方法的基本原理及其优缺点。最后,进一步介绍基于流形空间的卫星集群轨迹规划方法,并讨论其流形空间的构建方式。
1)基于李群的优化方法将轨迹规划构建为在李群流形上的非线性优化问题,直接对流形上的状态变量进行优化。该方法将轨迹离散为一系列位于李群上的路径点,优化的目标是寻找一个路径点序列,使性能指标最优,同时满足动力学、避障等约束[51]。优化的核心是在弯曲的流形上执行梯度下降等迭代操作。该迭代操作一般通过伴随映射和指数映射,实现李代数和李群之间的变换[52]。例如,Cao等[53]利用对偶四元数对集群位姿动力学统一建模,Zhen等[54]在刚体运动的特殊欧几里得群空间中建立了集群动力学和控制模型。该方法的优点是避免了参数化带来的奇异点问题,精确表达系统的几何结构,并且可以处理复杂的动力学与几何约束[55]。其缺点是需要基于微分几何和李群理论严格推导,涉及李代数运算、指数映射和伴随变换等;并且整个优化迭代过程计算量较大,对于高动态、高频率的实时规划场景适用性较弱。
2)基于向量场的方法通过在位形空间流形上构建一个向量场,使得系统的积分曲线能够引导系统从起点到达目标点,并避开障碍物[56]。其代表性算法为李雅普诺夫向量场方法,该方法的核心是设计一个李雅普诺夫函数,其梯度构成一个向量场[57]。该向量场在目标点处形成唯一的吸引子,在障碍物附近则表现为排斥力。系统只需沿着该向量场的方向运动,即可实现轨迹规划。Hough等[58]提出的李雅普诺夫向量场方法,为集群飞行提供了有效的轨迹生成与控制策略,其设计的向量场保证了全局的渐进稳定,不会陷入局部极小值。Rybus[59]则将此思想用于集群避障规划,其构建的障碍物矢量场直接确定了机械臂在关节空间流形上的运动方向,本质上是从环境层面直接对系统个体产生作用,避免了传统人工势场法的陷阱。这类方法的优点是实时性高,向量场的计算通常是解析的,速度极快,非常适合实时避障和应对动态环境。相比于迭代优化方法,向量场概念更直观,实现难度中等,而且可通过组合或叠加向量场来处理集群的协同运动,具有良好的规模适应性。该方法的缺点首先是难以保证全局最优性;其次在具有复杂拓扑结构的流形和复杂障碍物环境中,难以设计李雅普诺夫函数。
3)基于采样的流形扩展方法的原理是将经典采样方法扩展到流形空间中,以处理复杂的几何和约束。这类方法通过在位形空间流形中随机采样点,并尝试连接这些点来构建一个可行的路径图。在此过程中通常通过计算测地线或其近似来实现流形空间上的路径图搜索[60]。Jaillet和Porta[61]提出AtlasRRT算法,通过构建图集整合局部坐标卡的采样与连接,结合双向RRT策略高效探索闭环约束下的配置空间流形,有效解决了高维约束规划问题。这类方法适用于卫星集群这样的高维复杂空间,只要路径存在,且求解时间足够,总能以极高概率找到一条解。此外,采样方法不依赖代价函数的梯度,可处理非光滑问题。但其缺点是只能实现局部最优,且计算效率低,不适合需要快速重规划的动态场景。
4)基于不变流形的方法通过利用系统动力学在相空间中的不变流形来寻找特殊轨迹。例如,在深空探测卫星集群的多体引力场景中,拉格朗日点或周期轨道的稳定与不稳定流形在相空间中构成了复杂的流形结构[62]。只需施加少量推力,集群卫星便可沿着这些流形进行转移。Du等[63]通过拼接不同不变流形段,设计了地月空间的低推力转移轨道。Wang等[64]则利用此方法设计了日心轨道之间的转移轨迹。对于近距离相对运动,Gurfil等[65]也分析了其位形空间的几何结构,并确定了相应的相对运动不变流形。基于不变流形的方法充分利用系统的内在动力学特性,设计的轨迹稳定且高效,可以找到全局或接近全局最优的低能耗转移轨道,显著降低轨道转移的能耗。但其缺点是高度依赖于特定系统的动力学模型,不具备通用性,无法用于典型的集群轨迹规划问题。此外,不变流形的计算需要高精度的数值积分和复杂的数学工具,计算量巨大,通常只能离线进行,且在该框架下难以考虑更多的复杂约束。
综合上述分析,流形空间轨迹规划方法为解决卫星集群这样的分布式协同系统提供了一个重要研究方向,其重点考虑规划对象的几何拓扑结构,为解决传统规划算法的理论与实践难题提供了强有力的数学框架。其数学框架不仅能够描述系统的非欧几里得几何属性,也为最优控制问题提供了新的物理和几何解释,使得轨迹规划过程可以通过几何测地线来刻画系统的能量与约束演化关系。在此基础上,可以将欧氏空间中的最优控制问题转化为测地线的求解问题,形成基于测地线的集群轨迹规划流形方法。如图10所示,记第i个卫星的位置向量为ρi,在欧氏空间中,轨迹长度通常通过计算集群的欧氏距离总和Σi=1NLiE来评价,但轨迹长度与系统能量并无直接关联,例如卫星集群的自然漂移运动虽然是能量最优轨迹,但并不是直线。将卫星集群这样的复杂系统作为整体,研究群内约束和外部作用对整体的影响,有助于实现集群整体全局能量优化[66]
10流形空间和欧氏空间的对比
Fig.10Comparison between manifold space and Euclidean space
式(1)的解为受到多重约束作用的集群状态空间上的积分曲线。在传统欧氏空间中,难以直接描述此类同时考虑避撞约束与任务约束条件下的卫星集群状态空间,而流形方法则通过引入度量矩阵G重构状态空间的几何结构。该重构使得:①等式约束可被编码为切空间结构;②不等式约束可通过度量矩阵G调节;③优化问题可被转化为求解流形空间积分曲线长度L的问题(其中L由度量确定,表征系统能量)。因此,如图10所示,设x为集群内所有卫星的状态,在状态空间这样的抽象流形中,积分曲线长度L可以表示系统的总能量。求解L的最小值等价于求解集群轨迹规划问题的全局最优解[67]
L的最小值在流形上被称为测地线。在能量层面,测地线可以等价于使系统能量取极值的积分曲线。为了确定测地线,需要先定义一个标尺,用于衡量流形空间中积分曲线的长度。在欧氏空间中,线段通常用线元作为标尺。在流形空间中,可以使用黎曼度量的性质对标尺进行定义,即
dL=(x˙(t),Gx˙(t))12
(2)
式中,G为度量矩阵,用于修正流形空间上的标尺与欧氏空间内积标尺的差异。G作为标尺,决定了流形空间的结构和属性。因此,可以通过合理地设计G,使流形空间中的积分曲线满足集群轨迹规划问题中的等式和不等式约束。因此,测地线等价于
minL=min(x˙(t),Gx˙(t))12
(3)
在局部坐标系(x1,···,xn)下,测地线满足如下微分方程组:
d2xidt2+Γkjidxkdtdxjdt=0
(4)
式中,使用了爱因斯坦求和约定,Γjki为Christoffel符号,其表达式为:
Γjki(x):=12Σlgilgljxk+glkxj-gjkxl
(5)
基于测地线的轨迹规划流形方法,相比于欧氏空间方法具有降低对初始猜想的依赖、减少陷入局部极值的风险、将多约束内蕴于几何结构以及自然融合集群状态属性的优势,图11展示了卫星集群在轨组装流形在欧氏空间的嵌入示意图。其中,Si表示第i个卫星。该方法可应用于卫星集群轨迹规划、在轨组装以及多集群轨迹冲突消解等任务中[68-69]。不同的流形空间轨迹规划方法对比如表4所示。
11卫星集群在轨组装流形在欧氏空间的嵌入示意图
Fig.11Schematic diagram of the manifold of an in-orbit assembly satellite cluster embedded in Euclidean space
4不同的流形空间轨迹规划方法的特点
Tab.4Characteristics of different manifold space trajectory planning methods
2.3 当前方法的主要挑战
现有方法在解决中小规模卫星集群任务相对简单的轨迹规划问题时已取得较好效果,但是面向规模更大、约束条件更复杂、实时性要求更高的复杂任务场景,仍面临以下挑战:
1)约束规模与处理能力难以匹配。随着卫星成员数量的增加,成员间避障约束数量呈ON2)增长(其中,N为成员数量),这为约束处理带来了挑战。由于间接法不适合用于求解约束复杂的大规模集群避障问题,现阶段主流方法是采用直接法近似求解,但是直接法将连续时间离散化,只能保证在离散节点满足约束,无法保证任务全程始终满足约束条件。
2)求解精度与计算效率难以兼得。当前各类方法各有侧重,追求更快的计算效率往往以牺牲计算精度为代价,反之亦然。为解决这一问题,未来的研究趋势将更多地集中在混合方法的探索上。例如,利用机器学习或采样方法为优化方法提供高质量的初始解,以加速收敛并跳出局部最优;或将基于向量场的实时避障能力与优化方法的最优性保证结合。最终目标是发展出既能保证安全性、最优性,又具备高实时性和强环境适应性的新一代轨迹规划算法,以应对日益复杂的自主系统挑战。
3 融合机器学习的轨迹规划方法
近年来机器学习的快速发展,尤其是深度神经网络(deep neural network,DNN)在强非线性拟合、不确定性量化和高精度非线性动态模型建立等方面的突出表现,促使研究者不断挖掘机器学习解决卫星集群轨迹规划问题的潜力。本节结合深度学习与强化学习的相关研究成果,综述其在卫星集群轨迹规划问题求解方面的发展现状。
3.1 深度学习轨迹规划
基于深度学习的卫星集群轨迹规划方法主要是采用传统轨迹规划方法生成大量数据作为训练集,通过建立代理模型学习从问题到解的内在映射关系。
传统基于间接法的最优轨迹规划方法对初值敏感、收敛困难,因此需要计算初始协态变量解,但是初始协态变量解的求解需要耗费大量时间。研究者以航天器的状态作为输入,以传统方法解算得到的初始协态变量解作为输出,学习两者之间的映射关系。刘宇航等[70]针对变比冲连续推力轨迹优化问题,提出了基于DNN的协态变量初值高精度估计方法,实现了对初始协态变量的快速求解。李海洋等[71]采用DNN方法对连续推力燃料最优控制的燃料消耗进行快速预测,比较了多种轨道组合输入对预测结果的影响,并将神经网络的预测结果与Lambert估计方法进行对比以说明方法的有效性。Chen等[72]针对时间最优轨迹规划问题,提出了一种基于代理模型的初始协态变量快速估计方法。D′Ambrosio等[73]针对最优拦截问题,提出了Pontryagin神经网络(Pontryagin neural networks,PoNN),以神经网络作为函数逼近器,以庞特里亚金极小值原理作为物理约束,在无须大量离线训练数据的情况下,直接求解出满足最优性必要条件的最优拦截轨迹。
进一步地,利用DNN离线预先学习实时最优控制策略,可满足转移的实时性和最优性要求。例如,Izzo等[74]提出了一种G&CNETs网络控制系统,使用DNN学习了状态-动作对,得到的代理模型能够实现连续推力轨迹的实时规划。刘宇航和杨洪伟[75]提出了一种基于DNN的变比冲连续推力交会的实时控制方法,可应用于各种空间任务场景,例如集群小行星着陆问题[76]、在轨服务场景下的元学习[77]和深度核学习[78]方法等。
由以上分析可见,深度学习方法主要用于加速轨迹规划问题的求解,满足轨迹快速求解与实时规划的要求,其典型用途之一是作为底层轨迹规划器与上层优化算法相嵌套以加速总体任务规划。但是,深度学习方法依赖传统的规划方法生成大量的高质量轨迹参考数据进行训练。此外,利用训练好的模型进行轨迹规划时,可能出现违反集群动力学约束的情况,而且往往难以高效处理星间避撞、通信等约束。
3.2 强化学习轨迹规划
强化学习在智能决策领域快速发展,其表现出的对不确定模型和动态环境适应性强、鲁棒性好的优势,促使越来越多的学者尝试将强化学习算法应用于卫星集群轨迹规划与控制问题[79],包括轨道交会[80]、空间碎片预警与自动避障[81]、轨道博弈[82]等任务场景。随着智能体规模的扩展,单智能体强化学习逐渐向多智能体强化学习方向拓展[83],多智能体强化学习方法是指由多个智能体组成的系统,通过与一个共同的环境进行互动最大化长期累积折扣奖励,使每个智能体学会一个策略,使得所有智能体一起实现系统的目标[84]。在卫星集群中,每一颗卫星可视为一个具有一定传感、计算、执行能力的智能体,智能体通过网络与其他智能体通信,相互协作完成任务。每个智能体具有一定的独立性和自主性,能够自主学习、推理和规划,并选择适当的策略解决子问题,通过多个具备简单智能的个体相互协作实现复杂的智能。
在多智能体强化学习领域中,卫星集群轨迹规划与控制问题可视为一个多智能体马尔可夫决策过程(multi-agent Markov decision process,MAMDP),通常可采用一个六元组进行描述。
(6)
式中: ={1,2,···,N}表示多智能体的集合;表示全局状态空间,记stsit分别为全局状态和第i个智能体的状态;表示第i个智能体的动作空间,为联合动作空间,记atait分别为联合动作和第i个智能体的动作;p表示状态转移概率,定义为p: ,即在当前状态采取联合动作得到下一时刻状态的概率;表示第i个智能体的局部奖励;γ∈(0,1)表示折扣因子。多智能体强化学习算法的目标通常是寻求联合策略π=(π1π2,···,πN)以最大化联合奖励r的数学期望。
J=EτπΣt=0Tγtrst,at
(7)
基于当前研究,可将多智能体强化学习方法分为中心式学习、分散式学习、中心式训练和分散式执行(centralized training with decentralized execution,CTDE)三大类[85]。在中心式学习架构中,所有智能体之间可以通过中央处理器共享观测、动作、奖励、策略等信息,根据全局状态信息学习一个联合策略。典型方法包括联合Q学习[86]等方法。但是该架构面临维度爆炸的问题,当智能体数量增加,联合动作空间呈指数级增长,采样效率低并且难以学习到合适解。集中式架构适用于智能体数量较少、智能体间关联较强、通信不受限制的任务场景。
在分散式学习架构中,智能体仅根据自身局部观测信息学习策略,将其他智能体视为环境的一部分,最大化智能体集群的联合奖励函数。典型方法包括独立Q学习[86](independent Q-learning,IQL)、独立近端策略优化[87](independent proximal policy optimization,IPPO),分散式学习架构不存在中心式所面临的可扩展性和通信问题。但是由于每个智能体各自为阵、独立学习策略,环境中智能体动态性很强,面临环境非平稳性的问题。分散式学习架构适用于智能体间关联相对较弱、任务较为简单的场景。
为了解决上述问题,提出了中心式训练和分散式执行架构,该架构成为当前多智能体强化学习的主流框架,训练阶段采用中心式学习的思想,通过所有智能体的观测和动作信息学习策略;测试阶段采用分散式学习的理念,仅根据各智能体局部信息执行决策,兼顾了集中式学习全局最优和分散式学习分布式可扩展的优势。根据不同的强化学习机制,围绕值函数学习和策略梯度两大流派,CTDE架构大致可分为基于值函数分解和基于策略梯度两类方法[88]
值函数分解法通过确定每个智能体在联合奖励中扮演的角色,将全局联合动作值函数分解为多个独立的局部值函数。当各智能体的奖励可以通过奖励塑形直接划分和度量时,该问题简化为训练多个独立的学习者。典型的值函数分解法包括值分解网络[89](value-decomposition networks,VDN)、Q值混合[90](Q-value mixing,QMIX)、Q变换[91](Q-transformation,QTRAN),主要的区别在于联合动作值函数的获取方法不同。
VDN提出了独立全局最大(individual-global-max,IGM)条件,针对N个智能体,联合动作值函数Qtot可分解成N个仅依赖局部信息的值函数,利用线性加和的方式计算联合值函数。
Qtot =Σi=1NQisi,t,ai,t
(8)
因此,每个智能体选择使其自身值函数最大的动作作为联合动作,即可获得整体的最优联合策略。
(9)
QMIX在VDN的基础上增加了单调性约束,要求
Qtot Qi0,i
(10)
进一步满足了IGM条件。QTRAN进一步提出联合动作值函数无须满足线性加和的要求,引入了一个值函数Vtot,用于刻画实际值函数与线性加和项间的关系。
Vtot =maxat Qtot st,at-Σi=1NQisi,t,a¯i,t
(11)
式中,a¯it=argmaxaitQisitait,并证明当策略为最优策略时,满足式(8);当策略不为最优策略时,应满足
Qtot st,atVtot st,at+Σi=1NQisi,t,ai,t
(12)
QTRAN的分解结构相较于前两者更为通用。Kankashvar等[92]针对卫星集群构型重构跟踪问题,设计了基于Q值学习的多智能体强化学习方法。各智能体采用相同的值函数,并且当智能体更新策略后立即与其他智能体共享策略参数,以减少计算负担。
策略梯度法将智能体的策略πθ视为包含参数θ的网络,采用梯度上升的方法最大化期望奖励。演员-评价者(actor-critic,AC)算法是策略梯度法的一类重要变体,由演员网络和评价者网络组成,其中Actor网络主要用于生成智能体的策略,其优化参数即为策略参数θ,Actor网络损失函数通常可写为
(13)
Critic网络用于评价当前状态和策略的动作值函数,其网络参数记为φ,Actor网络根据Critic网络的评价优化策略,Critic网络损失函数通常可写为
(14)
在CTDE架构下,每个智能体均拥有一个自己的Actor网络,Actor网络根据局部状态信息进行训练,而Critic网络输入全局信息和动作以维持环境的稳定性,Critic网络可分为两种情况:N个智能体共享一个Critic网络和N个智能体拥有N个Critic网络(即每个智能体独立拥有1个Critic网络)。基于CTDE架构的多智能体策略梯度方法原理如图12所示,典型方法包括多智能体深度确定性策略梯度[93](multi-agent deep deterministic policy gradient,MADDPG)方法和多智能体近端策略优化[94](multi-agent proximal policy optimization,MAPPO)方法等。
许旭升等[95]针对多对一卫星集群追逃博弈问题,提出了一种基于MADDPG的多智能体博弈策略,卫星集群涌现出协同围捕、智能拦截、合作追逐、预测潜伏等多种博弈范式。Li[96]针对卫星集群协同任务,提出了一种MAPPO专家混合转换模型框架,将转换序列建模和专家引导网络结合,增强集群的感知与计算能力,利用编码器网络共享有效的时间感知数据,利用解码器网络快速做出最优决策。Zhang等[97]针对多星轨道拦截问题,提出了一种基于注意力机制的多星拦截策略,利用注意力机制捕获卫星间的潜在关联,生成具有偏向性的编码信息,辅助生成高效协同拦截策略。
12基于CTDE架构的多智能体策略梯度原理图
Fig.12Schematic diagram of multi-agent policy gradient based on CTDE architecture
综上所述,多智能体强化学习领域的快速发展为卫星集群轨迹规划提供了丰富的工具,典型算法的对比情况如表5所示。
3.3 当前方法的主要挑战
深度学习与大数据的发展促使机器学习焕发新的活力,但是存在以下几个问题制约了机器学习算法在卫星集群轨迹规划上的应用:
1)深度学习训练量大。基于监督学习的深度学习算法需要大量离线数据进行训练,但是对于卫星集群轨迹规划问题,真实数据成本高昂,仿真数据存在偏差,如何减少离线数据样本量成为制约深度神经网络应用的核心问题。研究人员引入小样本学习[98]、内嵌物理知识神经网络[73]等方法,以减少对数据的依赖。
2)强化学习训练时间长。虽然强化学习训练完成后运算速度快,但是传统优化方法的求解速度仅为秒级、分钟级,而强化学习在与环境的交互中实时采集数据、迭代训练,通常需要耗费数小时甚至数天的时间才能完成,致使强化学习算法在解决白盒问题时训练成本较高、优势并不显著。从算法架构上,引入并行计算和GPU加速,加快数据处理速度;从采样效率上,引入优先经验回放[99]、事后经验回放[100]等采样方法,提高有效数据利用率;从训练策略上,结合模仿学习[101],先利用专家数据预训练,再利用强化学习微调,降低训练难度。
5卫星集群轨迹规划机器学习方法对比
Tab.5Comparison of machine learning methods for satellite cluster trajectory planning
当前,大规模卫星集群的管理需求促使卫星向智能化、网络化方向演进,而大语言模型(large language models,LLM)技术的研究热潮为卫星轨道控制技术革新注入了新的动力。在此背景下,正迎来全新的机遇:
1)大规模卫星集群发展需求。随着卫星集群成员数量的增加,多智能体安全强化学习算法中联合状态空间与联合动作空间维度呈指数级膨胀,进而导致环境非平稳性加剧。为了解决上述问题,研究人员提出了平均场多智能体强化学习[102],利用等效场代替多个智能体对单个智能体的影响,将高维复杂问题简化为低维问题。
2)大模型发展热潮。2025年7月,麻省理工学院团队在坎巴拉太空计划微分博弈(Kerbal space program differential games,KSPDG)挑战赛中,围绕追逃博弈、目标守卫、太阳遮蔽三个任务场景,开发了一款基于大模型的方案。团队将航天器的状态和目标翻译成文本提示输入生成式预训练转换器3.5(generative pre-trained transformer 3.5,GPT-3.5)和Meta AI 大型语言模型(large language model Meta AI,LLaMA)中,大模型生成文本建议并将其转换成可执行的代码来控制航天器。这一方案在比赛中获得了第二名,仅次于基于精确物理方程的模型[103]。2025年12月,NASA首次用Claude大模型为毅力号火星车规划路径,火星车在火星表面岩石区域行驶了约400 m。NASA首先向Claude提供火星车以往的数据,然后输入火星地形数据和卫星影像,Claude通过分析输入的信息,识别重要的地形特征,生成路径点,进而基于路径点编写控制指令。工程师在发送指令前,使用未输入Claude的表面相机图像进行微调[104]。大模型的发展热潮为卫星集群智能规划提供了新的思路,加速了卫星集群控制管理智能化发展。
4 总结与展望
本文以举例的形式介绍了当前卫星集群相关项目/计划的发展现状,并较为全面地综述了实现卫星集群效能的关键技术——集群轨迹规划方法的研究现状和发展趋势。卫星集群项目/计划正蓬勃发展,未来将成为空间飞行器系统的一个重要组成部分,凭借其功能灵活、构型多变、系统稳定性强的特点,将在对地观测、空间操控、深空探测等领域发挥重要作用。
近年来,随着微分流形理论和人工智能领域的兴起,卫星集群轨迹规划正从传统的欧氏空间向流形空间演进,从传统的优化理论向智能融合方向发展。本文系统性地梳理了卫星集群的轨迹规划方法,包括传统欧氏空间的直接法和间接法、流形空间方法、融合机器学习的轨迹规划方法,体现了集群分布式、多约束和智能化的发展趋势。卫星集群轨迹规划的核心目标是实现轨迹最优性、计算效率与求解精度的协同提升。面对百星级规模的实时规划需求,传统方法可采用分布式计算避免计算耗时随星数增加指数级增长,但在工程实际中需要付出较大的通信代价。当前研究普遍转向机器学习算法以求突破,虽能提供毫秒级响应,但其依赖海量数据训练的特性对星载处理器、AI芯片功耗及在轨能源供给构成了严峻挑战,成为在轨学习发展的关键瓶颈,限制了其在长期任务中的应用。与此同时,通信约束也是卫星集群自主轨迹规划的一个重要约束,深空探测任务中星间通信面临分钟级延迟,例如木星轨道集群协同控制,必须发展具备高度自主与分布式智能的集群架构,提出新概念卫星集群。
总之,针对卫星集群轨迹规划算法设计问题,可以继续推动传统优化方法与机器学习、人工智能乃至大语言模型的深度融合,以系统提升算法的智能水平和实用效能。在工程实现路径上,可以依靠高保真的地面半实物仿真技术进行充分验证,并最终通过低成本、模块化的在轨演示验证任务,为这些创新算法与架构提供可靠的太空环境实验,加速其技术成熟与任务应用。
1Starling集群项目构想图[15]
Fig.1Concept diagram of Starling cluster project[15]
2天拓三号在轨飞行示意图
Fig.2Schematic diagram of Tiantuo-3 in orbit flight
3Python4集群项目的4颗3U立方星[16]
Fig.3Four 3U CubeSats in the Python4 cluster project[16]
4Hive在轨重构示意图[17]
Fig.4Schematic diagram of Hive in-orbit reconstruction[17]
5ElectroVoxels实验图[18]
Fig.5ElectroVoxels experimental diagram[18]
6探索小行星的ANTS-PAM计划任务[4]
Fig.6ANTS-PAM mission for detecting asteroids[4]
7APIES飞越小行星时的集群构型[2]
Fig.7Cluster configuration of APIES flying over asteroids[2]
8轨道彩虹任务概念图[8]
Fig.8Conceptual diagram of orbiting rainbows mission[8]
9KickSat-2释放大规模Sprite卫星集群[7]
Fig.9KickSat-2 releases a large-scale Sprite satellite cluster[7]
10流形空间和欧氏空间的对比
Fig.10Comparison between manifold space and Euclidean space
11卫星集群在轨组装流形在欧氏空间的嵌入示意图
Fig.11Schematic diagram of the manifold of an in-orbit assembly satellite cluster embedded in Euclidean space
12基于CTDE架构的多智能体策略梯度原理图
Fig.12Schematic diagram of multi-agent policy gradient based on CTDE architecture
1不同卫星群概念的特点
Tab.1Characteristics of different satellite cluster concepts
2卫星集群轨迹规划直接法对比
Tab.2Comparison of direct methods for satellite cluster trajectory planning
3卫星集群轨迹规划的直接法和间接法对比
Tab.3Comparison of direct and indirect methods for satellite cluster trajectory planning
4不同的流形空间轨迹规划方法的特点
Tab.4Characteristics of different manifold space trajectory planning methods
5卫星集群轨迹规划机器学习方法对比
Tab.5Comparison of machine learning methods for satellite cluster trajectory planning
QUADRELLI M B, BASINGER S, ARUMUGAM D,et al. NIAC phase Ⅱ orbiting rainbows:future space imaging with granular systems2[R/OL].[2026-01-17].https://ntrs.nasa.gov/api/citations/20170004834/downloads/20170004834.pdf.
D′ARRIGO P, SANTANDREA S. APIES:a mission for the exploration of the main asteroid belt using a swarm of microsatellites[J]. Acta Astronautica,2006,59(8/9/10/11):689-699.
CASH W C. MAXIM:micro-arcsecond X-ray imaging mission[J]. Interferometry in Space,2003,4852:196-209.
TRUSZKOWSKI W, HALLOCK H, ROUFF C,et al. Autonomous and autonomic systems:with applications toNASA intelligent spacecraft operations and exploration systems[M]. London: Springer,2010:212-215.
CURTIS S A, TRUSZKOWSKI W, RILEE M L,et al. ANTS for human exploration and development of space[C]//Proceedings of the IEEE Aerospace Conference Proceedings,2003:255-261.
HADAEGH F Y, CHUNG S J, MANOHARA H M. On development of 100-gram-class spacecraft for swarm applications[J]. IEEE Systems Journal,2016,10(2):673-684.
Nanosats Database. KickSat-2 spacecraft[EB/OL].[2026-01-01].https://www.nanosats.eu/sat/kicksat-2.html.
QUADRELLI D M B, BASINGER S, SWARTZLANDER G, Jr. Orbiting rainbows:optical manipulation of aerosols and the beginnings of future space construction[R]. New York: California Institute of Technology,2013.
BEKEY I. Extremely large swarm array of picosats for microwave/RF earth sensing,radiometry,and mapping[R]. San Francisco USA: NASA Institute of Advanced Concepts Phase I report,2005:1-82.
DURRETT M. NASA launches Starling CubeSats on Rocket Lab electron rocket[J]. Connectivity Business,2023(7):1.
KRIEGER G, MOREIRA A, FIEDLER H,et al. TanDEM-X:a satellite formation for high-resolution SAR interferometry[J]. IEEE Transactions on Geoscience and Remote Sensing,2007,45(11):3317-3341.
楼良盛, 刘志铭, 张昊, 等. 天绘二号卫星关键技术[J]. 测绘学报,2022,51(12):2403-2416. LOU L S, LIU Z M, ZHANG H,et al. Key technologies of TH-2 satellite system[J]. Acta Geodaetica et Cartographica Sinica,2022,51(12):2403-2416.(in Chinese)
ŁUKOSZ M A, HEJMANOWSKI R, WITKOWSKI W T. Evaluation of ICEYE microsatellites sensor for surface motion detection: Jakobshavn Glacier case study[J]. Energies,2021,14(12):3424.
FOUST R C, LUPU E S, NAKKA Y K,et al. Autonomous in-orbit satellite assembly from a modular heterogeneous swarm[J]. Acta Astronautica,2020,169:191-205.
KRUGER J, D′AMICO S. On-orbit performance and lessons learned for autonomous angles-only navigation of a satellite swarm[C]//Proceedings of 2025 IEEE Aerospace Conference,2025:1-20.
TUCK C E. NASA to demonstrate miniature CubeSat swarm technology[EB/OL].(2024-03-04)[2026-01-17].https://www.nasa.gov/directorates/stmd/small-spacecraft-technology-program/nasa-to-demonstrate-miniature-cubesat-swarm-technology/.
ZHANG Z B, LI X H, LI Y Y,et al. Modularity,reconfigurability,and autonomy for the future in spacecraft:a review[J]. Chinese Journal of Aeronautics,2023,36(7):282-315.
NISSER M, CHENG L, MAKARAM Y,et al. ElectroVoxel:electromagnetically actuated pivoting for scalable modular self-reconfigurable robots[C]//Proceedings of 2022 International Conference on Robotics and Automation(ICRA),2022:4254-4260.
CHENG Z L, LI Y L, CHEN K,et al. Neural-iLQR:a learning-aided shooting method for trajectory optimization[C]//Proceedings of 2023 IEEE International Conference on Robotics and Biomimetics(ROBIO),2023:1-7.
SUN Z B, CHENG L, GONG S P. Semi-analytic approximate time-optimal asteroid landing with dimensionality reduction shooting[J]. Acta Astronautica,2024,225:729-740.
WANG L X, YE D, KONG X R,et al. Adaptive multi-segment pseudospectral sequential convex programming for satellite cluster reconfiguration trajectory optimization[J]. Advances in Space Research,2025,75(8):6317-6341.
CHEN R, BAI Y Z, ZHAO Y,et al. Closed-loop optimal control based on two-phase pseudospectral convex optimization method for swarm system[J]. Aerospace Science and Technology,2023,143:108704.
HUANG Y, SUN S L, CHU J. Energy-and time-optimal reconfiguration of spacecraft clusters with collision avoidance[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering,2023,237(13):3045-3061.
MEN J Y, REQUENA CARRIÓN J. Quadrotor trajectory planning with tetrahedron partitions and B-splines in unknown and dynamic environments[J]. Robotics,2025,14(1):3.
AL SATAI H, ABDUL ZAHRA M M, RASOOL Z I,et al. Bézier curves-based optimal trajectory design for multirotor UAVs with any-angle pathfinding algorithms[J]. Sensors,2021,21(7):2460.
PHAN G L, NGUYEN T T. Real-time hybrid navigation system-based path planning and obstacle avoidance for mobile robots[J]. Applied Sciences,2020,10(10):3355.
SARKAR M, BARAD S, MOHIT A,et al. Development of a novel autonomous space debris collision avoidance system for uncrewed spacecraft[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering,2022,236(14):2940-2952.
LI L, DU L, HU Y X. Cooperative control method of multiple spacecraft formation based on graphtheory[J]. Journal of Computational Methods in Sciences and Engineering,2024,24(2):1237-1251.
WANG B, ZHANG Y M, ZHANG W. Integrated path planning and trajectory tracking control for quadrotor UAVs with obstacle avoidance in the presence of environmental and systematic uncertainties:theory and experiment[J]. Aerospace Science and Technology,2022,120:107277.
LI B, ZHANG Y M, OUYANG Y K,et al. Fast trajectory planning for AGV in the presence of moving obstacles:a combination of 3-dim A* search and QCQP[C]//Proceedings of 2021 33rd Chinese Control and Decision Conference(CCDC),2021:7549-7554.
REN Z Q, RATHINAM S, LIKHACHEV M,et al. Multi-objective safe-interval path planning with dynamic obstacles[J]. IEEE Robotics and Automation Letters,2022,7(3):8154-8161.
FARID G, COCUZZA S, YOUNAS T,et al. Modified A-star(A*)approach to plan the motion of a quadrotor UAV in three-dimensional obstacle-cluttered environment[J]. Applied Sciences,2022,12(12):5791.
WEISS A, PETERSEN C, BALDWIN M,et al. Safe positively invariant sets for spacecraft obstacle avoidance[J]. Journal of Guidance, Control,and Dynamics,2015,38(4):720-732.
TANG J, LIU G, PAN Q T. A review on representative swarm intelligence algorithms for solving optimization problems:applications and trends[J]. IEEE/CAA Journal of Automatica Sinica,2021,8(10):1627-1643.
SATO K, YOSHIMURA Y, HANADA T,et al. The collision avoidance strategy for geostationary satellites considering orbit maintenance[J]. Journal of Space Safety Engineering,2021,8(4):331-338.
ZHANG J Q, LU Y H, CHE L,et al. Moving-distance-minimized PSO for mobile robot swarm[J]. IEEE Transactions on Cybernetics,2022,52(9):9871-9881.
HU Y J, WANG J, HE H J,et al. Three-dimensional marine ranching cage inspection path planning integrating the differential evolution and particle swarm optimization algorithms[J]. IEEE Access,2023,11:109747-109763.
SEONG J D, KIM H D. Collision avoidance maneuvers for multiple threatening objects using heuristic algorithms[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering,2015,229(2):256-268.
YANG H, QI J, MIAO Y C,et al. A new robot navigation algorithm based on a double-layer ant algorithm and trajectory optimization[J]. IEEE Transactions on Industrial Electronics,2019,66(11):8557-8566.
LI J, XIONG Y H, SHE J H. UAV path planning for target coverage task in dynamic environment[J]. IEEE Internet of Things Journal,2023,10(20):17734-17745.
AGACHI C, ARVIN F, HU J Y. RRT*-based leader-follower trajectory planning and tracking in multi-agent systems[C]//Proceedings of 2024 IEEE 12th International Conference on Intelligent Systems(IS),2024:1-6.
WU G X, GUO L P, SHI D D,et al. Hybrid probabilistic road map path planning for maritime autonomous surface ships based on historical AIS information and improved DP compression[J]. Journal of Marine Science and Engineering,2025,13(1):184.
GAO D W, LUO J J, MA W H,et al. Online feedback motion planning for spacecraft obstacle avoidance using positively invariant sets[J]. Advances in Space Research,2020,65(10):2424-2434.
CHEN N, ZHANG Y S, LI Z,et al. An improved sampling-based approach for spacecraft proximity operation path planning in near-circular orbit[J]. IEEE Access,2020,8:41794-41804.
ZHONG X L, WEI Z T, CHEN T. Motion planning and pose control for flexible spacecraft using enhanced LQR-RRT*[J]. IEEE Transactions on Aerospace and Electronic Systems,2023,59(6):8743-8751.
武迪, 郭祥, 蒋方华, 等. 连续小推力轨迹优化间接法研究进展综述[J]. 宇航学报,2024,45(7):995-1007. WU D, GUO X, JIANG F H,et al. Progress of indirect method for continuous low-thrust trajectory optimization[J]. Journal of Astronautics,2024,45(7):995-1007.(in Chinese)
WANG W, WU D, LEI H L,et al. Fuel-optimal spacecraft cluster flight around an ellipsoidal asteroid[J]. Journal of Guidance, Control,and Dynamics,2021,44(10):1875-1882.
LI J, XI X N. Fuel-optimal low-thrust reconfiguration of formation-flying satellites via homotopic approach[J]. Journal of Guidance, Control,and Dynamics,2012,35(6):1709-1717.
MITANI S, YAMAKAWA H. Continuous-thrust transfer with control magnitude and direction constraints using smoothing techniques[J]. Journal of Guidance, Control,and Dynamics,2013,36(1):163-174.
RADHAKRISHNAN S, GUEAIEB W. Constraint-free discretized manifolds for robotic path planning[C]//Proceedings of 2020 IEEE International Conference on Systems, Man,and Cybernetics(SMC),2020:1878-1884.
WANG Y L, SHANG W, HONG H C. Sub-optimal fixed-finite-horizon spacecraft configuration control on SE(3)[J]. Chinese Journal of Aeronautics,2022,35(6):250-261.
NAZARI M, CANALES D, MCCANN B,et al. Framework for the full N-body problem in SE(3)and its reduction to the circular restricted full three-body problem[J]. Celestial Mechanics and Dynamical Astronomy,2023,135:41.
CAO S, WANG X K, ZHANG R S,et al. Aerobatic maneuvering flight control of fixed-wing UAVs:an SE(3)approach using dual quaternion[J]. IEEE Transactions on Industrial Electronics,2024,71(11):14362-14372.
ZHEN Q Z, WAN L, LI Y L,et al. Formation control of a multi-AUVs system based on virtual structure and artificial potential field on SE(3)[J]. Ocean Engineering,2022,253:111148.
LIAO Y C, YAN X, AN K,et al. Fixed-time geometric tracking control of autonomous underwater vehicles on SE(3)[J]. Ocean Engineering,2024,311:118757.
HÉNARD A, RIVIÈRE J, PEILLARD E,et al. A unifying method-based classification of robot swarm spatial self-organisation behaviours[J]. Adaptive Behavior,2023,31(6):577-599.
HARINARAYANA T, KRISHNAN S V, HOTA S. Lyapunov guidance vector field-based waypoint following by unmanned aerial vehicles[J]. Journal of Guidance, Control,and Dynamics,2025,48(1):192-202.
HOUGH J, ULRICH S. Cascaded Lyapunov vector fields for acceleration-constrained spacecraft path planning[J]. Journal of Guidance, Control,and Dynamics,2022,45(11):2076-2090.
RYBUS T. The obstacle vector field(OVF)method for collision-free trajectory planning of free-floating space manipulator[J]. Bulletin of the Polish Academy of Sciences Technical Sciences,2022,70(2):e140691.
刘怡舟. 面向多种约束操作任务的机械臂运动规划研究[D]. 哈尔滨: 哈尔滨工业大学,2021. LIU Y Z. Research on robot motion planning method for multi-constrained manipulation tasks[D]. Harbin: Harbin Institute of Technology,2021.(in Chinese)
JAILLET L, PORTA J M. Path planning with loop closure constraints using an Atlas-based RRT[M]//CHRISTENSEN H I, KHATIB O. Robotics research. Cham: Springer International Publishing,2017:345-362.
CAPIŃSKI M J, WASIECZKO-ZAJĄC A. Geometric proof of strong stable/unstable manifolds with application to the restricted three body problem[J]. Topological Methods in Nonlinear Analysis,2015,46(1):363-399.
DU C R, STARINOVA O L, LIU Y. Low-thrust transfer dynamics and control between halo orbits in the Earth-Moon system by means of invariant manifold[J]. IEEE Transactions on Aerospace and Electronic Systems,2023,59(4):3452-3462.
WANG W, YUAN J P, MENGALI G,et al. Invariant manifold and bounds of relative motion between heliocentric displaced orbits[J]. Journal of Guidance, Control,and Dynamics,2016,39(8):1764-1776.
GURFIL P, KHOLSHEVNIKOV K V. Manifolds and metrics in the relative spacecraft motion problem[J]. Journal of Guidance, Control,and Dynamics,2006,29(4):1004-1010.
王璟贤, 白玉铸, 陈致钧, 等. 基于测地线的航天器集群隐蔽机动轨迹规划[J]. 宇航学报,2024,45(4):513-522. WANG J X, BAI Y Z, CHEN Z J,et al. Covert maneuver trajectory planning of spacecraft cluster based on geodesic[J]. Journal of Astronautics,2024,45(4):513-522.(in Chinese)
WANG J X, CHEN R, ZHOU H,et al. Manifold-based trajectory planning for safe proximity and soft docking to a tumbling target by modular multi-spacecraft system[J]. Aerospace Science and Technology,2026,170:111518.
WANG J X, SHAN C Y, ZHOU H,et al. From chemical reaction to orbital assembly:fast cost evaluation and global energy minimization[J]. IEEE Transactions on Aerospace and Electronic Systems,2025,61(6):17252-17266.
WANG J X, ZHOU H, CHEN R,et al. Geodesic-based free terminal time energy optimization for spacecraft clusters trajectory planning in conflict zone[J]. Journal of the Franklin Institute,2025,362(8):107692.
刘宇航, 杨洪伟, 李爽. 小推力最优轨迹协态估计的高效机器学习方法[J]. 宇航学报,2022,43(5):593-602. LIU Y H, YANG H W, LI S. Efficient machine learning method for co-state estimation of low-thrust optimal trajectories[J]. Journal of Astronautics,2022,43(5):593-602.(in Chinese)
李海洋, 宝音贺西. 小推力转移燃料消耗估计的机器学习方法[J]. 深空探测学报,2019,6(2):195-200. LI H Y, BAOYIN H X. Machine learning method of estimation for fuel consumption of low-thrust transfers[J]. Journal of Deep Space Exploration,2019,6(2):195-200.(in Chinese)
CHEN Z J, LUO J X, CHEN Q,et al. Fast estimation of initial costate for time-optimal trajectory based on surrogate model[J]. Journal of Aerospace Engineering,2023,36(6):04023078.
D′AMBROSIO A, SCHIASSI E, CURTI F,et al. Pontryagin neural networks with functional interpolation for optimal intercept problems[J]. Mathematics,2021,9(9):996.
IZZO D,ÖZTÜRK E. Real-time guidance for low-thrust transfers using deep neural networks[J]. Journal of Guidance, Control,and Dynamics,2021,44(2):315-327.
LIU Y H, YANG H W. Real-time optimal control for variable-specific-impulse low-thrust rendezvous via deep neural networks[J]. Transactions of Nanjing University of Aeronautics and Astronautics,2023,40(5):578-594.
SÁNCHEZ-SÁNCHEZ C, IZZO D. Real-time optimal control via deep neural networks:study on landing problems[J]. Journal of Guidance, Control,and Dynamics,2018,41(5):1122-1135.
LI H J, GAO Q, DONG Y F,et al. Spacecraft relative trajectory planning based on meta-learning[J]. IEEE Transactions on Aerospace and Electronic Systems,2021,57(5):3118-3131.
LI H J, YAO W, DONG Y F,et al. Deep kernel-based optimal control prediction in aerospace missions[J]. IEEE Transactions on Aerospace and Electronic Systems,2022,58(3):1621-1633.
TIPALDI M, IERVOLINO R, MASSENIO P R. Reinforcement learning in spacecraft control applications: Advances,prospects,and challenges[J]. Annual Reviews in Control,2022,54:1-23.
SCORSOGLIO A, FURFARO R, LINARES R,et al. Relative motion guidance for near-rectilinear lunar orbits with path constraints via actor-critic reinforcement learning[J]. Advances in Space Research,2023,71(1):316-335.
YANG L W, WANG J K, JIANG J,et al. Low-orbit space debris warning and autonomous collision avoidance for space environment governance[J]. Journal of Physics: Conference Series,2025,3015:012005.
LI X, WANG X G. Online solution for orbital pursuit-evasion game via heterogeneous proximal policy optimization[J]. IEEE Transactions on Aerospace and Electronic Systems,2025,61(5):12044-12058.
孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题[J]. 自动化学报,2020,46(7):1301-1312. SUN C Y, MU C X. Important scientific problems of multi-agent deep reinforcement learning[J]. Acta Automatica Sinica,2020,46(7):1301-1312.(in Chinese)
OROOJLOOY A, HAJINEZHAD D. A review of cooperative multi-agent deep reinforcement learning[J]. Applied Intelligence,2023,53:13677-13722.
温广辉, 杨涛, 周佳玲, 等. 强化学习与自适应动态规划: 从基础理论到多智能体系统中的应用进展综述[J]. 控制与决策,2023,38(5):1200-1230. WEN G H, YANG T, ZHOU J L,et al. Reinforcement learning and adaptive/approximate dynamic programming:a survey from theory to applications in multi-agent systems[J]. Control and Decision,2023,38(5):1200-1230.(in Chinese)
TAMPUU A, MATIISEN T, KODELJA D,et al. Multiagent cooperation and competition with deep reinforcement learning[J]. PLoS ONE,2017,12(4):e0172395.
DE WITT C S, GUPTA T, MAKOVIICHUK D,et al. Is independent learning all you need in the StarCraft multi-agent challenge?[EB/OL].(2020-11-18)[2026-01-17].https://arxiv.org/abs/2011.09533.
李勐, 冯肇晗, 梅云鹏, 等. 多智能体强化学习赋能空间无人系统: 方法、挑战与机遇[J]. 空间控制技术与应用,2025,51(4):17-28. LI M, FENG Z H, MEI Y P,et al. Multi-agent reinforcement learning empower space unmanned systems:methods,challenges and opportunities[J]. Aerospace Control and Application,2025,51(4):17-28.(in Chinese)
SUNEHAG P, LEVER G, GRUSLYS A,et al. Value-decomposition networks for cooperative multi-agent learning[EB/OL].(2017-06-16)[2026-01-17].https://arxiv.org/abs/1706.05296.
RASHID T, SAMVELYAN M, DE WITT C S,et al. Monotonic value function factorisation for deep multi-agent reinforcement learning[J]. Journal of Machine Learning Research,2020,21:1-51.
SON K, KIM D, KANG W J,et al. QTRAN:learning to factorize with transformation for cooperative multi-agent reinforcement learning[EB/OL].(2019-05-14)[2026-01-17].https://arxiv.org/abs/1905.05408.
KANKASHVAR M, BOLANDI H, MOZAYANI N. Multi-agent Q-learning control of spacecraft formation flying reconfiguration trajectories[J]. Advances in Space Research,2023,71(3):1627-1643.
LOWE R, WU Y, TAMAR A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]//Proceedings of the 31st Conference on Neural Information Processing Systems(NIPS 2017),2017:1-16.
YU C, VELU A, VINITSKY E,et al. The surprising effectiveness of PPO in cooperative multi-agent games[EB/OL].(2022-11-04)[2026-01-17].https://arxiv.org/abs/2103.01955.
许旭升, 党朝辉, 宋斌, 等. 基于多智能体强化学习的轨道追逃博弈方法[J]. 上海航天(中英文),2022,39(2):24-31. XU X S, DANG Z H, SONG B,et al. Method for cluster satellite orbit pursuit-evasion game based on multi-agent deep deterministic policy gradient algorithm[J]. Aerospace Shanghai(Chinese & English),2022,39(2):24-31.(in Chinese)
LI Y H. Satellites swarm cooperation for pursuit-attachment tasks with transformer-based reinforcement learning[EB/OL].(2024-06-03)[2026-01-17].https://arxiv.org/abs/2406.01061.
ZHANG W X, WANG Y M, ZHANG Y H. Attention-driven reinforcement learning for multi-satellite collaborative orbital interception strategy solution[J]. Astrodynamics,2025,9:657-669.
WANG Y Q, YAO Q M, KWOK J T,et al. Generalizing from a few examples:a survey on few-shot learning[J]. ACM Computing Surveys,2021,53(3):1-34.
SCHAUL T, QUAN J, ANTONOGLOU I,et al. Prioritized experience replay[EB/OL].(2016-02-25)[2026-01-17].https://arxiv.org/abs/1511.05952.
LI M D, ZHU T T, YAN H Q,et al. HER-PT:an intelligent penetration testing framework with hindsight experience replay[J]. Computers & Security,2025,152:104357.
ZHANG D D, FAN W, LLOYD J,et al. One-shot domain-adaptive imitation learning via progressive learning applied to robotic pouring[J]. IEEE Transactions on Automation Science and Engineering,2024,21(1):541-554.
WANG X Q, KE L J, ZHANG G W,et al. Adaptive mean field multi-agent reinforcement learning[J]. Information Sciences,2024,669:120560.
CARRASCO A, RODRIGUEZ-FERNANDEZ V, LINARES R. Large language models as autonomous spacecraft operators in kerbal space program[J]. Advances in Space Research,2025,76(6):3480-3497.
Log1o_hf. The experiment to“specify the route of a Mars rover using AI” was successful,and Perseverance actually traveled on Mars according to Claude′s plan[EB/OL].(2026-02-02)[2026-03-14].https://gigazine.net/gsc_news/en/20260202-nasa-anthropic-claude-perseverance-mars.