摘要
自由返回轨道是载人飞船进行地月转移的首选轨道方案,其设计约束要求严格,现有算法对时初值依赖性普遍较强。针对载人月球探测任务中的地月转移轨道规划问题,采用双路网络学习方法,进行自由返回轨道初值方法的研究。建立地月自由返回轨道的动力学模型以分析近地端轨道解空间特征。结合近地升降轨的解空间分域特性,提出一种采用参数关联变换设计的双路神经网络架构,确保不同特征域下轨道解的完备性。利用ATK机动规划功能模块实现了双路网络学习初值方法下的地月自由返回轨道规划,并进行了仿真设计与验证。研究成果可为解决载人探月任务地月转移轨道规划的初值依赖性问题提供有效参考。
Abstract
The free-return orbit serves as the preferred orbital scheme for crewed spacecraft in earth-moon transfers, yet its design involves stringent constraints and significant initial-value dependency in existing algorithms. The earth-moon transfer trajectory planning for manned lunar exploration was addressed by proposing a dual-path neural network learning method to optimize free-return orbit initialization. A dynamic model of the free-return orbit was established to analyze the characteristics of the near-earth orbital solution space. Integrating the spatial partitioning characteristics of ascending and descending orbital phase in solution spaces, a dual-path neural network architecture designed via parameter-correlated transformation was proposed to ensure the completeness of orbital solutions. Utilizing ATK.Astromaster, the earth-moon free-return orbit planning under the dual-path network learning-based initialization method was implemented and validated through simulation. The results provide an effective reference for mitigating initial-value dependency in manned lunar mission orbit design.
载人月球探测是当前各航天大国的关注焦点。美国提出重返月球的“阿尔忒弥斯”计划,吸引了众多国家参与合作[1]。中国公布了于2030年前实现载人登月的明确任务目标。继嫦娥5号任务之后[2],中国探月工程已于2024年6月实施嫦娥6号任务并实现第二次无人月面采样返回,各项任务计划均在稳步推进当中。
载人登月是一项复杂的系统工程,而地月转移轨道(lunar transfer orbit,LTO)设计是其中的关键技术之一。聚焦到轨道设计层面,如何在复杂动力学环境下,尽可能采用能耗最优的策略,将航天器安全送入环月轨道是一个难题[3]。郑爱武和周建平[4]介绍了载人登月工程的任务约束和飞行方式。Topputo[5]针对限制性四体模型中的共面两脉冲地月转移问题,提出了直接转移和多脉冲转移策略。Lü等[6]采用微分修正方法研究了圆形限制性三体问题中的两脉冲地月转移问题。Gao等[7]基于环月空间站设计了两脉冲地月转移轨道,分析了典型年份的轨道转移窗口。而在诸多地月转移问题设计中,存在一种特殊的地月转移轨道,被称为自由返回轨道(free-return orbit,FRO)。FRO自近地出发后经月球近旁转向,具备返回地球的能力,相对于地月连线呈准对称[8]。FRO在载人飞船发生故障时能将航天员安全送回地球,这种极高的安全性使其成为载人探月任务地月转移轨道设计的基本轨道构型与首选方案。周晚萌等[9-10]基于近月点伪参数建立了混合多圆锥截线初值算法来设计FRO,该方法设计精度和效率较高,适用于大规模生成FRO数据库。刘勇等[11]在B平面概念的基础上提出了P平面初值设计方法,采用平面与空间分层规划方法进行FRO初步设计,进一步提高了FRO设计效率。Dong等[12]提出了一种利用优化模型和贝叶斯优化两阶段变换进行地月转移自由返回中止轨道燃料优化的新方法。彭祺擘等[13]在基于近月点伪参数的FRO设计方法的基础上,提出了内点法与序列二次规划相结合的两步优化修正方法。其中,以近月轨道参数为控制变量的设计方式能够明确月球到达时刻,自由返回约束更容易实现收敛,但难以直接衔接地面发射段的轨道拼接需求;以近地轨道参数为控制变量的设计方式能够明确地月转移入轨时刻,便于衔接与地面发射段的轨道一体化拼接设计,但自由返回约束的强非线性特性,导致高精度动力学模型在缺乏有效初值时陷入迭代发散或局部最优,造成设计效率低下、收敛性较差[14]。当前载人探月任务对全时段大规模转移轨道窗口搜索的规划需求显著增加,亟须突破近地端参数驱动的初值生成瓶颈,即既能满足发射段与转移段的无缝拼接,又能为高精度模型提供可收敛的初始解。
当前人工智能方法发展势头正盛,其中以深度学习为代表的数据驱动的智能算法[15]广泛应用于回归预测[16]。在轨道设计领域中,深度学习通常具体应用于轨道转移快速估计与优化设计。李海洋和宝音贺西[17]通过机器学习对不同小行星之间的小推力转移燃料消耗进行估计,发现其估计精度优于传统Lambert估计方法。Zhu和Luo[18]基于深度学习研究了长时间摄动条件下多星交会最优转移燃料快速估计问题。Yang等[19]训练了分类与回归两种类型的深度神经网络,实现了对地月FRO升降轨类型的分类与近月点轨道可达域的快速估算。深度学习在轨道动力学领域的另一类显著应用,是转移轨道优化设计问题。Yang等[20]将深度学习方法应用于连续小推力最优转移轨迹问题的间接法初值猜测和J2摄动Lambert问题的初值估计,提高了算法收敛性。Guo等[21]将深度神经网络用于时间最优的多星交会任务中相邻两星之间的转移时间估计,加速多星交会全任务树搜索优化流程。Izzo等[22-23]利用深度神经网络实现了飞行器从地球飞向火星和金星中轨迹的自主导航,可对推力大小和方向进行较好估计。上述研究表明,利用深度神经网络强大的学习能力可以对轨道样本库特征参数的内在规律特征进行高拟合度的学习,可用于轨道优化设计的快速计算与初值猜测。因此,借助深度学习的优势,可对载人月球探测轨道设计问题进行隐性规律挖掘,实现快速初值猜测,提升计算效率与收敛性。
航天任务工具箱(aerospace tool kit,ATK)软件的机动规划模块能够根据任务需求及目标约束进行轨道设计[24]。针对动力学特性复杂的地月空间,利用ATK机动规划模块,选取近地端控制变量进行自由返回轨道设计,在不给定良好初值的情况下,微分修正的设计效率或收敛性不足[25]。为提升ATK机动规划模块针对月球探测任务的专用性,以更好地支撑国产通用轨道设计软件在载人探月工程中的应用,可以采用二次开发与机器学习相结合的手段,针对性提升软件面向载人月球探测典型任务轨道的设计能力与计算效率,以适应大规模轨道窗口搜索需求。
本文在文献[19]方法的基础上,采用双路神经网络架构对地月FRO的近地端设计参数进行初值猜测。
1 轨道模型及特性
1.1 动力学模型描述
针对载人月球探测任务,地月转移轨道须具备自由返回的特性,如图1所示。参考文献[27],FRO以近月点为界可划分为两段轨道进行设计。首先,自近地停泊轨道至地月转移入轨点(trans-lunar inject,TLI)施加一个切向脉冲,进入LTO;然后,沿LTO自由飞行转移至近月点(perilune,PRL),要求满足近月高度约束;在不进行近月制动的情况下,沿返回轨道(return transfer orbit,RTO)继续自由飞行转移至近地附近,要求满足再入高度与再入角约束,根据文献[26]可将再入条件约束等价转换成真空近地点(vacuum perigee,VCP)高度约束。

图1自由返回轨道原理示意图
Fig.1Schematic diagram of the free-return orbit
FRO方案的数学模型可以表示为:
(1)
其中:f(·)表示高精度轨道动力学模型的映射函数;Θ=Θ(tTLI,hTLI,iLTO,Φ)表示映射函数的因变量;Φ=Φ(ΩLTO,ωLTO,vxTLI)表示非线性规划问题中的近地端设计参数;Ψ=Ψ(hPRL,hVCP,iRTO)表示根据高精度轨道动力学模型计算得到的因变量约束集合;J表示目标函数,可设计为单目标或多目标加权函数;tTLI为地月转移入轨时刻,hTLI为近地出发高度,iLTO为地月转移入轨倾角,以上变量由地面发射段拼接设计参数确定;ΩLTO为地月转移轨道升交点赤经,ωLTO为地月转移轨道近地点幅角,vxTLI表示近地出发切向脉冲大小,以上变量为地月FRO的设计参数;hPRL为近月点轨道高度,hlbPRL与hubPRL分别为满足近月点轨道高度约束的上下限;hVCP为真空近地点轨道高度,为目标真空近地点轨道高度;iRTO为返回轨道倾角,为目标返回轨道倾角。
1.2 轨道解空间分域特性
TLI纬度幅角uTLI在[-90°,90°]内进行地月转移时为近地升轨出发方式;反之为近地降轨出发方式。不同升降轨方式之间的轨道演化特性及非线性特征存在差异[19]。将近地出发高度hTLI设为170 km,近月点轨道高度范围约束[hlbPRL,hubPRL]设为[120.5 km, 119.5 km]。瞄准再入点轨道高度122 km与倾角-6°,并将再入点条件等效于真空近地点轨道高度约束,即设为51 km左右[26]。在高精度模型下对tTLI、iLTO和iRTO进行修正遍历,得到FRO解空间的分布情况,结果如图2所示。由于时间主要相关的地月空间几何特征为月球绕地球公转的纬度幅角,简称月球公转相位,下面采用tTLI时刻的月球公转相位来表示时间特征。其中,标蓝解集表示近地升轨出发进行地月转移的轨道解子空间;标红解集表示近地降轨出发进行地月转移的轨道解子空间。由于uTLI与ωLTO满足式(2)关系,近地升降轨方式与ωLTO直接相关,在图2(a)区分度明显,呈多个连续弧形集中分布特征。图2(b)中不同升降轨方式的解集集中分布于近似平行的不同非交叠斜带中,分域特性同样明显。
图2FRO解空间分布情况
Fig.2Distribution of the FRO solution space
(2)
其中, fTLI为TLI真近点角,等于0°。
2 双路网络学习方法
首先介绍对地月FRO进行深度学习的双路神经网络架构,再介绍神经网络编码器与解码器中的区分近地升降轨方式的参数关联变换设计。
2.1 双路神经网络架构
深度神经网络有很多种类型,如全连接神经网络、卷积神经网络、长/短记忆神经网络等[16]。对于地月FRO设计问题,全连接神经网络足以拟合地月FRO特征参数之间的非线性特征。但所有特征在单一网络中混合传递,容易导致特征纠缠,难以分辨不同的非线性映射模型,降低学习效果;同时,容易陷入局部最优陷阱,遗漏可能存在的多解情况。双路神经网络是一种通过设计两条独立特征集处理路径的深度学习架构,其核心思想是通过特征解耦、任务分工或模态分离等方式提升模型性能[28]。双路神经网络可通过两个全连接网络构建,相比单一全连接网络,双路架构在特征解耦、抗局部最优等方面具有显著优势,适用于复杂非线性系统的建模。由于自由返回轨道在近地出发入轨处取不同的升降轨设计约束,其轨道非线性映射关系差别较大,解空间存在分域特性,并且对神经网络的学习效果影响明显,故采用“升轨”和“降轨”两路进行网络架构的设计[19]。由于其他指标参数如时间、月球公转相位、轨道六根数等是反映轨道演化特性与参数映射关系的连续变量,是需要深度神经网络进行学习的变量对象,故一般不考虑区别这些连续变量分路进行学习;升降轨方式是一种布尔值参数类型,并且已有研究证明其对轨道演化与映射的非线性特征影响明显,故考虑采用升降轨指标进行分路学习的设计,能够提高网络模型学习的拟合效果。因此本文选择双路全连接神经网络来进行地月FRO轨道特征的深度学习,并作为初值方法服务于地月FRO的高精度仿真修正。图3给出了融合动力学特征的地月FRO双路神经网络架构示意图。该架构由输入层、编码层、深度神经网络、解码层、输出层组成。其中,输入层参数包含地月公转轨道特征、近地出发输入特征、返回约束特征参数等;输出层参数为近地端设计参数。区分近地升降轨方式,形成两条由输入层到输出层的分支路径。两条子网络路径的参数传递序列依次为:
(3)
(4)
其中:I表示输入层参数组合,IA、ID分别表示近地升轨、降轨类型的输入层参数组合,XA、XD分别表示近地升轨、降轨类型的网络输入参数组合,YA、YD分别表示近地升轨、降轨类型的网络输出参数组合,EA、ED分别表示近地升轨、降轨类型的输出层参数组合,E表示输出层参数组合;EncA、EncD分别表示升轨、降轨路径的编码器模型,NetA、NetD分别表示升轨、降轨路径的深度神经网络模型,DecA、DecD分别表示升轨、降轨路径的解码器模型,如图3所示。
选取深度神经网络训练的输入层参数组合为:
(5)
式中,aM、eM、iM、ΩM、uM分别表示由TLI出发时刻历元转换得到的J2000惯性系下月球绕地球公转的轨道半长轴、偏心率、倾角、升交点赤经、纬度幅角,能够直接关联时间参数。
参考文献[24],选取深度神经网络训练的输出层参数组合为:
(6)
两条路径下的深度神经网络模型为:
(7)
其中,NetA(·)与NetD(·)分别表示采用近地升轨与降轨方式两种不同类型地月FRO数据训练得到的两类深度神经网络模型,θ表示全连接回归神经网络参数。损失函数采用均方根误差表示,即:
(8)
式中,n表示测试集样本总数,和分别代表第i个样本的网络直接预测值和归一化测试值。

图3融合动力学特征的双路神经网络架构
Fig.3Dual-path neural network architecture integrating dynamic characteristics
2.2 参数关联变换设计
从图2(a)中可以看出:升轨出发类型中ωLTO的分布在数值上割裂为[0°,90°)和[270°,360°)两个区间。由于角度0°与360°的物理含义相同,以上两个区间本质在0°附近保持连续分布的特征。尽管两个区间在物理意义上是连续的分布域,但全连接网络在进行特征学习时难以从单纯数值的角度上辨识0°附近的连续性特征,导致网络学习效果降低;降轨出发类型中ωLTO解空间保持连续分布的特征。从图2(b)中可以看出:升轨出发类型中ΩLTO的分布割裂为近似平行的两个斜带状分布域,这同样会导致网络学习效果降低;降轨出发类型中ΩLTO的解主要分布于三个区域中,但同样在物理意义上呈现出解空间的连续分布特征。因此,为了使神经网络能够从数值上辨识样本分布连续性的特征参数,以提高神经网络对各近地升降轨方式下FRO非线性特征的学习效果,需要对初始参数进行关联变换,在保持不丢失原有物理含义的基础上,拼接出数值上连续分布的特征参数空间。
将ωLTO作出如式(9)所示的关联变换得到LTO近地点幅角变换值ω′LTO,能够使两种近地升降轨方式下的样本参数空间分布在数值上分别保持连续,如图4(a)所示。对于近地升轨方式样本,将ΩLTO作出如式(10)所示的关联变换得到LTO升交点赤经变换值ΩALTO;对于近地降轨方式样本,将ΩLTO作出如式(11)所示的关联变换得到ΩDLTO。根据式(12)得到LTO升交点赤经变换值Ω′LTO,能够使近地升降轨方式下的样本参数空间分布在数值上分别保持连续,如图4(b)所示。其中,标蓝样本点表示近地升轨出发进行地月转移的轨道解变换值;标红样本点表示近地降轨出发进行地月转移的轨道解变换值。图4(a)中不同升降轨方式的分布域区分明显,但各自呈现连续性,存在一定的正弦特性;图4(b)中不同升降轨方式的分布域同样区分明显,但各自呈现连续性,主要集中分布于连续的不均匀斜带上。以上关联变换仅涉及一维线性计算,不改变关联变换前后的非线性特征。
(9)
(10)
(11)
(12)

图4参数关联变换后的解空间分布情况
Fig.4Distribution of the FRO solution space after the parametric correlation transformation
3 仿真验证
通过数值仿真,首先对双路神经网络架构的学习效果进行检验,然后利用ATK机动规划功能模块验证地月FRO双路神经网络学习方法的有效性与可行性。所有计算在处理器为Intel Core i9-12900 CPU 2.5 GHz、内存为32 GB、显卡为RTX 3060的计算机上完成,运用MATLAB R2021b与ATK 3.0版本进行仿真计算。
3.1 学习效果验证
文献[19]采用近月点伪参数设计方法,通过遍历PRL到达时间、iLTO、iRTO以及升降轨方式来生成地月FRO数据库。本文在其基础上尽可能扩大iLTO与iRTO遍历搜索范围。考虑到地面发射入轨高度及再入返回条件等工程约束,通常设定hTLI为170 km左右、再入点轨道高度为122 km、倾角为-6°,并且再入点条件可以等效为hVCP约为51 km[26]。FRO数据库生成的仿真参数如表1所示。最终生成36 963条满足收敛约束的地月FRO,该数据库在0°至180°的iLTO和0°至360°的LTO升交点赤经ΩLTO这个范围内均有分布,数据库生成的计算时间约为208 674 s。
表1FRO数据库生成仿真参数
Tab.1 FRO database simulation parameters

将数据库中80%的轨道数据作为训练集,20%的数据作为测试集,进行两条子网络路径的学习训练。深度神经网络模型的隐藏层数量设置为8,隐藏层单元数依次设置为[32,64,128,256,128,64,32,16],学习率设置为0.001,迭代轮数设置为100,学习率每隔50轮降低至当前学习率的10%。考虑设置不同的训练优化器与激活函数,得到升轨与降轨两条路径下深度神经网络的训练效果如下:优化器为RMSProp和激活函数为Leaky-ReLU的设置相比其他设置的训练效果更佳,其中ΩLTO的均方根误差为6.018 8°,ωLTO的均方根误差为3.888 0°,vxTLI的均方根误差为2.195 9 m/s,并且优化器与激活函数的选择对升轨深度神经网络学习训练效果的影响明显;优化器为RMSProp和激活函数为Leaky-ReLU的设置相比其他设置的训练效果更佳,其中ΩLTO的均方根误差为7.154 3°,ωLTO的均方根误差为4.064 3°,vxTLI的均方根误差为2.036 8 m/s,并且优化器与激活函数的选择对降轨深度神经网络学习训练效果的影响明显。因此,两种类型的深度神经网络均采用RMSProp优化器与Leaky-ReLU激活函数进行训练。
在确定RMSProp优化器与Leaky-ReLU激活函数的基础上,考虑设置不同的学习率,得到升轨与降轨两条路径下深度神经网络的训练效果,分别如表2和表3所示。可以看出,升轨与降轨深度神经网络的训练时长均在3 min左右,学习率对两类网络模型训练效果的影响均比较明显,过高和过低的学习率分别存在过拟合与欠拟合的问题。学习率设置为0.001是比较合理的选择。
表2不同学习率对应的升轨深度神经网络训练效果
Tab.2 Training effects of the deep neural network for ascending type corresponding to different learning rates

表3不同学习率对应的降轨深度神经网络训练效果
Tab.3 Training effects of the deep neural network for descending type corresponding to different learning rates

综合上述,表4给出了超参数的最终配置,升轨与降轨深度神经网络的配置结果一致。
表4深度神经网络超参数配置
Tab.4 Hyperparameter of deep neural network

随机生成2 000组FRO轨道数据,并在该数据集的基础上,将训练完成后的双路神经网络架构用于地月FRO近地出发设计参数的回归预测,对预测值进行误差分析。对于升轨类型深度神经网络模型,统计得到ΩLTO、ωLTO与vxTLI的误差分布直方图,分别如图5(a)~(c)所示。从图5中可以看出,ΩLTO的误差分布主要集中在 [-10°,10°] 范围内,ωLTO的误差分布主要集中在 [-5°,3°] 范围内,vxTLI的误差分布主要集中在[-4 m/s,4 m/s] 范围内,均近似呈现正态分布的规律。同时,统计得到ΩLTO、ωLTO和vxTLI的平均绝对误差分别为3.592 6°、2.082 1°和1.836 2 m/s。对于降轨类型深度神经网络模型,统计得到ΩLTO、ωLTO与vxTLI的误差分布直方图,分别如图6(a)~(c)所示。从图6中可以看出,ΩLTO的误差分布主要集中在[-10°,5°]范围内,ωLTO的误差分布主要集中在 [-5°,3°] 范围内,vxTLI的误差分布主要集中在[-4 m/s,4 m/s]范围内,同样均近似呈现正态分布的规律。同时,统计得到ΩLTO、ωLTO与vxTLI的平均绝对误差分别为4.171 3°、1.868 8°和1.687 2 m/s。上述分析表明训练后两条子网络路径的初值猜测精度在可接受的范围内,说明本文提出的地月FRO双路网络学习结构可以提供良好的设计初值。

图5升轨类型深度神经网络回归预测误差分布图
Fig.5Distribution map of regression error of deep neural network for ascending type

图6降轨类型深度神经网络回归预测误差分布图
Fig.6Distribution map of regression error of deep neural network for descending type
3.2 ATK仿真结果
根据地月FRO方案描述,ATK机动规划模块需要设计的任务段序列如表5所示。
表5FRO机动规划模型
Tab.5 Model of FRO planning scheme

实现对ATK机动规划模块的二次开发,具体仿真设计框架如图7所示。双路神经网络架构将两种不同近地升降轨方式的预测初值分别传递至ATK机动规划模块进行后续的仿真设计及验证,进一步获取满足约束的高精度收敛解。参考文献[24]的仿真算例设置,将两个预报段的轨道动力学模型配置为21×21阶JGM3地球引力场,考虑太阳和月球三体引力。下面将通过数个仿真算例,验证本文提出的地月FRO双路网络学习方法的有效性和可行性。

图7利用ATK的仿真设计框架
Fig.7ATK-implemented simulation design framework
以文献[26]中的自由返回轨道高精度求解工况为例进行仿真对比。输入FRO近地出发初始状态为:初始时刻为2028-06-24T16:33:31,TLI初始段轨道高度为170 km,轨道倾角为21°;TLI初始段轨道偏心率固定为0,真近点角固定为0°。输入轨道约束为:PRL高度约束为200 km,返回真空近地点高度为50 km,返回轨道倾角为43°。通过双路神经网络架构学习得到近地升轨方式下LTO升交点赤经的设计初值为334.365°,近地点幅角的设计初值为346.222°,近地出发切向脉冲的设计初值为3 176.772 m/s;同时得到LTO降轨方式下TLI升交点赤经的设计初值为149.980°,近地点幅角的设计初值为195.653°,近地出发切向脉冲的设计初值为3 163.679 m/s。表6给出了本文方法与文献[26]方法的自由返回轨道设计结果。其中,降轨路径下的设计结果与文献[26]方法设计结果基本一致;升轨路径下得到一个新的轨道解。这说明在相同给定工况下,本文方法能够充分探索不同近地升降轨方式下的轨道分域特性,扩大了自由返回轨道高精度解的设计空间。同时,本文计算效率也提升了一个数量级左右,具备明显优势。采用ATK三维视图进行轨迹可视化表征[24],得到近地升轨与降轨出发方式下自由返回轨道的三维轨迹及星下点轨迹,如图8所示,其中红色轨迹表示LTO,蓝色轨迹表示RTO。
表6自由返回轨道设计结果对比
Tab.6 Comparative results of free return orbit design


图8FRO三维轨迹和星下点轨迹
Fig.8The three-dimensional orbit and sub-satellite track of FRO
考虑文献[19]中的FRO网络学习方法,将本文采用的双路网络架构的初值方法与其进行对比。文献[19]通过分类与回归两层神经网络模型提供PRL轨道倾角与升交点赤经作为设计初值,为地月FRO的可达域做参考。本文所提网络架构与文献[19]的主要区别在于是否采用参数关联变换的设计。利用ATK机动规划模块进行多个算例配置下的自由返回轨道高精度仿真设计,观察采用不同初值方法下的收敛性,计算结果如表7所示。所选取的算例考虑了时刻、LTO轨道倾角、RTO轨道倾角、轨道高度约束在一定工程设计范围内设置的随机性,以此验证本文方法在非预设、多样化条件下进行自由返回轨道设计的有效性。表7显示,相比于不给出初值及文献[19]的初值方法,本文所提方法收敛性相对较好,轨道解空间得到扩大。同时,算例1、算例2、算例3和算例6均在FRO数据库生成的时间范围之外,其适用范围也不局限于智能代理模型的学习边界,这说明本文所提双路网络学习方法具有一定的泛适性。故本文通过融合轨道动力学特征进行双路网络学习来提供初值的方法具有一定优势。
表7自由返回轨道初值方法对比
Tab.7 Comparative results of initial value method for free return orbit

4 结论
本文围绕地月自由返回轨道设计问题,针对现有算法对设计初值依赖性普遍较强的挑战,提出了一种融合动力学特征的自由返回轨道双路网络学习方法。通过对自由返回轨道近地端轨道解空间升降轨分域特性的分析,提出一种采用参数关联变换设计的双路神经网络架构。通过数值仿真,对两条子网络路径的学习效果进行有效验证。借助ATK机动规划功能模块实现了双路网络学习初值方法下的自由返回轨道仿真设计,算例结果表明,该网络架构学习得到的初值具有良好收敛性,能够扩大自由返回轨道高精度解空间。所提方法拓展了ATK支持载人探月工程轨道任务规划的能力,能够为未来载人探月任务的方案设计提供参考。