环境风利用的浮空器区域驻留深度强化学习控制方法
doi: 10.11887/j.cn.202502007
柏方超 , 杨希祥 , 邓小龙 , 龙远 , 侯中喜
国防科技大学 空天科学学院, 湖南 长沙 410073
基金项目: 国家自然科学基金资助项目(61903369,52272445) ; 湖南省杰出青年基金资助项目(2023JJ10056)
Station keeping control method based on deep reinforcement learning for aerostat using ambient wind
BAI Fangchao , YANG Xixiang , DENG Xiaolong , LONG Yuan , HOU Zhongxi
College of Aerospace Science and Engineering, National University of Defense Technology, Changsha 410073 , China
摘要
针对平流层浮空器在动态风场中的区域驻留问题,面向不同的控制通道,基于深度强化学习D3QN算法设计了环境风利用的浮空器区域驻留控制器,研究了不同的奖励函数对区域驻留控制器性能的影响。在以区域驻留时长为3 d、区域驻留半径为50 km的任务约束下,进行了区域驻留控制仿真。结果表明:与采用DDQN方法设计的区域驻留控制器相比,采用D3QN方法设计的控制器的性能显著提高,仅依靠高度调节控制轨迹的情况下,平均区域驻留半径可以达到25.26 km、驻留有效时间比为96.25%,在水平方向辅助动力推进的情况下,平均区域驻留半径可显著减小、驻留有效时间比可显著提高。同时,验证了基于深度强化学习设计的区域驻留控制器具有较强的鲁棒性,可通过不同的奖励函数设计控制器,满足不同的区域驻留任务需求。
Abstract
Aiming at the station keeping control problem of stratospheric aerostat in dynamic wind field, a station keeping controller designed based on deep reinforcement learning D3QN algorithm for different control channels of aerostat operated with ambient wind, studied the impact of different reward functions on the performance of regional resident controllers. Station keeping control simulation was carried out under the task constraint of a station keeping duration of three days and a station keeping radius of 50 km. Results show that: compared with the station keeping controller designed by DDQN method, the performance of the controller designed by D3QN method is significantly improved. When the control trajectory of aerosat is only adjusted by altitude, the average station keeping radius can reach 25.26 km, and the station keeping ratio is 96.25%. With the aid of horizontal propulsion, the average station keeping radius can be significantly reduced and the station keeping time ratio can be significantly increased. At the same time, the strong robustness of the station keeping controller based on deep reinforcement learning was verified, and the controller can be designed with different reward functions to meet the requirements of different station keeping tasks.
区域驻留控制是平流层浮空器飞行控制的关键技术之一,是实现和拓展其应用的基本要求[1]。近年来,一种通过改变浮空器浮重平衡,调整浮空器驻空高度,从而利用准零风层风场环境控制轨迹的浮空器引起国内外学者的广泛关注[2-3]。其相对于飞艇而言,系统简单、便于快速发放;相对于高空气球而言,利用准零风层的风场特征[4],可以通过较小能源消耗实现一定的轨迹控制[25]
通过利用风场环境实现区域驻留的浮空器控制方法可以概括为:传统基于中心点的控制方法与智能控制方法。基于中心点的控制方法不断计算当前位置与中心点的相对位置,当浮空器运动到区域驻留边界时,将其工作高度调节到指向中心点的风层[6]。文献[7]提出将区域驻留控制分解为东西方向与南北方向的独立控制,在东西方向利用准零风层上下风速方向切变的特征,通过调节浮空器工作高度实现区域驻留,在南北方向通过螺旋桨抗风飞行实现区域驻留。文献[8]在高度方向调整浮空器驻空高度,在水平方向耦合动力推进系统,在东西方向、南北方向以及双通道方向设计区域驻留策略,研究表明,水平方向具有弱动力推进系统可以提高区域驻留控制效果。Du等[6]将浮空器调节到期望高度,该高度上的风场方向接近于浮空器指向中心点的方向,在能源约束下,通过遗传算法对副气囊充放气控制策略进行了优化,仿真结果表明,浮空器在一天内可以实现区域驻留半径为30 km的目标[9]
高空风场短周期、小尺度范围内具有时变性和不确定性,传统控制方法并未考虑这些因素的影响[10]。以强化学习为代表的智能控制方法在飞行器控制领域得到了广泛的研究[11-14],在浮空器区域驻留控制领域具有巨大的应用潜力[101315]
Loon项目[16]对比分析了station seeker、tree-search controller与reinforcement learning算法设计的区域驻留控制器。结果表明,通过深度强化学习设计的控制器,在有限能源约束下控制效果更优[10]。文献[17]通过调节空气囊空气质量,从而调整驻空高度,实现浮空器轨迹控制,在不确定风场条件下,设计了平流层浮空器区域驻留控制器,通过仿真分析验证了该方法具有较强的鲁棒性,分析了不同初始驻空点对区域驻留控制效果的影响。文献[18]采用双深度Q学习网络(double deep Q learning network,DDQN)方法设计了平流层浮空器区域驻留控制器,指出了在时变风场条件下,区域驻留控制器具有较强的鲁棒性,本文中所使用的方法较DDQN收敛速度更快,所设计的区域驻留控制器控制性能更优。
以环境风场利用的平流层浮空器为研究对象,建立了平流层浮空器动力学模型,基于决斗双深度Q学习网络(dueling double deep Q learning network,D3QN)方法设计了平流层浮空器区域驻留控制器,在时变风场以及不确定风场条件下开展了区域驻留控制仿真分析,研究了奖励函数以及动力推进对浮空器区域驻留控制效果的影响。
1 数学模型
1.1 平流层浮空器系统组成与工作原理
平流层浮空器系统如图1所示,其中球体分系统主要包括空气囊和氦气囊、设备吊舱与各部分连接机构。囊体结构是球体分系统的主要部分,氦气囊用于填充氦气为浮空器提供浮力,空气囊用于调整浮空器的驻空飞行高度。吊舱设备用于搭载通信设备、安控设备、监测设备等。
1环境风场利用的平流层浮空器结构
Fig.1Structure of stratospheric aerostat using environmental wind fields
高度调节分系统主要包括风机、阀门等。风机阀门采用一体化设计,风机向内部吸气必须先将阀门打开。
能源分系统主要包括太阳能电池、储能电池、能源管理器等,主要作用是产能、储能与供能,用于浮空器跨昼夜长航时驻空飞行。
推进分系统主要包括电机、螺旋桨及转向机构,主要作用是水平方向的抗风飞行,为轨迹控制提供推力。
平流层浮空器工作原理如图2所示。平流层浮空器飞行在弱风层时,以较低的速度驻空,飞行速度接近于风速。当平流层浮空器需要向规划的方向运动时,根据合适的风速和风向,通过空气囊的吸气/排气调节高度,实现对风场能量的综合利用。当不存在所需方向的风场时,可以通过水平方向弱动力来抗风,以较小的能量消耗实现区域驻留。
1.2 动力学模型
忽略浮空器的热力学变化,将浮空器视为质点,将地球视为均质球体,假设浮空器驻空过程中能源充足,建立浮空器动力学模型如下。
1.2.1 纵向动力学
平流层浮空器纵向动力学方程为:
2平流层浮空器工作原理
Fig.2Stratospheric aerostat working principle
mtot+madddvhdt+m˙totvh=B-mtotg-Dhdhdt=vh
(1)
其中,mtot为平流层浮空器的总质量,madd为附加质量,m˙tot为总质量变化率,B为总浮力,Dh为平流层浮空器高度方向上的气动阻力,h为高度,vh为垂直方向速度[19]
1.2.2 横侧向动力学
横侧向的动力学方程可表示为:
mtot +madd dvxdt=12ρair vx+u2CdS+Fpsdxdt=vxmtot +madd dvydt=12ρair vy+v2CdS+Fpsdydt=vy
(2)
其中,ρair为驻空高度的大气密度,Cd为浮空器阻力系数,S为浮空器参考面积,uv分别为东西方向与南北方向的风速分量,vxvy分别为东西和南北水平方向上的速度,xy分别为东西和南北水平方向上的位移,Fps为推进系统推力。
平流层浮空器各部分质量、附加质量、气动阻力、阀门吸排气、水平方向动力系统推力建模方法可以参照文献[18]
2 基于D3QN的区域驻留控制器设计
平流层浮空器在竖直方向的高度调节依靠阀门和风机的开关,为离散控制量;在水平方向动力推进系统的开关为离散控制量,推进系统的方向变化为连续控制量,可以将其分解为离散动作空间。平流层浮空器在三维空间中的飞行轨迹为连续状态,为避免“维度灾难”问题,可以采用基于值函数的深度强化学习方法设计区域驻留控制器[20]
D3QN深度强化学习算法结合了DDQN与决斗深度Q学习网络(dueling deep Q learning network,Dueling DQN)算法的优势,一方面能够有效减小动作值Q函数的过估计,另一方面,将Q值分解为状态值函数和优势值函数,可以先判断当前状态的好坏,然后根据动作空间判断增益进而选取动作。在这两种改进下,D3QN可以加速找到收敛点[20]。综上,采用D3QN深度强化学习方法设计平流层浮空器区域驻留控制器。
2.1 马尔可夫决策模型
平流层浮空器区域驻留控制问题可以描述为:时变风场条件下,求解浮空器动作序列(策略),使其在一定的空间范围内驻空时间越久越好。可以采用强化学习中的马尔可夫决策过程(Markov decision process,MDP)对区域驻留问题进行设计,相关元素设置如下。
2.1.1 环境状态空间
平流层浮空器具体状态参数如表1所示。
1状态参数设置
Tab.1 Status parameter setting
其中,风场环境采用长沙附近的风场数据,每小时变化一次,浮空器当前位置的风场信息采用三次样条插值计算。
2.1.2 动作空间
根据高度控制系统,浮空器纵向的运动控制取决于阀门和风机的开关,可以分为3种动作:阀门开、风机开、阀门关。
根据推进系统设计,浮空器水平方向的运动控制取决于螺旋桨的开关与推进方向,可以分为9种动作:螺旋桨关、螺旋桨向北、螺旋桨向东北、螺旋桨向东、螺旋桨向东南、螺旋桨向南、螺旋桨向西南、螺旋桨向西、螺旋桨向西北。
浮空器仅依靠高度调节实现区域驻留的动作空间有3个,水平方向增加东西方向与南北方向单通道控制时,浮空器动作空间组合各有9个,双通道控制时动作空间有27个。
2.1.3 状态转移概率
对于平流层浮空器的每一个动作和状态,当平流层浮空器执行完一个动作,可以确定下一步状态,状态转移概率PaSS=1。
2.1.4 奖励函数
奖励函数反映强化学习控制的最终目的,耦合风向、浮空器位置信息设置奖励函数为:
Rst=maxNwwind δ+wdis R1-S+b
(3)
式中,N保证wwindwdis奖励占比不变,wwind为风向权重系数,wdis为距离相权重系数,δ为风向与当前位置方向的夹角,R1为区域驻留半径,S为浮空器位置到区域驻留中心的距离[18]。由于压缩机的开关须不频繁以达到节约能源的效果,增加了偏差b,以区分动作类型。
2.1.5 动作价值函数
基于动作值函数的Q学习算法通过神经网络拟合状态-动作空间对应的值函数,根据最大动作值函数Qstat|θ)确定动作,θ为神经网络参数,训练过程中,控制器与环境进行交互采样并保存数据,将样本空间[statrtst+1]保存到经验池中,样本空间中的元素分别为状态、动作、奖励以及下一步状态。
DDQN解决动作值函数Qstat|θ)问题的流程可以归纳为:建立双Q网络,分别为当前神经网络与目标神经网络,通过梯度下降算法更新两个神经网络的参数(θθ-)。更新方程[18]如下:
yt=rt+γQst+1,at+1θ-
(4)
at+1=argmaxat+1 Qst+1,at+1θ
(5)
损失函数为:
Lθ-=yt-Qst,atθ2
(6)
在DDQN的基础上,采用Dueling DQN算法结构,将动作值函数重新表示为式(7)[19]
Qst,at=Vst+Ast,at-1|A|a'A Ast,at
(7)
式中,Vst)为状态值函数,Astat)为优势函数。
2.2 基于D3QN区域驻留控制参数及评价指标
在神经网络训练时,采用自适应矩估计(adaptive moment estimation,Adam)算法更新网络参数。经验池采用优先经验回放机制算法[21]
贪婪策略满足[18]
εt+1=εt1-εdecT
(8)
式中:ε初值为0.98;εdec为贪婪算法下降参数,取值为10-6
神经网络由1个输入层、4个隐藏层、1个输出层组成。激活函数选择ReLU函数。其余相关参数如表2所示。
2D3QN算法参数
Tab.2 D3QN algorithm parameters
平流层浮空器区域驻留控制算法如算法1所示。
算法1 平流层浮空器区域驻留控制算法
Alg.1 Stratospheric aerostat station keeping control algorithm
图3为基于D3QN算法的平流层浮空器区域驻留控制流程。
为了量化分析控制器的区域驻留能力,提出平均区域驻留半径dagv和区域驻留有效时间比teff两个参数作为空间评价指标和时间评价指标[18]
3基于D3QN的平流层浮空器区域驻留控制流程
Fig.3Station keeping control flow based on D3QN for stratospheric aerostat
dagv为所有时间节点浮空器位置距区域驻留中心的平均值。
dagv=i=1n xi2+yi2/n
(9)
teff表示浮空器在50 km半径范围内驻留的时间占比。
teff=Tall-T50Tall×100%
(10)
3 仿真结果与分析
3.1 无推进系统下的浮空器区域驻留控制
以驻空高度在18~22 km,总体积为3 360 m3的平流层浮空器为研究对象。
采用强化学习区域驻留控制器得出的飞行仿真结果如图4所示(阀门开关状态取值为1代表排气、0代表关闭、-1代表吸气,下同),图5为相同风场条件下,传统基于中心点控制策略的水平轨迹。与基于中心点驻留控制策略、DDQN设计的区域驻留控制器相比,通过D3QN设计的控制器,最大区域驻留半径dmax=70.37 km,平均区域驻留半径dagv=25.26 km,区域驻留有效时间比teff=96.25%,浮空器96.25%的时间位于区域驻留任务区域内,控制器性能明显提升。在调节过程中,相较中心点控制策略,利用深度强化学习得到的控制器能够根据预测风场提前调节高度,使得浮空器提前做出决策。图4(c)图4(d)表示高度调节随时间的变化以及阀门的动态变化。本文采用的风场准零风层具有向上移动的趋势,从图4(c)中可以看出,浮空器工作高度向工作上限移动,这与准零风层的移动趋势是相同的。
3.2 风场扰动影响分析
图6为在风场具有不确定性的情况下,平流层飞艇在区域驻留控制器作用下的飞行仿真结果。东西和南北方向上的风速具有高斯分布形式的不确定性,不确定性方差为0.5。结果表明,最大区域驻留半径为65 km,平均区域驻留半径为23.5 km,区域驻留有效时间比为83.75%,控制器具有较强的鲁棒性。与无扰动下的控制情况进行对比,最大区域驻留半径和平均区域驻留半径有所减小,这是由于设置的奖励函数中的距离项为wdisR1-S),在目标区域内停留的时间越久,奖励值越大,所以扰动情况下的区域驻留有效时间比减小了,总体指标接近于无风场扰动下的指标。
4强化学习区域驻留控制器飞行仿真结果
Fig.4Flight simulation results of station keeping controller based on reinforcement learning
5传统基于中心点控制策略的水平轨迹
Fig.5Horizontal trajectory based on traditional central point control strategy
6风场不确定性下飞行仿真结果
Fig.6Flight simulation results under uncertainty of wind disturbance
3.3 目标函数影响分析
图7为不同权重下的浮空器区域驻留控制器性能对比结果。由图7可以看出,wwind/wdis=0.5时,浮空器96.25%的驻空时间在50 km驻留范围内,其余权重系数下,浮空器在50 km范围内停留时间较少。若浮空器的区域驻留范围要求是20 km,权重系数比值wwind/wdis=2较合适。产生这种影响的原因是:虽然权重系数wwind有利于浮空器找到合适的风层向区域驻留中心靠近,但是风速项的组合为wwindδ,浮空器可能会在付出较小代价的情况下向远离区域驻留中心的方向移动,利用合适的风场向区域驻留中心靠近,反而会降低区域驻留控制器的预决策能力,区域驻留的控制效果向中心点策略的效果靠近。对于特定任务下的区域驻留范围要求,可以选择不同权重系数比值下设计的区域驻留控制器。
7不同权重系数下的浮空器区域驻留控制器性能
Fig.7Performance of aerostat station keeping controller with different weight coefficients
3.4 推进系统作用下浮空器区域驻留控制
3.4.1 东西方向单通道控制区域驻留仿真
图8为东西单通道控制飞行仿真结果,由图8(a)图8(b)可以看出,最大区域驻留半径dmax=27.80 km,平均区域驻留半径dagv=8.2 km,区域驻留有效时间比teff=100%。相比3.2节,在东西方向上增加推进系统,能够减小区域驻留半径,在东西方向上的驻留控制效果显著提高。
通过图8(c)图4(c)的对比可以发现,东西方向增加动力推进后,浮空器高度调节的范围减少,对于东西方向风场的利用效率降低。同时,从图8(d)图4(d)对比发现,阀门风机开关频率明显减小。
8东西单通道控制飞行仿真结果
Fig.8Single-channel control flight simulation results in the east-west direction
3.4.2 南北方向单通道控制区域驻留仿真
图9为南北单通道控制飞行仿真结果。从图9(a)图9(b)可知,最大驻留半径dmax=10 km,平均区域驻留半径dagv=2 km,区域驻留有效时间比teff=100%。与无推进系统控制(图4(b))、东西方向单通道控制(图8(b))相比,区域驻留范围大幅减小,区域驻留控制效果明显提升。通过仿真结果可知,若要实现半径10 km范围内区域驻留控制的目标,在高度调节的同时,需在南北方向上用动力推进系统辅助控制轨迹。同时,该结果反映了准零风层风向变化特点:东西方向轨迹控制可以通过调节驻空高度,利用东西方向风向切变明显的特点来实现;南北方向的风向单一,难以通过高度调节控制轨迹,需用动力推进系统辅助控制。综合来看,在南北方向增加动力推进辅助控制轨迹的效果优于东西方向单通道的控制效果。
9南北单通道控制飞行仿真结果
Fig.9Single-channel control flight simulation results in the north-south direction
3.4.3 双通道控制区域驻留仿真
图10为双通道控制飞行仿真结果。从图10(b)可以看出,最大区域驻留半径dmax=16.3 km,平均区域驻留半径dagv=1.7 km,区域驻留有效时间比teff=100%。在双通道水平方向耦合动力推进下,可以进一步缩小区域驻留范围,平均区域驻留半径进一步缩小,但与南北方向单通道控制相差不大,并且通过高度随时间的变化情况可以发现,浮空器的高度调节范围较上述情况较小,且最大驻留半径有所增加。在仿真过程中并未考虑动力推进系统的能源消耗,需要在能源约束的情况下,进一步研究浮空器的区域驻留控制。表3为D3QN与DDQN设计的区域驻留控制器控制效果对比[18],采用D3QN设计的区域驻留控制器控制效果显著优于DDQN设计的控制器。
10双通道控制飞行仿真结果
Fig.10Dual-channel control flight simulation results
3D3QN与DDQN设计的区域驻留控制器控制效果对比
Tab.3 Comparison of control effect for station keeping controllers designed based on D3QN and DDQN
3.5 控制器训练收敛特性分析
图11为各控制器的收敛情况。在2 000回合左右可以收敛,训练时间和处理过程随处理器频率的降低而增加。根据神经网络输出结果,区域驻留控制器选择动作时间在5 ms以内,符合浮空器实际工程中的控制需求。
11控制器收敛情况
Fig.11Convergence situation of controller
4 结论
本文针对利用环境风场实现轨迹控制的浮空器,采用D3QN算法设计了区域驻留控制器。针对不同控制通道进行了3 d内的区域驻留仿真,验证了通过该方法获得的控制器具有环境适应性强、鲁棒性强的特点。
1)与基于中心点的区域驻留控制策略、DDQN算法设计的区域驻留控制器相比,基于D3QN算法设计的控制器能明显提高浮空器区域驻留能力,且在扰动的情况下,控制器具有较强的鲁棒性;分析了奖励函数对区域驻留控制器性能的影响,结果表明,可通过选择不同的奖励函数,实现不同的区域驻留控制效果。
2)在南北方向单通道增加动力推进,能够有效减小区域驻留半径,控制效果优于在东西方向单通道增加动力推进,和双通道增加动力推进控制效果接近。
1环境风场利用的平流层浮空器结构
Fig.1Structure of stratospheric aerostat using environmental wind fields
2平流层浮空器工作原理
Fig.2Stratospheric aerostat working principle
3基于D3QN的平流层浮空器区域驻留控制流程
Fig.3Station keeping control flow based on D3QN for stratospheric aerostat
4强化学习区域驻留控制器飞行仿真结果
Fig.4Flight simulation results of station keeping controller based on reinforcement learning
5传统基于中心点控制策略的水平轨迹
Fig.5Horizontal trajectory based on traditional central point control strategy
6风场不确定性下飞行仿真结果
Fig.6Flight simulation results under uncertainty of wind disturbance
7不同权重系数下的浮空器区域驻留控制器性能
Fig.7Performance of aerostat station keeping controller with different weight coefficients
8东西单通道控制飞行仿真结果
Fig.8Single-channel control flight simulation results in the east-west direction
9南北单通道控制飞行仿真结果
Fig.9Single-channel control flight simulation results in the north-south direction
10双通道控制飞行仿真结果
Fig.10Dual-channel control flight simulation results
11控制器收敛情况
Fig.11Convergence situation of controller
1状态参数设置
2D3QN算法参数
3D3QN与DDQN设计的区域驻留控制器控制效果对比
《平流层飞艇技术》编写组. 平流层飞艇技术[M]. 北京: 科学出版社,2019. Stratospheric Airship Technology Writing Group. Stratospheric airship technology[M]. Beijing: Science Press,2019.(in Chinese)
邓小龙, 杨希祥, 麻震宇, 等. 基于风场环境利用的平流层浮空器区域驻留关键问题研究进展[J]. 航空学报,2019,40(8):022941. DENG X L, YANG X X, MA Z Y,et al. Review of key technologies for station-keeping of stratospheric aerostats based on wind field utilization[J]. Acta Aeronautica et Astronautica Sinica,2019,40(8):022941.(in Chinese)
罗昔柳, 刘俊涛, 张海艳, 等. 快速部署浮空器总体技术研究[J]. 宇航总体技术,2019,3(5):17-22. LUO X L, LIU J T, ZHANG H Y,et al. General technology study of rapid deployment stratospheric aerostat[J]. Astronautical Systems Engineering Technology,2019,3(5):17-22.(in Chinese)
肖存英, 胡雄, 龚建村, 等. 中国上空平流层准零风层的特征分析[J]. 空间科学学报,2008,28(3):230-235. XIAO C Y, HU X, GONG J C,et al. Analysis of the characteristics of the stratospheric quasi-zero wind layer over China[J]. Chinese Journal of Space Science,2008,28(3):230-235.(in Chinese)
JIANG Y, LYU M Y, QU Z P,et al. Performance evaluation for scientific balloon station-keeping strategies considering energy management strategy[J]. Renewable Energy,2020,156:290-302.
DU H F, LYU M Y, LI J,et al. Station-keeping performance analysis for high altitude balloon with altitude control system[J]. Aerospace Science and Technology,2019,92:644-652.
王益平, 周飞, 徐明. 临近空间浮空器区域驻留控制策略研究[J]. 中国空间科学技术,2018,38(1):63-69. WANG Y P, ZHOU F, XU M. Research on control strategy of territory-hovering aerostat in near space[J]. Chinese Space Science and Technology,2018,38(1):63-69.(in Chinese)
邓小龙, 丛伟轩, 李魁, 等. 风场综合利用的新型平流层浮空器轨迹设计[J]. 宇航学报,2019,40(7):748-757. DENG X L, CONG W X, LI K,et al. Trajectory design of a novel stratospheric aerostat based on comprehensive utilization of wind fields[J]. Journal of Astronautics,2019,40(7):748-757.(in Chinese)
DU H F, LYU M Y, ZHANG L C,et al. Energy management strategy design and station-keeping strategy optimization for high altitude balloon with altitude control system[J]. Aerospace Science and Technology,2019,93:105342.
BELLEMARE M G, CANDIDO S, CASTRO P S,et al. Autonomous navigation of stratospheric balloons using reinforcement learning[J]. Nature,2020,588(7836):77-82.
张顶立. 基于深度强化学习的城市场景无人机避撞决策研究[D]. 德阳: 中国民用航空飞行学院,2022. ZHANG D L. Research on autonomous collision avoidance decision-making of UAV in urban airspace based on deep reinforcement learning[D]. Deyang: Civil Aviation Flight University of China,2022.(in Chinese)
DOMINGO M C. Power allocation and energy cooperation for UAV-enabled mmWave networks:a multi-agent deep reinforcement learning approach[J]. Sensors,2021,22(1):270.
YANG X W, YANG X X, DENG X L. Horizontal trajectory control of stratospheric airships in wind field using Q-learning algorithm[J]. Aerospace Science and Technology,2020,106:106100.
TEETHI T I, 卢虎, 闵欢, 等. 基于改进强化学习的无人机规避决策控制算法[J]. 探测与控制学报,2022,44(3):68-73. TEETHI T I, LU H, MIN H,et al. An improved reinforcement learning method for drone avoidance decision control[J]. Journal of Detection & Control,2022,44(3):68-73.(in Chinese)
LIU Y T, PRICE E, GOLDSCHMID P,et al. Autonomous blimp control using deep reinforcement learning[EB/OL].(2021-09-27)[2022-06-15].https://arxiv.org/pdf/2109.10719v2.
李智斌, 黄宛宁, 张钊, 等.2020年临近空间科技热点回眸[J]. 科技导报,2021,39(1):54-68. LI Z B, HUANG W N, ZHANG Z,et al. Summary of the hot spots of near space science and technology in 2020[J]. Science & Technology Review,2021,39(1):54-68.(in Chinese)
XU Z Y, LIU Y, DU H F,et al. Station-keeping for high-altitude balloon with reinforcement learning[J]. Advances in Space Research,2022,70(3):733-751.
柏方超, 杨希祥, 邓小龙, 等. 基于深度强化学习的风场中浮空器驻留控制[J]. 北京航空航天大学学报,2024,50(7):2354-2366. BAI F C, YANG X X, DENG X L,et al. Station keeping control for aerostat in wind fields based on deep reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(7):2354-2366.(in Chinese)
张小达, 张鹏, 李小龙.《标准大气与参考大气模型应用指南》介绍[J]. 航天标准化,2010(3):8-11. ZHANG X D, ZHANG P, LI X L. Introduction to Guidelines for the application of standard atmosphere and reference atmosphere models[J]. Aerospace Standardization,2010(3):8-11.(in Chinese)
IQBAL A, THAM M L, CHANG Y C. Energy-and spectral-efficient optimization in cloud RAN based on dueling double deep Q-network[C]//Proceedings of the IEEE International Conference on Automatic Control & Intelligent Systems(I2CACIS),2021:311-316.
SCHAUL T, QUAN J, ANTONOGLOU I,et al. Prioritized experience replay[EB/OL].(2016-02-25)[2022-07-01].https://arxiv.org/pdf/1511.05952.