永磁同步直线电机参数自适应自抗扰深度强化学习控制策略
doi: 10.11887/j.issn.1001-2486.25010043
宋琳 , 聂子玲 , 孙军 , 周杨威 , 李华玉
海军工程大学 电磁能技术全国重点实验室, 湖北 武汉 430033
基金项目: 国家自然科学基金资助项目(52307051,52077219)
Adaptive parameter active-disturbance rejection deep reinforcement learning control strategy for permanent magnet synchronous linear motors
SONG Lin , NIE Ziling , SUN Jun , ZHOU Yangwei , LI Huayu
National Key Laboratory of Science and Technology on Electromagnetic Energy, Naval University of Engineering, Wuhan 430033 , China
摘要
提出一种融合深度强化学习与改进粒子群优化的自适应自抗扰控制策略,旨在提升永磁同步直线电机的速度与推力控制性能。通过建立电机数学模型并分析其动态特性,设计基于深度强化学习粒子群优化的控制框架,利用强化学习中的奖励机制与环境交互,动态优化自抗扰控制器参数以应对运行条件变化及外部扰动。改进粒子群算法引入分区惯性权重机制,结合历史全局最优数据循环更新策略,优化神经网络权重,从而提高控制策略的搜索效率与优化精度。实验结果表明,相比传统粒子群优化自抗扰控制算法,所提方法显著提高了电机位置与速度跟踪精度,增强了系统稳定性及抗推力扰动能力,验证了创新策略的有效性。
Abstract
An adaptive active disturbance rejection control strategy integrating DRL (deep reinforcement learning) with enhanced PSO (particle swarm optimization) was presented, aiming to improve the speed and thrust control performance of PMSLMs (permanent magnet synchronous linear motors). A mathematical model of the motor was established to analyze its dynamic characteristics, followed by the design of a DRLPSO control framework. This framework leveraged reward mechanisms in reinforcement learning to interact with the environment, dynamically optimized ADRC (active disturbance rejection controller) parameters to accommodate varying operating conditions and external disturbances. The modified PSO algorithm incorporated partitioned inertia weights and cyclically utilized historical global optimal data to iteratively update control policies, refining neural network weights and thereby enhancing search efficiency and optimization accuracy. Experimental results show that the proposed DRLPSO-ADRC method achieves significantly higher tracking precision in position and velocity, along with improved system stability and resistance to thrust disturbances, compared to conventional PSO-ADRC algorithms. These findings validate the effectiveness of the innovative control strategy.
在当代自动化与精密制造领域,与传统旋转电机相比,直线电机具备多项优势:其直接驱动方式省去了机械传动环节,从而减少了能量损耗和系统复杂性,同时显著提升了动态响应速度和定位精度[1-3]。这些特性使直线电机在实现高速直线运动的同时,能够达到微米乃至纳米级别的精确控制 [4-6]。然而,直线电机在实际应用中面临着一系列挑战。直线电机本身结构产生的周期性定位力扰动是推力波动的主要因素[7-8],而推力波动会对速度平稳运行造成较大影响[9-11]。同时,电机在运行中常受到各种内部和外部扰动的影响,因此采用先进的驱动控制技术解决推力扰动对直线电机速度控制性能的影响是十分必要的手段[12]
近年来,国内外专家对直线电机本体结构设计进行优化[13],但优化操作很难消除这些扰动,且会增加电机设计的成本和复杂度。因此大多数研究主要集中在控制算法优化上[14-15]。其中,自抗扰控制(active disturbance rejection control,ADRC)算法因其不依赖于被控对象精确模型、动静态性能良好、抗扰动能力强等优点成为研究热点。文献[16-17]分别将ADRC运用在电机控制上,用来减小控制波动和提高位置估计性能。文献[18]研究了一类线性-非线性切换自抗扰控制,以提高电机速度和电流控制器的抗扰能力。在此基础上,学者们对ADRC结构进一步优化,并与重复控制[19]、预测控制[20]、谐振控制[21]相结合,来实现更强的电机抗干扰能力。
ADRC虽然在抗干扰能力上具有显著优势,但其控制器参数整定较为复杂[22-23]。尽管ADRC在一定程度上降低了对系统模型的依赖,但在某些复杂系统中,其性能仍受到系统模型准确性的限制[24]。人工智能技术的快速发展,尤其是深度强化学习(deep reinforcement learning,DRL)在自动控制领域的应用,为自抗扰控制参数设置带来新的可能性。
文献[25-27]提出粒子群优化(particle swarm optimization,PSO)算法来调整和优化自抗扰控制器的参数,并比较了比例积分微分(proportional-integral-derivative,PID)控制、ADRC和PSO-ADRC的效果,试验结果表明优化后的算法能够提高电机的动态性能和稳态速度跟踪精度。但上述文献只进行了仿真验证,并未对真实电机进行控制验证。文献[28-30]采用深度强化学习对ADRC进行参数优化且与其他算法对比,并在永磁同步旋转电机上进行了实验,但并未给出对电机推力波动的影响,对各种工况的验证较少。
很多研究将PSO与DRL结合,以互补两者的缺陷,实现更高效的优化。一些研究使用DRL作为工具来提高PSO的收敛速度和稳定性[31-33]。文献[34]中,采用DRL评估PSO粒子每一步的动作奖励,指导粒子实时地执行合适的动作,提高了PSO优化效率。文献[35]中提出了一种创新的方法,利用混合最优强化学习来训练预设PSO算法。通过将参数纳入考量,该方法能够在路径评价系统中高效地寻觅最佳路径。然而DRL评估PSO的奖励时,奖励函数参数设置不正确可能导致优化方向错误。也有研究采用PSO来改善DRL的性能。文献[36]提出了一种利用PSO对DRL策略进行参数调优的方法,以提升其在复杂动态环境中的决策性能。此外,文献[37]采用双策略网络的DRL方法,分别以全局和个体最优粒子为输入,生成不同正态分布,以加快策略选择。但在PSO加速学习时,因智能体相互影响和环境变化,粒子易波动,导致训练震荡。文献[38]提出了一种粒子群模糊PID与深度Q网络补偿方法的位置环控制策略,但论文中的实验未验证负载变化、外部干扰等工况,研究成果的实际应用价值有待验证。
为此,本文设计了一种结合深度学习和强化学习的算法优化ADRC所有控制参数,从而降低永磁同步直线电机(permanent magnet synchronous linear motor,PMSLM)推力波动,提升速度环运行性能。首先,建立直线电机的数学模型并分析其动态特性。然后,设计一种基于DRLPSO的控制策略,通过优化参数自适应自抗扰控制(adaptive parameter ADRC,APADRC)参数来适应不同的运行条件和外部扰动,从而实现对直线电机速度的精确控制。通过PSO算法反推出当前强化学习网络策略的不足之处,并据此调整粒子的位置和速度,以更精确地逼近最优控制策略。PSO对Actor-Critic框架进行策略学习和选择,引入分区惯性权重,循环利用全局最优的历史数据,优化神经网络的权重,提高了控制策略的搜索效率和优化精度。最后通过多种工况实验验证所提算法的优越性。
1 永磁同步直线电机模型
对永磁直线电机磁场进行分析,建立相应的简化模型以便于降低求解难度[39]
电机在三相静止坐标系下的数学模型复杂,适用于较精确的建模,但不适用于实际控制,经过坐标变换可以得到三相永磁同步直线电机在d-q坐标下的数学模型如下所示。
磁链方程:
(1)
电压方程:
ud=Rsid+dψddt-πτVψquq=Rsiq+dψqdt+πτVψd
(2)
其中,uduq分别为dq轴电压,ψdψq分别为dq轴磁链,idiq分别为dq轴电流,Rs为动子绕组电阻,LqLdLdq分别为交轴电感、直轴电感和互感,V为电机的动子速度,ψf为永磁磁链,τ为电机极距。
永磁同步直线电机由于端部开裂会产生端部力,定子开槽形状不同会产生不同齿槽力。因此需对端部力和齿槽力进行分析。
一般认为齿槽效应力具有相同的函数,但会根据不同初始位置改变相应的角度,总的齿槽效应力Fcogging可认为是电机各部分效应力相加的结果[40],可表示为:
(3)
式中,Fn是第n次谐波的幅值系数,x是动子位移,l是动子长度,δn是第n阶谐波的相位角。
永磁同步直线电机端部效应根据初级和次级位置的不同变化,直线电机两边端部力的总和Fend[40]
Fend=Σn=12Fm1cosnπ2τΔ+Fmlsinnπ2τΔ.sinnπτΔ2+x
(4)
式中,Fm1是基波幅值,Δ是结构端部的位移增量。
直线电机推力Fe表达式[31]为:
Fe=1.5πPnτψfiq+πψfPn2τiqcos4πft-2π3-πLaPn2τiq2sin4πft-2π3-πMaPnτiq2sin4πft+π3
(5)
本文采用表贴式永磁同步直线电机,可近似认为dq轴电感相等。当采用d轴参考电流i*d=0的矢量控制方法时,电磁推力Fe与电流iq成正比,电磁推力Fe方程可以简化为:
Fe=1.5πPnτψfiq
(6)
永磁同步直线电机的齿槽力仅与动子位置相关,端部力会呈现偶数倍于永磁同步直线电机的电频率的波动,但都与电流成正相关。
图1所示,永磁同步直线电机运动过程中同时还存在摩擦力Ffri、负载力Fload以及外部环境引起的扰动Fdis,将总的推力分解到与速度运行平行方向上,得到表达式为:
Fe+Ffri+Fload +Fdis=Mdvdt+Bv
(7)
式中,M为动子质量,B为黏滞摩擦系数。
1永磁同步直线电机控制系统框图
Fig.1Block diagram of PMSLM control system
综上,直线电机推力不可避免地会受到周期性定位力扰动和非周期性等效负载等多源扰动的影响,这会降低电磁推力的控制精度,造成推力波动和速度波动,严重时甚至导致直线运动系统的机械损坏。
2 直线电机ADRC控制器
传统ADRC控制器主要包含微分跟踪器、误差反馈控制率和扩张状态观测器三部分,如图2所示。
2永磁同步直线电机ADRC控制原理图
Fig.2Block diagram of ADRC for PMSLM control system
2.1 微分跟踪器
(8)
fale1,m1,n1=xn11-m1,|x|n1sign(x),|x|>n1
(9)
其中,k1为常系数,v*为直线电机给定速度,v^为直线电机观测速度,e1是实际速度与给定速度之差,fal为非线性函数,m1为非线性因子,n1为滤波因子,z11是速度一阶导数。
ADRC控制器利用微分跟踪器跟踪系统的参考输入,为直线电机速度输入指令信号设置一个过渡过程,以防止速度变化率超出系统跟踪能力。
2.2 扩张状态观测器
(10)
式中:k2k3为常系数,m2m3为非线性因子,n2n3为滤波因子;u是电机q轴参考电流实际输入值;b0是扰动补偿系数,用于将推力转换为控制输入,取b0=1.5πPnτψf作为参考值,与推力公式(5)的系数是一致的;z22F^是扰动观测;z21是速度观测的一阶导数。
扩张状态观测器观测直线电机控制系统状态及影响系统输出的总扰动,包括外部干扰、系统参数的变化、非线性因素等。根据观测结果对控制量进行等量补偿,可以显著提高控制系统的鲁棒性。
2.3 误差反馈控制率
(11)
式中:k4k5为常系数,m4m5为非线性因子,n4n5为滤波因子;b0是补偿系数,与式(10)取值相同;F表示电机控制系统中的总扰动力,对应式(7)中的FdisF^表示观测的总扰动力;u0是电机q轴电流设定值;u是电机q轴参考电流实际输入值,这里表示的就是输出的q轴参考电流iqref
速度误差反馈控制率可认为是一个带前馈补偿的比例微分控制器,与传统PID控制器相比,前馈补偿可消除系统静差,无须引入积分环节,可避免积分带来的振荡与超调。以上的控制参数可经过强化学习和深度学习训练寻优以适应不同运行条件和扰动环境。
2.4 马尔可夫决策过程
本文采用的深度强化学习算法核心是马尔可夫决策过程(Markov decision process,MDP)。其中S为状态集、A为动作集、R为奖励函数,P为在状态s下采取动作a转到下一个状态s′的概率。
直线电机的状态集S由实时监测的电气信号和环境扰动信息构成,包括电流、速度、位置及其误差。环境扰动特征包括负载变化、摩擦力等扰动。动作集A对应于ADRC控制器参数的动态调整范围,包括观测带宽、非线性因子、比例系数和滤波因子等。
网络更新策略π通常表示为:
π(as)=PAt=aSt=s
(12)
状态价值函数Vπs)和动作价值函数Qπsa)为(使用Bellman方程):
(13)
式中,γ为折扣因子,rt+1为下一时刻的奖励函数,E为期望。
为保障学习的稳定性,使用一个小的权重因子λ将当前网络和目标网络进行加权平均,如式(14)所示,确保了更新的平滑性和稳定性。
(14)
式中,是Critic网络的参数,是Actor网络的参数。
图3所示,Actor当前网络对当前电机输出状态s(电流、速度和位置等)选择并执行动作a(ADRC控制参数)从而获得新状态s′(预测的电机状态)和奖励r。然后将样本(sars′)放入经验回放池中。当经验回放池积累到一定量,Actor当前网络采样状态s′,输出动作a′(ADRC更新后的控制参数),输入Critic目标网络计算Q值。两个Critic目标网络计算出最优目标Q值后,当前网络选择最优Q值对应的策略进行网络参数的更新,对应的策略输出给Actor网络,并定期把最新网络参数输入目标网络。Agent中的Actor-Critic神经网络经过多种工况的训练,寻优得到最优的控制系数输入电机控制系统中,形成一个闭环。
3 基于DRLPSO的APADRC控制器设计
为降低电磁推力波动和提高动子速度的平稳控制,设计了基于DRLPSO的APADRC控制器来观测和补偿复杂多维扰动。APADRC控制器与DRLPSO的结合是通过训练智能体与电机控制系统的交互来探索和学习ADRC控制参数。
3.1 直线电机APADRC控制器
图4所示,智能体会接收来自电机输出的电气信号和环境扰动信息等以及设置的奖励函数,通过Actor网络和Critic网络对上一次训练的系数进行改进。智能体不断与环境进行交互和评估,直到奖励函数R收敛,输出时变最优APADRC控制器参数。
3永磁同步直线电机深度强化学习原理图
Fig.3Block diagram of deep reinforcement learning for PMSLM
4智能体与永磁同步直线电机交互
Fig.4Agent interacting with PMSLM
图5所示,直线电机控制系统包括直线电机本体、光栅编码器、PI控制器、逆变器和APADRC控制器等。本文将整个直线电机控制系统视为环境(Environment),电机输出信息视为状态(State),电机控制效果视为奖励(Reward)。智能体的输入层接收直线电机输出的电流、速度和位置及其误差和环境扰动等信息,输出层输出下一周期最优APADRC控制器参数,可以根据不同工况随时调整参数。
奖励函数设置包括直线电机的位置误差、速度误差、速度超调量、上升时间和调节时间,通过设置多种电机状态参数来平衡控制精度和系统的稳定性。当电机快速到达目标位置时,可以给予较大的奖励;当电机偏离目标位置或运行不稳定时,则给予较小的奖励或惩罚。直线电机的控制性能指标包括动态性能和稳态性能。动态性能主要包括速度超调量σ、上升时间tr和调节时间ts,稳态性能主要包括速度误差verror和电流稳态误差ierror。若速度超调量σ小于1.5 %,上升时间tr小于0.2 s,调节时间ts小于0.2 s,稳定误差小于0.01%,则奖励函数设置为:
5永磁同步直线电机深度强化学习控制系统框图
Fig.5Block diagram of deep reinforcement learning control system for PMSLM
r=p1ierror 2+p2verror 2+p3σ+p4ts+p5tr
(15)
式中,p1p2p3p4p5是奖励函数权重系数。根据控制目标的不同,对权重系数大小进行调节。在本文算例中,经过消融实验后得到最佳权重系数为p1=-0.01,p2=-1,p3=-0.03,p4=-0.01,p5=-0.01,当r>-0.5时,则认为达到了预期目标。
设计负载突变、参数波动、速度指令变化、位置指令变化及多源扰动等289种工况的多轮训练,具体包括以下5点:
1)负载突变工况:从10%到150%额定推力突加突卸负载。
2)参数波动工况:补偿系数b0在±80%范围内随机波动。
3)速度指令变化工况:速度指令阶跃变化、正反转切换、全速域变化等。
4)位置指令变化工况:正弦波位置指令(幅值0.2~2.5 m、频率0.5~10 Hz),参考位置从0 m逐步变化到2.5 m再反向变化。
5)多源扰动工况:模拟周期性齿槽力、端部力和随机外部扰动叠加等。
智能体在经过289种工况训练后,可随时根据电机运行状态输出APADRC的系数,其中选择k3k4k5生成电流参考值。
iqref=k4fv^-v*+k5f(F^-F)-F^-F0/b0
(16)
式中,
F0=Ffri+Fload
(17)
F^=-k3falv^-v*
(18)
通过式(18)可知电机推力与速度成正相关关系,通过式(16)将外界扰动通过APADRC补偿到电机电流中,因此智能体生成的时变APADRC控制系数可以适应不同环境下电机的平稳控制,从而降低速度和推力波动。
3.2 DRLPSO算法
DRL结合PSO算法反推出当前网络策略的结构图如图6所示。PSO对Actor-Critic框架进行策略学习和选择,根据最优Q值调整粒子的位置和速度,以更精确地逼近最优控制策略。粒子群算法中每一个粒子表示为一种可能的策略,而粒子的适应度则由强化学习环境中的回报决定。在每一个控制周期中,使用PSO在所有可能的控制序列中搜索最佳的策略应用到系统中。这两个解迭代交互,直到得到控制系统最优参数。
传统粒子位置和速度按照下式进行更新:
(19)
传统粒子群权重系数公式为:
6改进粒子群优化更新网络策略参数结构图
Fig.6Parameter structure of the improved particle swarm optimisation update network strategy
w=wstart -wstart -wend ttmax
(20)
其中:w是惯性权重,wstart是开始的权重系数,wend 是最后的权重系数;tmax是算法的迭代次数,t是当前迭代次数;c1c2是学习因子,取值为非负常数;r1r2是分布在[0,1]区间的随机数。
传统粒子群算法易陷入局部最优的问题,为保持粒子全局和局部搜索能力的良好平衡,本文采用分区惯性权重设置方法,即将权重系数w分为三部分——第一部分是初始值,第二部分影响粒子速度,第三部分影响粒子位置,即
w=w0+owv+gwx
(21)
式中,w0是基准值,wv是粒子速度权重值,wx是粒子位置权重值,o是粒子群的前一时刻速度函数与该时刻的比值,g是粒子群的前一时刻位置函数与该时刻的比值。循环利用全局最优的历史数据来分析粒子的进化速度和位置,从而达到全局和局部搜索能力的良好平衡。
改进PSO算法在深度强化学习中可以通过优化网络结构的参数来提高模型的预测准确性和鲁棒性,从而构建出更加准确、高效的强化学习模型来更新APADRC参数,以实现电机控制的优化,进而降低速度和推力波动。
4 实验结果与分析
为了验证本文提出算法的优越性,搭建如图7所示实验平台进行实验验证,永磁同步直线电机参数如表1所示。该平台采用高性能的PMSLM实时控制器MT1050,实验平台主要包括计算机、MT1050控制板、硬件调理电路、直流环节电源、三相逆变器、三相PMSLM和负载7个部分。控制周期和采样频率均设置为10 kHz。
7永磁同步直线电机控制实验平台
Fig.7Experimental platform for PMSLM control
1实验平台参数
Tab.1Parameters of the experimental platform
4.1 DRLPSO训练结果
前期加入了诸如突加突卸负载、速度突变、参数失配等多种复杂电机控制扰动工况,使得训练集规模大且覆盖全面,Agent可以从不同的工况中学习。总训练时间为18 267 min,训练后验证新工况的优化控制参数仅需4.5 s。由于算法训练的各种工况之间有关联性,所以训练结果具有泛化性能。以突加负载为例,训练后的控制器参数如图8所示。
8参数训练结果
Fig.8Parameter training results
为验证算法的准确性,总谐波失真(total harmonic distortion,THD[41])和均方根误差(root mean square error,RMSE[42])通常用来表示电机控制领域的控制精度。电流THD和速度、推力RMSE分别为:
THD=Σk=2Ik2I1
(22)
RMSE=Σk=1NFk*-Fk2/N
(23)
其中,Ik为谐波电流值,I1为基波电流值,Fk*为参考推力,Fk为电机反馈推力,N是采样个数。
4.2 正反速工况
为了验证所提算法的有效性,本文设置正反速工况,即给定参考速度是正反0.5 m/s,分别对比PSO-ADRC算法及DRLPSO-ADRC算法实验结果,如图9图10所示。
在正反速工况中,PSO-ADRC和DRLPSO-ADRC算法的速度RMSE分别是0.001 54 m/s和0.00 1 49 m/s,电流波动峰值分别是4.14 A和2.97 A,THD值分别是7.10%和5.12%,推力RMSE分别是12.42 N和8.33 N。综上,DRLPSO-ADRC算法在速度跟踪的准确性和稳定性上都有显著提升。
9正反转工况下实验波形(PSO-ADRC)
Fig.9Experimental waveforms under forward and reverse operation conditions (PSO-ADRC)
4.3 全速域工况
为了验证算法在全速域范围内的性能,设置了从低速到高速的过渡实验。速度从0开始到0.3 m/s、0.5 m/s、0.8 m/s,分析算法在速度变化时的超调和振荡情况,如图11图12所示。
10正反转工况下实验波形(DRLPSO-ADRC)
Fig.10Experimental waveforms under forward and reverse operation conditions (DRLPSO-ADRC)
11全速域工况下实验波形(PSO-ADRC)
Fig.11Experimental waveforms under full-speed-range operation conditions (PSO-ADRC)
在全速域工况中,PSO-ADRC和DRLPSO-ADRC算法的速度RMSE分别是0.001 67 m/s和0.001 55 m/s,电流波动峰值分别是2.56 A和1.89 A,THD值分别是9.40%和6.33%,推力RMSE分别是18.54 N和13.21 N。综上,DRLPSO-ADRC算法在速度跟踪的准确性和稳定性上都有显著提升。
12全速域工况下实验波形(DRLPSO-ADRC)
Fig.12Experimental waveforms under full-speed-range operation conditions (DRLPSO-ADRC)
4.4 突加负载工况
通过在直线电机运行方向上加装滑轮组,利用悬挂重物的重力作为水平运动电机的突加突卸负载。在0.4 s时突加负载200 N,分析算法在突加负载时的超调和振荡情况。
图13图14所示,电机速度由于突加负载出现突降,但又很快恢复到参考值。PSO-ADRC算法下电机速度下降了0.2 m/s,DRLPSO-ADRC算法下电机速度下降了0.11 m/s。PSO-ADRC和DRLPSO-ADRC算法的电流THD值分别是8.96%和3.82%,推力RMSE分别是20.12 N和14.52 N。
13突加负载工况下实验波形(PSO-ADRC)
Fig.13Experimental waveforms under sudden load conditions (PSO-ADRC)
此外,本文还进行了突加100 N和300 N负载的实验研究,结果如表2所示。
随着负载的增加,两种算法的速度突变值、电流THD和推力RMSE总体上呈现下降趋势,但DRLPSO-ADRC算法的性能始终优于PSO-ADRC算法。综上,DRLPSO-ADRC算法在速度跟踪精度、电流谐波抑制和推力控制稳定性等方面均优于PSO-ADRC算法,且随着负载的增加,其优势依然明显。
14突加负载工况下实验波形(DRLPSO-ADRC)
Fig.14Experimental waveforms under sudden load conditions (DRLPSO-ADRC)
2突加负载工况下速度跟踪效果
Tab.2Speed tracking effect under sudden load
4.5 位置环
为了验证算法在直线电机位置环上的跟踪效果,设置了稳态位置跟踪和动态位置跟踪实验。稳态参考位置设置:从0 m到0.4 m,稳定后再到0.8 m,稳定后反方向运动0.4 m。稳态位置跟踪实验结果如图15图16所示。
在位置环稳态工况中,PSO-ADRC和DRLPSO-ADRC算法下位置超调分别是0.015 m和0.011 m,速度RMSE分别是0.004 3 m/s和0.003 2 m/s;PSO-ADRC算法下的速度超调是0.15 m/s,DRLPSO-ADRC算法下速度跟踪没有超调,调节时间也相对较少。综上,DRLPSO-ADRC算法在速度跟踪的准确性和稳定性上都有显著提升。
15稳态位置跟踪实验波形(PSO-ADRC)
Fig.15Steady state position tracking experimental waveforms (PSO-ADRC)
16稳态位置跟踪实验波形(DRLPSO-ADRC)
Fig.16Steady state position tracking experimental waveforms (DRLPSO-ADRC)
为了验证算法的位置动态跟踪性能,设计了正弦位置参考波,即每个位置切换没有调节时间,且每个位置设置的速度也不同,如图17图18所示。
17动态位置跟踪实验波形(PSO-ADRC)
Fig.17Dynamic state position tracking experimental waveforms (PSO-ADRC)
在位置环动态工况中,PSO-ADRC和DRLPSO-ADRC算法下位置超调分别是0.01 m和0.006 m,速度RMSE分别是0.004 3 m/s和0.003 1 m/s;PSO-ADRC算法下的速度超调是0.02 m/s,DRLPSO-ADRC算法下速度超调是0.012 m/s,调节时间也相对较少。综上,DRLPSO-ADRC算法在速度跟踪的准确性和稳定性上都有显著提升。
4.6 参数鲁棒性验证
所提算法中只有一个与电机模型相关的参数,即b0。为了验证所提方法的鲁棒性,给出了参数失配情况下的实验结果,如图19所示。在本实验中,首先设置b0,然后设置为其0.8和1.2倍。电机运行在速度环,参考速度为0.8 m/s。
18动态位置跟踪实验波形(DRLPSO-ADRC)
Fig.18Dynamic state position tracking experimental waveforms (DRLPSO-ADRC)
图19所示,参数失配对速度有轻微的影响,但仍能保持较好的运行性能,参数失配的影响可以忽略。该结果证明了所提算法对参数失配具有良好的鲁棒性。
19参数鲁棒性实验
Fig.19Parameter robustness experiment
5 结论
本文通过建立永磁同步直线电机的数学模型,分析了电机动态特性,设计了一种基于DRLPSO的控制策略来优化ADRC参数,以实现对直线电机速度的精确控制。智能体通过与电机控制系统的实时交互,学习最优控制策略,动态调整控制参数以适应不断变化的运行条件和外部扰动。在传统的PSO算法中引入分区惯性权重,通过循环利用全局最优的历史数据,PSO算法能够更有效地探索解空间,寻找到更优的控制参数组合。DRL的自适应学习和PSO的全局搜索提高了学习效率和控制策略的优化精度,使得系统能够更加稳定和准确地跟踪给定的速度指令。实验结果表明,与PSO-ADRC算法相比,所提出的DRLPSO-ADRC算法在位置、速度跟踪精度及系统稳定性、抗扰动能力方面均有显著提升,有效降低了推力波动,增强了直线电机的控制性能。
1永磁同步直线电机控制系统框图
Fig.1Block diagram of PMSLM control system
2永磁同步直线电机ADRC控制原理图
Fig.2Block diagram of ADRC for PMSLM control system
3永磁同步直线电机深度强化学习原理图
Fig.3Block diagram of deep reinforcement learning for PMSLM
4智能体与永磁同步直线电机交互
Fig.4Agent interacting with PMSLM
5永磁同步直线电机深度强化学习控制系统框图
Fig.5Block diagram of deep reinforcement learning control system for PMSLM
6改进粒子群优化更新网络策略参数结构图
Fig.6Parameter structure of the improved particle swarm optimisation update network strategy
7永磁同步直线电机控制实验平台
Fig.7Experimental platform for PMSLM control
8参数训练结果
Fig.8Parameter training results
9正反转工况下实验波形(PSO-ADRC)
Fig.9Experimental waveforms under forward and reverse operation conditions (PSO-ADRC)
10正反转工况下实验波形(DRLPSO-ADRC)
Fig.10Experimental waveforms under forward and reverse operation conditions (DRLPSO-ADRC)
11全速域工况下实验波形(PSO-ADRC)
Fig.11Experimental waveforms under full-speed-range operation conditions (PSO-ADRC)
12全速域工况下实验波形(DRLPSO-ADRC)
Fig.12Experimental waveforms under full-speed-range operation conditions (DRLPSO-ADRC)
13突加负载工况下实验波形(PSO-ADRC)
Fig.13Experimental waveforms under sudden load conditions (PSO-ADRC)
14突加负载工况下实验波形(DRLPSO-ADRC)
Fig.14Experimental waveforms under sudden load conditions (DRLPSO-ADRC)
15稳态位置跟踪实验波形(PSO-ADRC)
Fig.15Steady state position tracking experimental waveforms (PSO-ADRC)
16稳态位置跟踪实验波形(DRLPSO-ADRC)
Fig.16Steady state position tracking experimental waveforms (DRLPSO-ADRC)
17动态位置跟踪实验波形(PSO-ADRC)
Fig.17Dynamic state position tracking experimental waveforms (PSO-ADRC)
18动态位置跟踪实验波形(DRLPSO-ADRC)
Fig.18Dynamic state position tracking experimental waveforms (DRLPSO-ADRC)
19参数鲁棒性实验
Fig.19Parameter robustness experiment
1实验平台参数
Tab.1Parameters of the experimental platform
2突加负载工况下速度跟踪效果
Tab.2Speed tracking effect under sudden load
SONG L, NIE Z L, SUN J,et al. Time-delay identification of PMLSM control system based on RNN observer[C]//Proceedings of the IEEE International Conference on Predictive Control of Electrical Drives and Power Electronics(PRECEDE),2023.
ZHENG Z L, ZHAO J W, WANG L J,et al. Thrust bandwidth modeling and optimization of PMSLM based on analytic kernel-embedded elastic-net regression[J]. IEEE Transactions on Industrial Informatics,2023,19(8):9005-9018.
ZHENG Z L, ZHAO J W, WANG L J,et al. Efficient optimization design method of PMSLM based on deep adaptive ridge regression with embedded analytical mapping function[J]. IEEE Transactions on Industrial Electronics,2022,69(8):8243-8254.
DONG F, ZHOU W G, ZHAO J,et al. Robust design optimization of PMSLM based on I-MEABP neural network[J]. IEEE Transactions on Industrial Informatics,2024,20(4):5482-5494.
SONG J C, WU X H, QIAN L,et al. PMSLM eccentricity fault diagnosis based on deep feature fusion of stray magnetic field signals[J]. IEEE Transactions on Instrumentation and Measurement,2024,73:3506012.
YANG H Y, HUANG X Z, ZHANG Y W. Full-speed domain parameter identification of surface-mounted PMSLM based on dual axis injection[J]. IEEE Journal of Emerging and Selected Topics in Power Electronics,2024,12(4):3775-3783.
赵云涛, 卢琴芬, 李焱鑫. 无槽圆筒永磁直线同步电机推力波动的解析模型及抑制方法[J]. 中国电机工程学报,2023,43(16):6453-6463.ZHAO Y T, LU Q F, LI Y X. Analytical model and suppression method of thrust ripple in slot-less tubular permanent magnet linear synchronous machines[J]. Proceedings of the CSEE,2023,43(16):6453-6463.(in Chinese)
彭兵, 张囡, 夏加宽, 等. 永磁直线电机端部效应力的解析计算[J]. 中国电机工程学报,2016,36(2):547-553.PENG B, ZHANG N, XIA J K,et al. Analytical calculation for end effect forces in permanent magnet linear motors[J]. Proceedings of the CSEE,2016,36(2):547-553.(in Chinese)
LIU X D, WANG X D, ZHAO W L,et al. Operating principle and cogging normal force analysis of a novel double-sided permanent magnet linear synchronous motor[C]//Proceedings of the 13th International Symposium on Linear Drives for Industry Applications(LDIA),2021.
CHENG H, SUN S L, ZHOU X Q,et al. Sensorless DPCC of PMLSM using SOGI-PLL-based high-order SMO with cogging force feedforward compensation[J]. IEEE Transactions on Transportation Electrification,2022,8(1):1094-1104.
TAN Q, WANG X B, LI J,et al. Analysis of the normal force ripple for the flat plate permanent magnet linear synchronous motor[C]//Proceedings of the 26th International Conference on Electrical Machines and Systems(ICEMS),2023:3816-3820.
JIAN C J, MA W L, FAN Y K,et al. New methods for arc permanent magnet linear synchronous motor to decrease torque ripple[J]. IEEE Transactions on Magnetics,2012,48(10):2659-2663.
罗俊, 刘康, 赵正伟, 等. 无铁心双层绕组超导直线同步电机参数优化设计[J]. 中国电机工程学报,2024,44(21):8663-8673.LUO J, LIU K, ZHAO Z W,et al. Optimal design of a coreless double-layer-winding superconducting linear synchronous motor[J]. Proceedings of the CSEE,2024,44(21):8663-8673.(in Chinese)
ZHANG G Q, ZHANG H, LI B X,et al. Auxiliary model compensated RESO-based proportional resonant thrust ripple suppression for PMLSM drives[J]. IEEE Transactions on Transportation Electrification,2023,9(2):2141-2152.
姜峰. 永磁同步电机系统自抗扰控制策略研究[D]. 武汉: 华中科技大学,2022.JIANG F. Research on active disturbance rejection control strategy of permanent magnet synchronous motor system[D]. Wuhan: Huazhong University of Science and Technology,2022.(in Chinese)
WU H, GAN C, WANG H Z,et al. Active disturbance rejection speed control with double-stage-ESO considering aperiodic and periodic disturbances for PMSM drives[J]. IEEE Transactions on Industrial Electronics,2025:1-12.
DU B C, WU S P, HAN S L,et al. Application of linear active disturbance rejection controller for sensorless control of internal permanent-magnet synchronous motor[J]. IEEE Transactions on Industrial Electronics,2016,63(5):3019-3027.
LIN P, WU Z, LIU K Z,et al. A class of linear-nonlinear switching active disturbance rejection speed and current controllers for PMSM[J]. IEEE Transactions on Power Electronics,2021,36(12):14366-14382.
XU J Q, WEI Z Q, WANG S K. Active disturbance rejection repetitive control for current harmonic suppression of PMSM[J]. IEEE Transactions on Power Electronics,2023,38(11):14423-14437.
LI P, WANG L, ZHU G L,et al. Predictive active disturbance rejection control for servo systems with communication delays via sliding mode approach[J]. IEEE Transactions on Industrial Electronics,2021,68(12):12679-12688.
WANG B, TIAN M H, YU Y,et al. Enhanced ADRC with quasi-resonant control for PMSM speed regulation considering aperiodic and periodic disturbances[J]. IEEE Transactions on Transportation Electrification,2022,8(3):3568-3577.
孟志鹏, 杨柳庆, 王波, 等. 基于改进平衡优化算法的折叠翼飞行器自抗扰控制器设计[J]. 北京航空航天大学学报,2024,50(8):2449-2460.MENG Z P, YANG L Q, WANG B,et al. ADRC design for folding wing vehicles based on improved equilibrium optimization algorithm[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(8):2449-2460.(in Chinese)
ANWAR Z, BELKHEIRI A, BELKHEIRI M,et al. ADRC control of an induction motor with varying parameters[C]//Proceedings of the 19th International Multi-Conference on Systems, Signals & Devices(SSD),2022.
HOU Q K, XU S K, ZUO Y F,et al. Enhanced active disturbance rejection control with measurement noise suppression for PMSM drives via augmented nonlinear extended state observer[J]. IEEE Transactions on Energy Conversion,2024,39(1):287-299.
WANG Y H, YANG Y L, DING F G. Improved ADRC control strategy in FPSO dynamic positioning control application[C]//Proceedings of the IEEE International Conference on Mechatronics and Automation,2016.
PENG C, TIAN Y T, BAI Y,et al. ADRC trajectory tracking control based on PSO algorithm for a quad-rotor[C]//Proceedings of the IEEE 8th Conference on Industrial Electronics and Applications(ICIEA),2013.
WANG Y C, FANG S H, HU J X,et al. Multiscenarios parameter optimization method for active disturbance rejection control of PMSM based on deep reinforcement learning[J]. IEEE Transactions on Industrial Electronics,2023,70(11):10957-10968.
CHEN Z L, LI Y F, ZHANG Y L. Optimization of ADRC parameters based on particle swarm optimization algorithm[C]//Proceedings of the IEEE 4th Advanced Information Management, Communicates, Electronic and Automation Control Conference(IMCEC),2021.
WANG Y C, FANG S H, HU J X,et al. A novel active disturbance rejection control of PMSM based on deep reinforcement learning for more electric aircraft[J]. IEEE Transactions on Energy Conversion,2023,38(2):1461-1470.
WANG Y C, FANG S H, HU J X. Active disturbance rejection control based on deep reinforcement learning of PMSM for more electric aircraft[J]. IEEE Transactions on Power Electronics,2023,38(1):406-416.
王立俊, 赵吉文, 于子翔, 等. 基于非线性时间延迟扰动估计的永磁同步直线电机无模型鲁棒位置跟踪控制[J]. 电工技术学报,2024,39(18):5692-5704.WANG L J, ZHAO J W, YU Z X,et al. Model free robust position tracking control of permanent magnet synchronous linear motor based on nonlinear time delay disturbance estimation[J]. Transactions of China Electrotechnical Society,2024,39(18):5692-5704.(in Chinese)
ELBAZ K, ZHOU AN, SHEN S L. Deep reinforcement learning approach to optimize the driving performance of shield tunnelling machines[J]. Tunnelling and Underground Space Technology,2023,136:105104.
SONG J P, ZHANG B, LIA J F. Deep reinforcement learning empowered particle swarm optimization for aerial base station deployment[C]//Proceedings of the IEEE Applied Sensing Conference(APSCON),2023.
YIN S Y, JIN M, LU H X,et al. Reinforcement-learning-based parameter adaptation method for particle swarm optimization[J]. Complex & Intelligent Systems,2023,9:5585-5609.
LIU X H, ZHANG D G, ZHANG T,et al. A new path plan method based on hybrid algorithm of reinforcement learning and particle swarm optimization[J]. Engineering Computations,2022,39(3):993-1019.
ZENG J Y, XIE J N, ZHANG Y L,et al. Deep reinforcement learning with PSO algorithm in agile dodge actions of quadruped robot[C]//Proceedings of 2025 IEEE International Conference on Mechatronics and Automation(ICMA),2025:261-266.
WU D, WANG G G. Employing reinforcement learning to enhance particle swarm optimization methods[J]. Engineering Optimization,2022,54(2):329-348.
孟宏杰, 陈峙, 郑少华, 等. 粒子群模糊PID与深度补偿的PMSM位置控制策略[J/OL]. 机械科学与技术,2024:1-11[2025-01-21].https://doi.org/10.13433/j.cnki.1003-8728.20240049.MENG H J, CHEN Z, ZHENG S H,et al. Particle swarm fuzzy PID and deep compensation strategy for PMSM position control[J/OL]. Mechanical Science and Technology for Aerospace Engineering,2024:1-11[2025-01-21].https://doi.org/10.13433/j.cnki.1003-8728.20240049.(in Chinese)
王明义. 精密永磁直线同步电机电流闭环控制关键技术研究[D]. 哈尔滨: 哈尔滨工业大学,2016.WANG M Y. Research on key technologies of the current closed-loop control for precision permanent magnet linear synchronous motor[D]. Harbin: Harbin Institute of Technology,2016.(in Chinese)
XIANG X C, DIAO R S, BERNADIN S,et al. An intelligent parameter identification method of DFIG systems using hybrid particle swarm optimization and reinforcement learning[J]. IEEE Access,2024,12:44080-44090.
YOUSEFPOOR N, FATHI S H, FAROKHNIA N,et al. THD minimization applied directly on the line-to-line voltage of multilevel inverters[J]. IEEE Transactions on Industrial Electronics,2012,59(1):373-380.
SHI M F, WANG Q J, LI G L,et al. A new rotor position estimation method for spherical reluctance motor based on inductance characteristics obtained from measurement[J]. IEEE Transactions on Instrumentation and Measurement,2023,72:2003910.