人机协同增强智能控制研究综述
doi: 10.11887/j.issn.1001-2486.25120016
吴淮宁1,2 , 王密3 , 李文华1
1. 北京航空航天大学 自动化科学与电气工程学院, 北京 100191
2. 北京航空航天大学 国际创新研究院,浙江 杭州 311115
3. 华北水利水电大学 电气工程学院, 河南 郑州 450045
基金项目: 国家重点研发计划资助项目(2023YFB4704400) ; 国家自然科学基金资助项目(62473021) ; 北京航空航天大学杭州创新研究院启动经费资助项目(2024KQ059)
Review of human-machine collaborative augmented intelligent control research
WU Huaining1,2 , WANG Mi3 , LI Wenhua1
1. School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191 , China
2. Hangzhou International Innovation Institute, Beihang University, Hangzhou 311115 , China
3. College of Electrical Engineering, North China University of Water Resources and Electric Power, Zhengzhou 450045 , China
摘要
由于人类智能和人工智能的局限性,发展人机协同的混合增强智能是新一代人工智能研究的主要方向之一,而协同控制算法设计是实现此类智能的核心问题。因此,本文对人机协同增强智能控制系统的研究现状进行综述。针对人类行为的黑箱特征,系统地梳理了人在回路控制系统中的人类行为建模方法,分析了各种建模方法的优缺点及适用范围;对于人机协同增强智能控制的实现,详细阐述了不同控制理论框架下机器协同人类的控制设计方法;调研了人机协同控制技术在多智能体领域的扩展性研究,并讨论了人机协同控制系统中的混合智能评价方法;此外,还提供了人机协同增强智能控制方法在医疗、工业、军事等领域的应用场景;给出了大模型、具身学习等新技术加持下的人机协同增强智能控制研究展望。
Abstract
Due to the limitations of human intelligence and artificial intelligence, developing hybrid augmented intelligence based on human-machine collaboration is one of the main research directions for the new generation of artificial intelligence, and the design of collaborative control algorithms is the core issue in achieving such intelligence. Therefore, a review of the current research status of human-machine collaborative enhanced intelligent control systems was provided in this article. Based on the black box characteristics of human behavior, the human behavior modeling methods of human-in-the-loop control systems were systematically sorted out and the advantages, disadvantages, and applicability of various modeling methods were analyzed. For the implementation of human-machine collaborative augmented intelligent control, the control design methods of machines collaborating with humans under different control theory frameworks were elaborated in detail. The scalability of human-machine collaborative control technology in the field of multi-agent systems and the evaluation methods of hybrid intelligence in the human-machine collaborative control systems were investigated and discussed. In addition, the application scenarios of human-machine collaborative augmented intelligent control methods in medical, industrial, military and other fields were presented. The prospects for human-machine collaborative augmented intelligent control research with the support of new technologies such as large models and embodied learning were presented.
人类智能是以生物神经系统为基础,通过进化与学习获得的多维度认知能力,其核心特征包括:①自主学习,能够自我反思与经验改进;②逻辑推理,能处理抽象概念与开放性问题;③情感智能,理解复杂情感与文化语境;④创造性,突破现有知识框架产生原创思想。而人工智能(artificial intelligence,AI)是指通过计算机系统模拟、延伸或扩展人类智能的理论、方法、技术及应用的总称。其核心在于使机器具备感知、推理、学习、决策及交互等类人能力,AI也被称为机器智能或计算机智能。
人类智能的优势在于对不确定事件的应急能力、创造性思维、复杂情感理解和道德判断,可以灵活地适应开放环境,但受限于生物认知速度、记忆容量和主观偏见。AI的优势体现在高速计算、海量数据处理和长期稳定运行,但缺乏真正的意识、常识推理能力,对陌生事件缺乏处理能力,并且其复杂的信息处理机制导致其行为缺乏可解释性。可以发现,无论是人类智能还是AI,都有其发展的局限性,但是它们的优势却是互补的。因此,如何融合人类智能与AI的各自优势,以发展人机协同的混合增强智能,已成为一个关键的科学与技术问题[1]。2017年,中国国务院发布了《新一代人工智能发展规划》,强调了人机混合增强智能技术的研究。因此,亟须发展人机协同的混合智能理论与技术。
事实上,早在1960年,人机混合智能的概念已经萌芽,Licklider 在文章中提出“希望在不久的将来,人脑和计算机将非常紧密地结合在一起”,首次明确人类与机器需要协作,被公认为混合智能理论发展的起点[2]。那么,如何定义人机混合智能?目前,对于人机混合智能的定义有很多不同的描述,本文总结它们的核心思想如下:通过人类与机器的动态协同,将人的意图理解、因果推理、伦理判断等能力,与机器的多模态感知、海量存储、高速计算等能力互补融合,形成多优势融合的增强智能系统,实现人类和机器都无法单独完成的目标,并且通过相互学习不断改进,涌现“1+1>2”的智慧[3-4]。因此,在混合智能的研究中,重点在于如何充分挖掘、融合人类和机器的各自优势,形成一个人机智能融合的智能系统,使其更加高效地完成复杂的任务。
如何实现人机协同的混合增强智能?郑南宁院士团队提出了混合增强智能的两种基本形式:人在回路(human-in-the-loop,HiTL)混合增强智能和基于认知计算的混合增强智能[5]。前者强调人与机器的融合,将人类作为智能系统的组成部分,将人类的高阶认知机制与机器智能结合,在这种智能系统中,人类始终是系统的一部分,并会以特定方式影响系统结果,以实现“1+1>2”的协同效应;后者是指能够模拟人脑功能,并提升计算机感知、推理和决策能力的新型软件/硬件。可以发现,基于认知计算的混合增强智能是一种全新的计算框架,其目标是构建更精准的模型,以模拟人脑/心智感知、推理和响应刺激的方式,尤其是研究如何在智能系统中构建因果模型、直觉推理模型和联想记忆。由于篇幅有限,本文以面向人机协作的人类行为建模与机器控制设计为主线,重点阐述HiTL混合增强智能方法。另外,从系统构成的层面来看,人机协同增强智能可以作用于感知层、规划层、决策层、控制层。在不同层面,实现智能增强的理论/技术既有重叠,又存在差异。在许多场景中,人是直接参与到控制回路中的,比如人机协同搬运、人机共驾、机械臂辅助病人康复等。尽管近年来已有一些文献(如文献[6-7])对人机协同控制进行了系统梳理,但这些工作多限于特定领域,没有深入分析人类行为的特征以及人类行为对整个系统稳定性与性能的影响,对人机协同的混合增强智能控制方法总结也不够全面。因此,本文针对HiTL控制系统,聚焦人机协同增强智能控制研究,并以“人类行为建模—机器协同控制—人机混合智能评价”为组织框架对相关工作进行综述;重点系统梳理HiTL控制系统中的人类行为建模方法,并归纳总结基于人类行为模型的机器协同控制设计思路,相关分析脉络亦可推广至感知、规划与决策等层级。
本文的主要工作与贡献概括如下:①面向HiTL控制系统,按控制论、AI技术、概率论与生理结构四类模型梳理人类行为建模方法,并对典型模型的优势、局限与适用场景进行对比总结;②围绕切换控制与共享控制两类典型协同架构,总结基于人类行为模型的机器控制设计方法与不依赖精确行为模型的控制权分配/无模型学习方法,并讨论其在工程应用中的优势与不足;③进一步归纳人机协同控制在多智能体系统中的扩展研究,讨论混合智能评价与典型应用场景,并在展望部分简要分析大模型等数据驱动技术用于人机协同控制的潜在路径及其可解释性与安全性挑战。
图1所示,不同于传统的控制系统,由于人的参与,人机协同控制系统至少包含两个智能体(即单人单机),人与机器的控制行为相互作用、相互影响,在合作的同时也可能存在分歧,因此系统的理论分析和设计变得复杂。若要深入研究人机协同控制系统,理解人的控制行为机理是系统分析、控制设计、最终实现有效合作的基础。现有一些文献尽管对人类行为建模方法进行了综述[8-9],但是对模型的介绍不够全面和具体,而且没有总结不同建模方法的缺点和优势。此外,现有综述多集中于对行为建模或协同控制的独立讨论,缺乏对二者一体化的系统性剖析。为此,本文在上述组织框架下介绍人类行为建模的相关研究。
1人在回路控制系统架构
Fig.1Architecture of HiTL control system
1 人类行为建模
依据人类行为建模的思想与原理,可将其方法分为基于控制论、基于AI技术、基于概率论和基于生理结构四类。
1.1 基于控制论的行为建模方法
基于控制论的人类行为建模的核心思想是将人类视为一个动态反馈系统中的智能控制器,并采用传递函数、微分方程、状态空间等数学工具,构建兼具解释性与预测性的量化模型。该理论框架以模型驱动为特色,参数物理意义明确、理论基础坚实,能够为人机协同控制机理理解、系统稳定性评估及符合人类认知的交互接口设计提供不可替代的理论支撑。
1.1.1 拟线性模型
拟线性模型是控制理论中对非线性动态的一种描述方法,其核心假设是:在特定输入条件下,非线性系统的动态可由一个等效的线性系统来近似。该模型将非线性系统的响应分为两部分:一是等效线性系统对输入的响应,二是所谓的“残差”项,即实际非线性系统响应与等效线性系统响应之间的差异。用拟线性模型来描述人类行为时,人的感知输入到控制输出之间的映射由如下传递函数表示[10-11]:
H(s)=KpTps+1Tzs+1e-τs
(1)
其中,Kp是控制增益,TpTz分别是和超前、滞后相关的时间常数,τ表示反应时滞。
该模型结构简单、参数具有明确物理意义,因而可解释性强,但难以刻画人类意图,等效线性假设也限制了其对强非线性行为的表征能力,因此更适用于近线性、小扰动的操纵任务。
1.1.2 最优控制模型
除前述输入-输出视角外,也有研究发现人类会选择收益最大、成本最小的动作(例如最短路径、最小能耗),其与最优控制理论的基本思想高度一致[12-15]。以线性连续HiTL控制系统为例,考虑系统动态
x˙(t)=Ax(t)+Bu(t)
(2)
其中,xt)为系统状态,ut)为人的控制输入,AB为适当维数的常数矩阵。
假设人的控制目标是最小化如下成本函数:
J=0 xTQx+uTRudt
(3)
其中,Q=QT≥0和R=RT>0是权重矩阵。
基于线性二次(linear quadratic,LQ)调节器理论[16],人的最优控制输入可以表示为
u*(t)=-R-1BTPx(t)
(4)
其中,P=PT0是如下代数Riccati方程的镇定解:
PA+ATP-PBR-1BTP+Q=0
(5)
至今,已经有许多文献基于最优控制理论研究了人类行为建模与学习问题。比如,文献[17] 基于最优控制模型描述人手抓取物体过程中的移动行为,通过比对演示轨迹与所建模型轨迹的误差,并借助粒子群优化算法得到了人类操作员成本函数的权重矩阵。考虑到人的控制输入不易测量,文献[18]结合自适应估计技术和线性矩阵不等式优化技术提出了基于逆最优控制的人类行为在线学习方法。
基于最优控制技术的建模方法可通过成本函数显式表达人的控制意图,相较拟线性模型具有更强的任务迁移与泛化潜力。需要指出的是,该模型隐含前提通常包括操作者近似理性、训练充分且状态稳定;当存在疲劳、分心或有限理性等情况时,人的行为可能偏离最优,从而降低模型的可解释性与预测稳定性。
1.1.3 预测控制模型
预测控制模型主要以模型预测控制(model predictive control,MPC)方法为基础,可视为最优控制模型的延伸。其基本思想是:在每个采样时刻,先利用系统模型预测未来有限时域的状态演化,随后在线求解带约束的最优控制问题,以最小化给定目标函数,最终仅执行优化序列的首个控制量,并在下一采样周期重新测量状态、更新预测与优化,形成闭环滚动校正。该方法的核心优势在于显式处理多变量耦合与硬性约束,并在有限时域内权衡与协调多种性能指标。以线性离散系统为例,其标准形式可写为
(6)
如今,MPC方法被广泛应用于驾驶员行为建模问题中。例如,Keen等引入了“多内部模型”概念,并结合MPC,构建了一个能够明确区分和模拟不同人类驾驶技能水平的数学模型框架[19]。在此基础上,他们进一步提出了一个“无偏”的辨识框架[20],用于解决闭环辨识偏差问题。曲婷[21]基于随机MPC方法,探讨了具有随机特性及滚动优化思想的驾驶员行为建模框架,提出了几种驾驶员行为建模方法,以此模拟多样的驾驶特性和风格。Ramadan等[22-23]将逆MPC问题转化为一个约束优化问题,并应用于患者医疗康复场景中。文献[24]提出了一种用于人类驾驶行为建模的逆MPC方法,该方法能有效确定人类驾驶员的最优成本函数,并能很好解释人类驾驶策略的生成逻辑。文献[25]分别沿成本参数和初始状态方向建立了基于微分庞特里亚金极大值原理的约束条件,并基于这些条件,将状态轨迹对成本参数的梯度计算重构为两个辅助最优控制问题,其解可直接用来确定更新成本参数的梯度,降低了逆MPC算法的计算复杂度。
相比于最优控制方法,MPC通过有限时域滚动优化与显式约束处理,更贴近人的前瞻预测能力与边界约束意识,因而是一种更适用于人类行为建模的方法。但该类方法对系统动力学与约束描述依赖较强,且在线求解带来较大计算负担;当操作者表现出明显的非优化/策略突变行为时,模型可解释性与预测精度可能下降。
1.2 基于AI技术的行为建模方法
基于控制论的行为建模方法往往依赖于明确的系统动力学与规范化的优化结构的数学表述。然而,人类行为常呈现强非线性与情境依赖等特征,单靠解析模型难以完整覆盖。相对地,基于AI技术的方法无须预设复杂机理,将行为看作未知映射,利用专家经验或从输入输出数据中提取可泛化的行为规律。
1.2.1 模糊控制模型
模糊控制是一种以模糊集理论、模糊语言变量及模糊逻辑推理为基础的智能控制方法,将人的控制经验及推理过程纳入自动控制策略中,使其具有模拟人脑思维方式的能力,是智能控制的重要组成部分。
图2所示,模糊控制器的设计通常包括三个主要步骤:模糊化、模糊推理和解模糊化。其中,模糊化是将实数输入转换为模糊集;模糊推理是根据预先定义的模糊规则进行推理;解模糊化是将模糊推理结果转换为实数输出。Mamdani模糊模型和T-S(Takagi-Sugeno)模糊模型是常用的两种模糊控制器建模方法。以T-S模糊模型为例,模糊控制规则如下:
规则1:IF z1 is M1,1z2 is M1,2,···,zn is M1,n,THEN ut)=K1xt
规则2:IF z1 is M2,1z2 is M2,2,···,zn is M2,n,THEN ut)=K2xt
···
规则N:IF z1 is MN,1z2 is MN,2,···,zn is MNn,THEN ut)=KNxt
其中,zi是前件变量,Mij是模糊集。人的全局控制输入可以表示为
u(t)=Σi=1Nhi(z)Kix(t)
(7)
其中,hiz)是归一化后的隶属度函数。
2模糊系统结构
Fig.2Structure of fuzzy system
模糊控制理论起源于人的模糊控制特征,因而模糊控制模型自然也是描述人类行为的最好的数学模型之一。文献[26]通过分析人类直行、转弯、停车等驾驶动作,将其转化为模糊IF-THEN规则,构建了多个模糊控制器,从而实现车辆类人自主驾驶。文献[27]采用模糊逻辑方法对驾驶员决策行为进行建模,通过模拟实验与问卷数据,将驾驶员对天气/路况的主观感知映射为速度调整决策。结果表明,适当降低限速可显著减少事故,验证了模糊逻辑在处理驾驶环境不确定性方面的有效性。文献[28]构建了一种集成模糊逻辑与自适应机制的飞行员行为模型,该模型采用模糊逻辑系统表征飞行员对包线提示的语义化、不确定性响应特性,并通过时变参数刻画其控制策略的自适应特征。文献[29]将人的控制策略建模为T-S模糊模型,并且引入自适应机制估计反馈增益矩阵,实现对人的控制策略的在线模仿。需要注意的是,模糊规则库在高维状态下易出现规则规模膨胀,且跨场景迁移依赖新的专家经验,因此更适用于经验知识较稳定、维度可控的控制场景。
1.2.2 神经网络模型
近年来,神经网络(neural network,NN)由于其强大的非线性拟合能力和分层特征学习机制(参见图3),已成为研究人类行为的有力工具,能够有效模拟人类复杂的感知—决策—执行过程。NN不仅能建立输入与输出之间的映射关系,还可以通过多层网络结构隐式地学习人类行为背后的潜在表征,从而在机器人控制、自动驾驶、人机协作等领域展现出显著优势。
3神经网络结构
Fig.3Structure of neural network
Martens[30]将空速偏差、垂直速度、下滑道偏差和俯仰角作为输入构建一个NN模型,并利用飞行模拟器数据训练网络,成功模拟了飞行员在风切变下的推力调节行为。谭文倩等[31]针对双通道人机控制系统中,驾驶员行为因注意力分配而呈现明显非线性的问题,提出采用NN模型进行驾驶员行为建模;通过飞行模拟器双通道跟踪实验,分别对驾驶员的NN模型和传统的频域拟线性模型进行辨识与比较。结果表明:频域拟线性模型仅在低频段精度较高,而NN模型在更宽的频带范围内均表现出良好的精度,并能更有效地跟踪高频变化信号,从而更准确地描述驾驶员的非线性控制特性。Balan等[32]结合深度神经网络(deep neural network,DNN)和随机森林方法构建了驾驶员身份与行为识别模型,在多个关键特征上实现了较高的识别准确率。Hao等[33]提出一种基于注意力机制与长短期记忆(long short-term memory,LSTM)网络的行为分析方法,利用注意力机制提取场景关键信息,并通过LSTM网络建模行为时序关联,实现对监控视频中人类行为的实时、准确识别。Xiao等[34]基于注意力机制提出了一种名为ADNet的DNN模型,用于实时、精准地识别驾驶员的分心行为,旨在提升驾驶安全。Transformer通过自注意力机制,实现了对长时序、全局上下文信息的高效、并行化建模,并能灵活融合多源信息,这使得它在捕捉复杂行为模式、理解行为背后的意图和因果关系方面,比传统的DNN更具潜力。针对人机协作中意图与动作相互依赖的“鸡生蛋”难题,Kedia等[35]提出了一个创新解决方案:通过以机器人未来动作为条件的Transformer模型来预测人类意图。Pettersson等[36]系统比较了Transformer编码器、MLP-mixer与LSTM三种神经网络,利用在虚拟现实环境中采集的眼动数据预测人体手臂运动方向。
不过,虽然DNN在静态任务中能精准地逼近人类行为,但其黑箱本质、可解释性弱、训练困难等缺陷,使其在强安全、强交互、实时性高的学习场景中具有局限性。因此,DNN更适合作为高维表征/意图识别或人类输入预测模块,为共享控制提供先验信息;若用于闭环协同控制,通常需配合安全检测与回退机制。
1.3 基于概率论的行为建模方法
人类行为不仅会受到环境(包括被控对象及外部环境)中随机因素的影响,还会受到自身生理与心理波动等内在随机因素的影响,因此其建模自然需要引入随机变量与随机过程,用于刻画和量化人类行为的不确定性。
1.3.1 Markov决策过程
为建模人类行为的随机演化与内在决策机制,Markov决策过程(Markov decision process,MDP)提供了系统化的概率决策框架,通过状态转移概率P刻画环境与内在波动对下一步状态的影响,以回报函数R体现目标导向,以策略π表达在不确定环境下的行动选择,并在每个采样时刻更新以实现动态适应。
使用MDP模型对人类行为建模的研究主要集中在逆强化学习领域。为了克服强化学习问题中奖励函数设计的困难,Ng等[37]在2000年提出逆强化学习算法,致力于从专家演示数据中估计人类奖励函数。在此基础上,Abbeel等[38]提出了学徒学习逆强化学习算法,通过专家演示数据来学习奖励函数,使所得的最优策略尽可能逼近专家策略,克服了行为克隆方法中策略泛化误差大的缺陷。另外,文献[39]通过引入最大熵逆强化学习方法研究了驾驶员行为学习问题,该方法既能最大程度地保留人的随机行为特征,又能学习到与专家行为一致的奖励函数。更多基于MDP的逆强化学习方法可参见综述[40]
MDP建模方法广泛应用于驾驶员行为分析、人机交互优化等领域,但也面临状态空间的维度灾难、行为的历史依赖性(即非马尔可夫性)以及个体差异等多重挑战。通过结合深度学习与分层强化学习等技术,MDP能更有效地建模人类复杂的控制行为。此外,传统MDP假设智能体能够理性决策,即总是选择最大化期望奖励的动作。但在实际中,人类决策往往表现出有限理性,做出次优选择。因此,如何在MDP框架下刻画人类决策的有限理性,仍是一个开放的问题。从协同控制角度看,上述问题会直接影响策略的在线更新与安全约束的嵌入可行性,因此在工程实现中通常采用状态降维与层级决策建模来缓解维数灾难,并提高在线推断与控制一体化的可实施性。
1.3.2 高斯混合模型
高斯混合模型(Gaussian mixture model,GMM)是一种概率分布建模方法,通过将复杂行为数据表示为多个高斯分布的线性组合,可有效刻画人类行为中的多样反应、不确定性与个体差异。在机器人学习、自动驾驶、人机交互等领域,GMM为理解、预测、模仿人类决策与控制提供了统一的框架。
人类在相同情境下往往存在多种典型反应,例如驾驶员在相同交通状况下可能采取不同的加速或制动策略,操作工人在执行相同任务时也可能表现出细微的动作差异。GMM通过其混合特性,能够自然地捕捉这种多样性。每个高斯分量对应一种行为模式,如“激进驾驶”或“谨慎操作”等,而混合系数则反映各模式的出现概率。这种建模方式不仅能够描述行为的统计规律,还能保留个体间的差异性特征。
在具体应用中,GMM通常通过期望最大化算法从人类行为数据中学习模型参数。这一过程能够自动发现数据中潜在的行为模式,而无须预先标记。例如,在机器人模仿学习中,GMM可以直接从人类示范的动作轨迹中提取关键特征,使机器人能够生成类似但又不完全相同的动作。这种概率化的建模方式特别适合处理现实场景中不可避免的噪声和不确定性。比如,文献[41]提出利用GMM来学习同时带有关节空间与任务空间限制的任务,并将所学技能泛化到新的任务情境。GMM的优势还体现在其良好的可扩展性上,它可以与其他概率模型结合来提升行为表征与学习能力。文献[42]提出了一种增量式局部在线高斯(混合)回归模型,可以使机器人在线学习新技能,从而避免重复调整模型参数,提高了技能学习效率。文献[43]提出了混合Gaussian-Markov技能表达框架,其中利用隐Markov模型(hidden Markov model,HMM)编码示教序列的时序依赖,并以GMM生成运动控制命令。另外,文献[44]提出了一种贝叶斯GMM,用于解决策略模仿中常见的分布偏移问题,该方法具有结构简单、计算高效、适应性强等特点,能够适用于各类任务场景。
在自动驾驶领域,GMM被用于预测周围车辆的可能行为;在智能康复领域,GMM帮助识别患者的异常运动模式。然而,GMM也面临一些挑战,如对初始参数敏感、多维数据下计算复杂度高等问题。
1.4 基于生理结构的行为建模方法
不同于前述建模方法,基于生理结构的行为建模方法旨在揭示人类行为的内在结构机理,具有更高的可解释性。
最具代表性的生理结构模型是Hess结构模型[45],该模型包含了三种关键的感官反馈路径:视觉反馈通路、本体感觉反馈通路和前庭感觉反馈通路。而人类的大脑被建模为一个中央处理器,用于综合处理来自各感官的信息,并最终生成控制指令传送到手臂。基于生理结构的建模显式刻画了感知-认知-肌肉执行等内部通路,从机理层面加深了我们对“人如何感知、决策并行动”的理解。Hosman描述模型[46]则更侧重于精确量化人类如何感知与处理不同感官通道的信息,并将这些处理结果整合到一个控制框架中。此外,生物动力学模型[47]也是一种相关的生理结构模型,该模型刻画了振动环境中人体作为机械系统的被动力响应,即由振动引发的微小位移经上肢(手臂、手部)耦合至侧杆或方向盘,转化为无意识的控制输入并作用于系统。尽管基于生理结构的行为建模方法具有诸多优势,但是其数学模型复杂、待辨识参数多、依赖专业经验。因此,其更适用于机理分析、高保真仿真与人机系统结构设计,而较少直接用于实时闭环控制器的在线推断环节。
以上讨论了多种人类行为建模方法,本文从模型表征能力、可泛化性能、可解释性、建模复杂度等方面对这些行为建模方法的优势、缺陷以及典型适用场景进行总结,如表1所示。
1人类行为不同建模方法比较
Tab.1Comparison of different modeling methods for human behavior
2 人机协同增强智能控制方法
为融合人类智能与机器智能的优势,实现智能增强,人机协同增强智能控制已成为研究热点。现有成果主要可归结为两种解决方案:人机切换控制与人机共享控制。
图4所示,切换控制是人机协同增强智能控制中的一种关键策略,是指在特定条件下将系统的全部控制权从人类操作者完全转移至自动化系统,或反之。该机制基于实时评估指标(如任务复杂度、操作员状态、环境不确定性及系统性能)进行决策,确保控制权在最合适的智能体(人或机器)之间无缝交接。例如,在自动驾驶场景中,当系统检测到驾驶员疲劳或突发高风险路况时,可自动触发完全切换,由人工驾驶模式转为全自动驾驶模式,以提升安全性和响应速度。完全切换的核心挑战在于精确的切换时机判断和平滑的过渡执行,这需要结合模糊逻辑、强化学习等智能算法优化决策,并设计低延迟的人机交互接口以避免控制权冲突。与共享控制相比,完全切换更适用于需要明确控制权归属的场景,如紧急避障或高精度工业控制,但其灵活性较低,因此需配合可靠的故障检测与回退机制,确保系统鲁棒性。
4人机切换控制架构
Fig.4Architecture of human-machine switching control
在人机切换控制架构下,人和机器在不同工况下独立接管控制权以发挥各自的优势。例如,Tran等[48]开发了一种基于驾驶员睡意检测的手动驾驶和自动驾驶切换框架:若驾驶员没有睡意,则手动驾驶车辆,反之,车辆启动自动驾驶模式。然而,这种控制结构容易导致系统状态振荡,因此,Saito等[49]通过引入共享控制权模式,提出了一种自动驾驶和手动驾驶平滑切换方法。虽然人机切换控制方案结合了人类和机器的优势,但在任一工作时刻,其本质仍是由人或机器单独控制,系统鲁棒性低,并且没有实现人类与机器智能的深度融合。
图5所示,人机共享控制则是一种人类和机器在同一时间段内共同完成任务的控制方式。在这种模式下,人类和机器是平等或协作的关系,共同执行任务。共享控制具有协同性和互补性的特点,人类和机器的优势可以相互补充,共同应对任务中的挑战,具有较强的鲁棒性和较高的安全性。要实现人机协同控制的目标并不容易,关键在于选取何种数学框架来刻画人机协作关系,以及使用什么控制理论来设计机器的控制策略,这也是人机协同控制系统分析与综合的核心问题。
5人机共享控制架构
Fig.5Architecture of human-machine shared control
2.1 基于人类行为建模的机器控制策略设计
在第1节中介绍的人类行为建模的基础上,本小节进一步探讨机器控制策略设计方法。
2.1.1 基于人类控制论模型的机器控制设计
在文献[50-51]中,作者将人类行为建模为线性(动态)反馈控制器,并使用在线参数辨识方法更新对未知参数的估计值,然后考虑系统的安全性和机器执行器约束,引入MPC方法得到机器的控制输入。文献[52-53]引入线性模型刻画人类行为,并考虑系统的非线性动态特征,为机器设计了模糊控制器,通过求解线性矩阵不等式确定机器的反馈增益使得闭环系统稳定。文献[54]将人类行为建模为带有反应时滞的线性输入输出系统,分析了理想模型参考自适应控制器(model reference adaptive controller,MRAC)在与包含人类反应延迟的人类模型协同工作时的性能表现,并揭示此类延迟对人类-MRAC闭环架构的稳定性及性能的影响。面对不确定动态系统,人类操作者可能会根据外界环境变化自适应地调整自己的行为。基于这一特征,文献[55]提出了一种专为自适应控制系统设计的自适应飞行员模型,通过内外环控制架构解决人类飞行员与自适应控制器间的潜在不利交互问题,其中外环将飞行员建模为带有自适应参数的线性反馈控制器,内环采用MRAC处理受控对象的不确定性,利用时变参数和抗饱和设计补偿系统动态变化。虽然这些设计方法实现了人机协作,但是没有考虑对人机系统性能的优化。
上一节介绍了基于最优控制理论的人类行为建模方法,其核心思想是将人类视作一个最小化系统成本的最优控制器。当人与机器都遵循此类最优策略时,二者便构成一个动态博弈系统。博弈理论作为一种处理多主体交互、多目标决策、性能优化的工具,在人机协作任务中引起了许多学者的关注。通过假设人和机器均为理性决策者且具有各自的成本函数,可以将人机协作控制问题建模为人机动态博弈问题。从博弈架构的角度区分,人机博弈系统可分为Stackelberg博弈、Nash博弈和合作博弈。Stackelberg博弈采用主从分层决策,由领导者(如人类操作者)先行优化策略,跟随者(如自动驾驶系统)随后响应,适用于需要人类或机器引导的场景;Nash博弈强调平等决策,人、机双方通过非合作博弈达到Nash均衡,适用于需要与工业协作机器人等对等交互场景;而合作博弈则通过联合优化共同的目标函数实现Pareto最优,通常应用于需要人机高度协同的控制任务。这三种模型分别对应“引导-响应”“竞争-均衡”和“协同-共生”的人机关系,研究者可根据任务需求灵活选择或组合使用。
不同于传统的博弈控制理论[56-67],人机博弈控制问题有其自身的特殊性:人的黑箱特征通常意味着关于人的博弈信息对机器而言往往难以事先获知,因而更适合建模为不完全信息博弈。因此,要实现高效的人机协同控制,需要显式刻画人的决策行为,并在控制律设计中考虑人机双方策略之间的相互作用。Na等[68]将驾驶员与具备转向补偿功能的车辆防撞控制器视为两个理性博弈参与者,在分散控制、非合作Nash、非合作 Stackelberg以及合作Pareto四种范式下建立两人非零和LQ动态博弈模型,用于刻画路径跟踪场景中的转向交互,并比较不同均衡范式下人机转向策略的差异。Li等[69]基于非零和微分博弈理论构建了人机协作中的人机交互控制框架,机器在线识别人类的反馈控制律,并通过求解人机Nash均衡计算自身控制策略,从而实现机器控制成本的优化。Li等[70]进一步提出连续角色自适应方法,机器根据测得的人机交互力在领导/跟随之间连续调整自身角色,以在跟踪误差和人机控制成本之间取得更优折中。更多关于人机博弈控制的研究可以参见文献[71-74]
需要指出的是,以上文献假设所有博弈参与者均是完全理性的。然而,人与机器的理性通常是有限的,即使在日常交互中的简单博弈,也可能无法通过复杂的迭代推理来预测参与者的行为。这种有限理性会导致参与者的非均衡行为,表现为次优选择或对参与者行为的错误预测。为此,已有学者将非均衡博弈理论引入到人机博弈控制问题中。比如,Wu等[75]针对一类人机协同控制系统的共享控制问题,基于有限理性和不完全信息条件下的微分博弈框架,借助于level-k理论与自适应逆最优控制技术,提出了一种人类认知层级学习方法和主动博弈控制方法。Tan等[76]利用k级思维框架实现对有限理性行为的建模,采用自适应动态规划方法对每个k级控制策略进行近似求解,通过基于Softmax的概率分布模型来模拟人类在协作博弈中的智能行为,并且借助障碍函数方法保证人机博弈的安全。然而,有限理性人机博弈情形下人的认知层级在线识别及预测仍具有挑战性,并且博弈策略设计依赖于精准的动态模型,限制了人机博弈方法的实际应用。
除了基于最优控制模型的机器协同控制设计方法,也有文献基于MPC人类行为模型来研究人机共享控制问题。文献[77]基于MPC理论,建立了一种适用于间接共享控制的“最佳响应式”驾驶员转向模型;并且提出一种“间接共享控制”框架,通过加权输入求和方法实现人类驾驶员与辅助驾驶系统之间控制权的持续共享。进一步地,文献[78]将人和机器均建模为滚动优化体,引入博弈论的分布式MPC,可随驾驶情境在非合作与合作博弈间切换,并依据碰撞概率对人机控制权进行连续分配,用以实现车道保持与避障中的平滑共享控制。
基于人类控制论模型的机器控制设计研究取得了较为丰富的成果,特别是基于动态博弈的人机协同控制为刻画对抗、协作与完全合作等多类交互关系提供了统一分析工具。虽然这类设计方法逻辑严谨、可解释性强、鲁棒性强,但是通常要求人的行为模式满足预设的结构形式并默认行为相对稳定,因而更适合交互模式可重复、任务结构相对固定的人机协同任务。
2.1.2 基于人类AI模型的机器控制设计
文献[79]将人类行为建模为模糊控制器,并为机器设计模糊控制器,采用模糊推理规则融合人机控制输入,实现了人机的有效协同以及智能增强。针对人类驾驶员和车道保持辅助系统之间的共享转向控制,Nguyen等[80]采用T-S模糊控制方法来处理驾驶员时变行为和车速的时变特性,并提出了一种自适应方法来调整人和机器的控制权重。
在文献[81]中,DNN被用来预测人的控制输入,机器的控制输入则由模型预测控制器生成,并通过引入人机信任评估机制在线更新人机协同控制权值,从而实现智能增强。文献[82]针对人机协同转向控制问题,提出了一种基于双层LSTM网络的序列预测算法,用于识别驾驶员换道意图;开发了在线强化学习方法以优化转向权分配,从而降低驾驶员工作负荷并提升行车安全,并通过在奖励函数中引入优先级控制参数,实现了不同驾驶意图及行车安全工况下的控制权最优分配。文献[83]采用两个NN分别预测人类运动意图与估算机器人参考轨迹,机器则负责跟踪该轨迹,可确保误差信号有界并实现目标参考轨迹跟踪。
基于人类AI模型的机器控制设计方法无须要求人类行为模式满足特定形式,因此具有更广泛的应用范围。但是,基于模糊模型和NN的人类行为模型具有复杂结构和较多的参数,给机器的控制设计带来了挑战,在一定程度上降低了人机交互的灵活性。
2.1.3 基于人类概率模型的机器控制设计
在复杂环境中,人类行为会受到控制系统的不确定性、机器的策略以及外部环境的影响,这意味着人类行为也是动态变化的,并可能呈现随机性。从生物学角度看,人类行为包含两个不同的随机过程:一是内在的心理状态,二是外在的行为表现。其中,心理状态作为不可直接观测的随机过程,只能通过可观测的行为表现进行推测。这一特性使得HMM适用于对人类动态行为的建模。HMM是一种双重随机过程,其中隐含的随机过程是不可观测的,但可以通过另一个可观测的随机过程来预测。
Wu与Zhang[84]采用带有受控和隐藏模式的Markov跳变系统来建模一类HiTL控制系统,将人类动态行为模型、机器动态模型以及它们之间的交互集成在一个概率框架中。其中人类动态行为模型由一个受控HMM来刻画,充分考虑了人类内部状态(human internal state,HIS)推断、HIS观测以及影响HIS控制策略的随机性特征。通过构造HIS模式依赖的随机Lyapunov泛函,建立了HiTL控制系统的随机稳定性判据;并提出了基于共享/切换机制的机器辅助人类控制设计方法。在此基础上,文献[85]进一步考虑了HIS的驻留时间,使用隐半Markov模型研究了HiTL控制系统,该模型对人类动态行为的刻画更为精细,适用范围更广。另外,Lam和Sastry[86]提出了一个基于部分可观测MDP的HiTL系统控制设计框架,将机器与人类同时纳入到反馈系统中来进行控制设计。基于人类概率模型的机器控制设计方法,通过系统整合人类行为中的不确定性特征,推动了传统控制设计框架的进一步发展。然而,目前该类方法研究尚不充分,特别是在非线性、部分可观测条件下的人类行为在线推断、控制综合与计算复杂度方面仍有诸多关键问题亟待深入探索。
总体而言,上述三类基于行为模型的协同控制方法体现出清晰的工程取舍:控制论模型可解释性强、安全性约束易嵌入,但结构假设更强;AI模型假设更弱、表征更强,但验证与安全嵌入更困难;概率模型强调不确定性刻画,但在线推断与求解负担更高。至此,已经介绍了基于人类行为模型的人机协同控制方法,这些方法通常更便于融入现有控制设计框架并开展分析;然而,获取可靠的人类行为模型往往代价高且具有不确定性。因此,也有很多学者研究了无人类行为模型的机器控制设计,通过直接利用人类控制输入测量与控制权分配等机制实现协同控制,下文将对此进行介绍。
2.2 无人类行为模型的机器控制策略设计
在以上讨论中,需要对人类行为进行精确建模,也存在一类方法并不依赖精确的人类行为模型,该类方法主要基于对人类控制输入的测量,并结合控制权分配技术,同样可以实现人机协同控制。文献[87]将驾驶员的即时转向视作人类输出,在成本函数中融入跟踪规划轨迹与人类指令,进而采用多目标MPC共享控制方法生成机器控制输入,并依据情境风险在线调整两者权重,从而实现平滑、连续的人机共享转向控制。除此之外,模糊规则也可以被用于调整人机的控制权重。基于T-S模糊车辆模型,Soualmi等[88]提出了一种共享模糊LQ控制方法,根据横向偏移量和测量得到的力矩进行控制信号的加权,从而确定驾驶员和控制器对车辆的横向控制权限。Merah等[89]根据驾驶员状态和车辆位置,设计了一种模糊滑模控制器来实现车道保持辅助系统或车道偏离预警系统与驾驶员的有效协同,并使用模糊方法调整控制权重。
此外,强化学习技术的发展也为无模型人机协同控制提供了有效途径。文献[90]提出了一种端到端的价值学习框架,该框架仅利用任务回报,从环境观测和用户输入中学习动作价值,通过价值筛选与贴近用户输入的动作选择,实现对人类操作的实时辅助与纠偏。文献[91]将人机共享控制建模为基于残差策略的无模型控制问题,机器在连续动作空间中通过深度强化学习对人类输入进行最小修正,在未知具体目标的情况下仅借助与目标无关的约束来规范这种修正,进一步提升任务性能。文献[92]则从人机权重分配的角度出发,机器基于扩展的TD3X算法,以自身状态、上一时刻共享控制比和当前人类输入为特征,在线调整人机控制权重,并借助演示导航策略与安全防护机制加速策略学习并规避碰撞风险,从而降低人类操作者的主观工作负荷。然而,基于强化学习的人机协同控制方法在实际应用中仍存在诸多局限。一方面,闭环稳定性和鲁棒性难以得到严格保证;另一方面,学习过程往往需要大量交互数据和较长的训练时间才能收敛到较优策略。
近年来,随着DNN技术的飞速发展,催生了以大语言模型为代表的新一代人工智能。这类模型凭借强大的语言理解与生成能力,开始被应用于人机共享控制领域。比如,文献[93]尝试将大语言模型嵌入车辆作为“副驾驶”,旨在解决人机共驾中的意图理解鸿沟问题。作者设计了一个通用框架,通过记忆机制和专家导向的黑箱调优,让大语言模型能根据人类自然语言指令动态选择控制器或规划轨迹。该框架能有效理解人类意图并适应不同驾驶任务。然而,这种依赖大模型的人机协同控制机制在可解释性和安全性方面仍缺乏充分的理论保障,因此有必要进行进一步探索。
至此,本文已经分别介绍了基于人类行为建模的机器控制策略设计以及无人类行为模型的机器控制策略设计方法。为了更清晰地认识这两类设计方法的分类脉络、优势和不足,我们给出图6进行了总结。
6人机协同增强智能控制方法总结
Fig.6Summary of human-machine collaborative enhanced intelligent control methods
3 人机协同多智能体系统
人机协同多智能体系统是一种将人类操作员的实时调控能力与集群自主控制结合的技术,其核心在于通过人类干预优化集群的动态响应,确保系统在复杂环境中的稳定性和适应性。在传统集群控制中,个体通常依赖预设算法来实现协同运动,但完全自主的集群可能因环境扰动、模型误差或突发情况而表现不佳。人机协同多智能体系统通过引入人类操作员,在关键节点(包括避障、目标切换或异常恢复)进行实时修正,形成“机器自主执行+人类动态调控”的混合控制模式。
在控制层面,人机协同多智能体系统的关键在于设计高效的人机交互接口和动态控制权分配机制。例如,操作员可通过手柄、触控或语音指令直接调整集群的参考轨迹、速度或编队形态,而底层控制器则快速响应指令并维持稳定性。同时,控制权可在人类和自主系统间灵活切换:当集群运行正常时,自主算法主导;当检测到冲突或操作员主动介入时,系统平滑过渡至人工控制模式。不过,这一过程需解决时延、控制冲突以及人机控制信号的融合问题。目前,人机协同多智能体系统的理论和应用研究主要集中在单人-多机系统,其典型控制框架如图7所示。
人类通过向机器传递控制意图可以实现人机协作效果。不过,人类意图的传递往往受限于通信带宽和操作员的认知负荷。特别是在面对大规模异构集群时,要求人类对每一个智能体进行全时段的控制是不现实的。因此,采用有效的稀疏传递机制,通过在时间上减少人机交互频次、在空间上减少人机交互节点数量,成为实现高效人机协同的关键。针对时间维度的稀疏性,现有研究主要采用间歇交互策略:人类通过遥操作、发送语音、触觉反馈等操作在离散时间节点施加控制,实现人机协同。例如,Yang等[94]研究了单主-多从遥操作系统在通信间歇性中断环境下的编队控制问题:人类操作者操控主机器人作为领导者,多个从机器人作为跟随者,仅在离散的、不规则的时刻进行信息交换;提出的自适应控制方案能够在通信链路不可靠的情况下,确保从机器人保持设定的几何编队,并稳定跟踪主机器人的运动。Guo等[95]针对四旋翼无人机编队安全操控问题,提出了一种基于手势识别的HiTL控制方法,结合事件触发与量化通信的自适应机制,成功实现了低通信负载下的无人机控制。针对空间维度的稀疏性,领导者-跟随者控制框架被视为主流解决方案[96-99]。在该框架下,人类操作员只与少数智能体(领导者)交互,再由领导者通过一致性机制将人类意图传递到群体。比如,在文献[99]中,作者将这种领导-跟随多智能体模型应用于辐射源定位问题,人类操作员通过远程遥控领导者机器人,其他跟随者机器人的运动间接地受到领导者的影响,最终定位结果明显优于没有人类领导者的自主多智能体系统。
7人机协同多无人机控制系统
Fig.7Human-machine collaborative multi-drone control system
在极端条件下,跟随者可能无法收到人控领导者的控制指令,许多学者对这类情况进行了研究。Kiumarsi等[100]考虑了仅利用相对输入-输出测量的人机协同多智能体系统的分布式控制问题,将人类操作员施加到领导者智能体的控制输入信号视为未知干扰,并利用滑模控制方法来消除人类操作员未知控制输入的影响,从而实现一致性。该方法的优点在于它不需要对人类操作员的控制行为进行精确建模,减少了对复杂人类行为特征的依赖,简化了系统设计和实现。然而,滑模控制方法虽然能够有效应对未知干扰,但通常会使控制器设计条件较为保守,且其固有的抖振问题可能会对系统的稳定性和控制精度造成不利影响。文献[101]提出了用一种分布式自适应行为学习的方法来处理人类操作员未知控制输入的问题:通过建立人类操作员的行为模型,并依此为跟随者设计自适应学习律来估计人类行为模型参数,从而实现对领导者的跟踪控制。
另外,在人机协同多智能体系统中,如何处理人类意图与智能体自主行为之间的冲突是一个关键挑战。为处理意图冲突并提升人机协作稳定性,引入合理的信任分配机制被认为是一种有效途径。例如,Li等[102]提出了一种基于双向信任的可变自主控制框架,该框架通过实时调节人控与机控比例,实现了控制权限的平滑过渡,保障了人机协同安全性。除了直接分配控制权重,信任分配机制还被用于动态调整自主智能体的安全约束,以适应人类意图的不确定性。例如,在文献[103]中,作者提出一种信任感知安全控制系统,用于周围存在行人环境下的车辆自主导航。作者基于摄像头提取的图像特征计算行人信任值,随后将信任值整合到车辆的控制约束中,使自动驾驶车辆能够结合行人行为做出决策。还有许多优秀的研究工作不再一一阐述,请参见文献[104-109]
4 人机混合智能评价
当前,针对人类或机器智能的评价已经有了公认标准,如人类的智商测试和机器的图灵测试,但这些标准主要聚焦于智能体的信息处理能力。然而,人机协同控制系统作为一个集信息感知、信息处理、人机交互与物理执行于一体的复杂系统,需要更为综合的混合智能评价标准,传统的测试方法并不直接适用。已有研究为智能控制系统构建了专门的智能评价方法[110-111],其评价体系涵盖了系统架构、感知、控制与执行等关键模块。文献[112]针对无人驾驶车辆,提出了一种智能水平评价方法。该方法首先依据环境复杂度、任务复杂度以及人工干预程度来划分智能等级,并据此构建评价指标体系及权重,从而实现对智能水平的量化评估。然而,此类方法仍主要侧重于单体机器智能,针对“人机协同”这一混合智能范式的评价研究尚显不足。为增强评价体系对工程实践的指导意义,本文在常规性能评价指标的基础上,进一步引入可量化的“协同增益”概念,用于刻画人机协同相对于“仅人”或“仅机”基线的超额贡献,从而使人机混合智能评价体系更加完善。
基于对现有研究的梳理,笔者认为人机协同控制系统混合智能水平评价必定是一个多维度的综合评估框架,涵盖控制性能、协作效率、自适应能力、协同增益及用户体验等核心指标。具体而言,在控制性能上,可通过任务完成度、准确率、响应时间等量化指标评估系统输出质量;协作效率侧重人机交互的流畅性,需评估任务分配合理性、信息传递准确度及协同决策效果等指标;自适应能力则关注系统动态优化水平,包括学习速率、环境适应性及个性化调整能力等;协同增益通过仅人操作、仅机器操作与人机协同三类对照基线进行量化,对任一性能指标i,记仅人操作表现为PH,i,仅机器操作表现为PM,i,人机协同操作表现为PHM,i,于是,定义协同增益为
Gi=PHM,i-maxPH,i,PM,imaxPH,i,PM,i
(8)
用户体验则可结合主观问卷与生理信号,衡量用户满意度、认知负荷及情感反馈。此外,未来的人机混合智能评价将趋向于构建一种动态评估体系,结合实时数据反馈与强化学习机制,实现评价过程的迭代优化,并将伦理规范纳入考量,以全面反映人机混合智能的协同效能与可持续性发展潜力。
5 人机协同增强智能控制系统应用
人机协同增强智能控制系统的应用十分广泛,本文重点讨论其在医疗、工业、军事等领域的典型应用场景。
5.1 辅助医疗
在手术机器人控制系统中,人机混合智能控制架构得到了有效应用[113]。医生操作主手设备时,其手部运动信号经过自适应滤波处理后,由手端控制器可实现亚毫米级运动跟随。另外,基于共享控制架构,当机器检测到医生手部震颤时,基于陷波滤波器的抑制模块自动激活,可精准消除8~12 Hz生理震颤,同时零延迟保留医生主动运动指令;而在关键解剖结构附近,系统会生成虚拟导引力场辅助医生规避风险区。而且,力反馈增益可根据组织硬度动态调整,使医生既能感知到mN级别的精细触觉,又不会因突然的力反馈而失控。这种“人在主导、AI在微调”的控制模式,在提升了手术精度的同时,显著降低了医生的操作疲劳度。
5.2 协同装配
在传统工业制造中,人工操作费体力、精度低,而自动化生产线只能完成装配流程简单、重复的任务。事实上,如果人和AI可以协作,就可以完成更复杂的装配任务[114]。比如,现代装配线的人机协同控制通过“动态导纳控制”可以实现柔性交互。工人直接拖拽机器人末端时,机器端的参数辨识器会实时学习工人的操作习惯,并自动调整导纳控制器的惯性参数。而在“螺栓拧紧”等关键工序中,视觉系统会监测工人的手势,当识别到“辅助请求”手势时,机器人立即切换至高精度模式。基于特别设计的冲突仲裁机制,工人施加超过阈值的修正力时,系统会在短时间内移交控制权;而当检测到工人操作误差较大时,会通过触觉振动提示。这种控制策略使整体装配效率得到显著提升,同时大幅减少人机冲突事件数量。
5.3 军事装备
人机协同控制架构也被广泛应用于军事领域[115]。无人机操控系统采用“双模控制”架构:常规巡航时基于最优控制器自主飞行;而当识别到高价值目标或收到语音指令时,立即切换至操作员引导模式。另外,通过先进的触觉共享控制技术,操作员可借助力反馈手柄感知无人机所受的风力强度和方向,并由AI实时提供风险规避提示。在火力控制系统中,AI负责锁定符合交战规则的目标并请求授权,而人类操作员则掌握最终决策权,必须等其确认后才能解锁武器。这一设计在保障响应速度的同时,确保了“人在回路”的终极控制。
6 展望
6.1 模型-数据混合驱动的人机协同控制
本文重点综述了基于人类行为建模的机器协同控制设计方法,这种方法虽然具有较高的可解释性和理论严谨性,但在处理复杂、非结构化任务时,面临建模困难、设计烦琐的固有瓶颈。随着大模型技术的兴起,数据驱动的新范式展现出强大潜力:通过从海量人机交互数据中离线学习“感知-控制”的端到端映射,大模型极大地简化了算法流程,并借助多模态融合能力,显著提升了交互的自然性与环境适应性。
然而,纯粹的数据驱动端到端控制仍存在可解释性差、安全约束难以直接嵌入、严重依赖高质量数据等局限性,制约其在高安全性要求场景中的部署。因此,更可行的方向是“模型-数据混合驱动”的分层集成机制:由大模型输出结构化中间表示(目标/约束/参考/意图分布),再由控制器完成在线求解与安全兜底,并在低置信度或不可行时触发回退策略。该机制旨在保留模型驱动方法的可解释性与安全框架的同时,引入数据驱动方法在复杂场景下的适应性与泛化能力,从而提升人机协同控制系统的可靠部署能力。
6.2 具身学习与情景理解
人机协同控制本身是具身智能的一个典型应用。在具身智能系统中,机器通过与环境的实时交互获取新知识,例如通过触摸感知物体形状,或是在跌倒过程中学会保持平衡。类似地,在人机协同控制系统中,机器也应不断与环境互动,以熟悉操作场景,同时通过与人交互识别人类意图、理解任务情境,从而实现个性化与自适应的协作行为。譬如,当工人需要机器协助将一个构件安装到设备上时,机器应先识别构件形态、推测其目标安装位置,并进一步结合人的语言指令与动作信息,明确自身在任务中的角色以提供有效辅助。而在整个协作过程中,机器还能够根据任务执行的实际效果,在线调整自身行为,实现持续优化与适应。
本文综述了以逆强化学习为代表的人类意图推断与理解方法,但此类方法受限于被动地接收信息,在学习范式与目标设定上也较为单一,无法覆盖广泛的应用场景。另外,现有文献较少考虑人机交互环境解析,难以精准推测交互任务。因此,现有的学习方法没有真正做到机器“具身入局”。如何深度融合具身学习技术[116],结合时空结构解析、知识推理与活动识别等方法,从多维度实现人的意图识别、环境解析与情景理解,是未来一个值得探索的研究方向。
此外,要实现具身学习目标,既要求机器拥有智慧的大脑,也需要机器具有灵活的物理“身体”。因此,开发具备多自由度、高灵活性的“智能硬件”技术也是一个充满挑战的研究方向。
7 总结
本文从人类行为建模、人机协同增强智能控制方法、人在回路多智能体系统、人机混合智能评价、人机协同增强智能控制系统应用等多方面阐述了人机协同增强智能控制系统的研究现状。可以发现,该领域研究已经取得了丰硕的成果,特别是在理论分析方面,并且在一些工程实践中得到了初步的应用。但是,还存在理论框架不统一、信息融合能力弱、人机协同效率低、应用场景简单等问题。随着深度学习、大模型、物理智能等AI技术的发展,以多模态信息获取、多形态智能交互、“线下训练,线上微调”为主要特征的新型人机协作模式有望取得较大的进展。
1人在回路控制系统架构
Fig.1Architecture of HiTL control system
2模糊系统结构
Fig.2Structure of fuzzy system
3神经网络结构
Fig.3Structure of neural network
4人机切换控制架构
Fig.4Architecture of human-machine switching control
5人机共享控制架构
Fig.5Architecture of human-machine shared control
6人机协同增强智能控制方法总结
Fig.6Summary of human-machine collaborative enhanced intelligent control methods
7人机协同多无人机控制系统
Fig.7Human-machine collaborative multi-drone control system
1人类行为不同建模方法比较
Tab.1Comparison of different modeling methods for human behavior
刘伟. 人机混合智能: 新一代智能系统的发展趋势[J]. 上海师范大学学报(哲学社会科学版),2023,52(1):71-80.LIU W. Human-machine hybrid intelligence:a new development trend of the intelligent system[J]. Journal of Shanghai Normal University(Philosophy & Social Sciences Edition),2023,52(1):71-80.(in Chinese)
LICKLIDER J C R. Man-computer symbiosis[J]. IRE Transactions on Human Factors in Electronics,1960, HFE-1(1):4-11.
AKATA Z, BALLIET D, DE RIJKE M,et al. A research agenda for hybrid intelligence:augmenting human intellect with collaborative,adaptive,responsible,and explainable artificial intelligence[J]. Computer,2020,53(8):18-28.
DELLERMANN D, EBEL P, SÖLLNER M,et al. Hybrid intelligence[J]. Business & Information Systems Engineering,2019,61(5):637-643.
ZHENG N N, LIU Z Y, REN P J,et al. Hybrid-augmented intelligence:collaboration and cognition[J]. Frontiers of Information Technology & Electronic Engineering,2017,18(2):153-179.
YANG C J, ZHU Y C, CHEN Y H. A review of human-machine cooperation in the robotics domain[J]. IEEE Transactions on Human-Machine Systems,2022,52(1):12-25.
胡云峰, 曲婷, 刘俊, 等. 智能汽车人机协同控制的研究现状与展望[J]. 自动化学报,2019,45(7):1261-1280.HU Y F, QU T, LIU J,et al. Human-machine cooperative control of intelligent vehicle:recent developments and future perspectives[J]. Acta Automatica Sinica,2019,45(7):1261-1280.(in Chinese)
MABROK M A, MOHAMED H K, ABDEL-ATY A H,et al. Human models in human-in-the-loop control systems[J]. Journal of Intelligent & Fuzzy Systems,2020,38(3):2611-2622.
XU S T, TAN W Q, EFREMOV A V,et al. Review of control models for human pilot behavior[J]. Annual Reviews in Control,2017,44:274-291.
MCRUER D T, KRENDEL E S. The human operator as a servo system element[J]. Journal of the Franklin Institute,1959,267(5):381-403.
WEIR D H, MCRUER D T. Dynamics of driver vehicle steering control[J]. Automatica,1970,6(1):87-98.
WIERENGA R D. An evaluation of a pilot model based on Kalman filtering and optimal control[J]. IEEE Transactions on Man-Machine Systems,1969,10(4):108-117.
KLEINMAN D L, BARON S, LEVISON W H. An optimal control model of human response:part Ⅰ:theory and validation[J]. Automatica,1970,6(3):357-369.
BARON S, KLEINMAN D L, LEVISON W H. An optimal control model of human response:part Ⅱ:prediction of human performance in a complex task[J]. Automatica,1970,6(3):371-383.
BARON S, KLEINMAN D L. The human as an optimal controller and information processor[J]. IEEE Transactions on Man-Machine Systems,1969,10(1):9-17.
ANDERSON B, MOORE J. Optimal control:linear quadratic methods[M]. Upper Saddle River: Prentice-Hall,1989.
EL-HUSSIENY H, ABOUELSOUD A A, ASSAL S F M,et al. Adaptive learning of human motor behaviors:an evolving inverse optimal control approach[J]. Engineering Applications of Artificial Intelligence,2016,50:115-124.
WU H N. Online learning human behavior for a class of human-in-the-loop systems via adaptive inverse optimal control[J]. IEEE Transactions on Human-Machine Systems,2022,52(5):1004-1014.
KEEN S D, COLE D J. Application of time-variant predictive control to modelling driver steering skill[J]. Vehicle System Dynamics,2011,49(4):527-559.
KEEN S D, COLE D J. Bias-free identification of a linear model-predictive steering controller from measured driver steering behavior[J]. IEEE Transactions on Systems, Man,and Cybernetics, Part B(Cybernetics),2012,42(2):434-443.
曲婷. 基于随机模型预测控制的驾驶员行为建模[D]. 长春: 吉林大学,2015.QU T. Driver behavior modeling based on stochastic model predictive control[D]. Changchun: Jilin University,2015.(in Chinese)
RAMADAN A, CHOI J, RADCLIFFE C J,et al. Inferring control intent during seated balance using inverse model predictive control[J]. IEEE Robotics and Automation Letters,2019,4(2):224-230.
RAMADAN A, CHOI J, RADCLIFFE C J. Inferring human subject motor control intent using inverse MPC[C]//Proceedings of 2016 American Control Conference(ACC),2016:5791-5796.
GUO L X, JIA Y Y. Inverse model predictive control(IMPC)based modeling and prediction of human-driven vehicles in mixed traffic[J]. IEEE Transactions on Intelligent Vehicles,2021,6(3):501-512.
ZHANG F W, DUAN J L, XU H Y,et al. Inverse model predictive control:learning optimal control cost functions for MPC[J]. IEEE Transactions on Industrial Informatics,2024,20(12):13644-13655.
LI T H S, CHANG S J, CHEN Y X. Implementation of human-like driving skills by autonomous fuzzy behavior control on an FPGA-based car-like mobile robot[J]. IEEE Transactions on Industrial Electronics,2003,50(5):867-880.
ALMADI A I M, AL MAMLOOK R E, ALMARHABI Y,et al. A fuzzy-logic approach based on driver decision-making behavior modeling and simulation[J]. Sustainability,2022,14(14):8874.
XU S T, TAN W Q, WU Y,et al. Modeling fuzzy and adaptive human behavior for aircraft with dynamic-pitch-control envelope cue[J]. Drones,2022,6(5):121.
WU H N, LIN J, WANG M. Human behavior learning for a class of nonlinear human-in-the-loop systems via Takagi-Sugeno fuzzy model[J]. IEEE Transactions on Fuzzy Systems,2024,32(6):3355-3367.
MARTENS D. Neural networks as a tool for the assessment of human pilot behaviour in wind shear[J]. Aerospace Science and Technology,1999,3(1):39-48.
谭文倩, 屈香菊, 王维军. 驾驶员神经网络模型与频域拟线性模型的比较研究[J]. 航空学报,2003,24(6):481-485.TAN W Q, QU X J, WANG W J. Comparison of neural network model and frequency domain quasi-linear model for human pilots[J]. Acta Aeronautica et Astronautica Sinica,2003,24(6):481-485.(in Chinese)
BALAN G, ARUMUGAM S, MUTHUSAMY S,et al. An improved deep learning-based technique for driver detection and driver assistance in electric vehicles with better performance[J]. International Transactions on Electrical Energy Systems,2022,2022:8548172.
HAO Z Q, LIU M, WANG Z Y,et al. Human behavior analysis based on attention mechanism and LSTM neural network[C]//Proceedings of 2019 IEEE 9th International Conference on Electronics Information and Emergency Communication(ICEIEC),2019:346-349.
XIAO W C, LIU H L, MA Z J,et al. Attention-based deep neural network for driver behavior recognition[J]. Future Generation Computer Systems,2022,132:152-161.
KEDIA K, BHARDWAJ A, DAN P,et al. InteRACT:transformer models for human intent prediction conditioned on robot actions[C]//Proceedings of 2024 IEEE International Conference on Robotics and Automation(ICRA),2024:621-628.
PETTERSSON J, FALKMAN P. Comparison of LSTM,transformers,and MLP-mixer neural networks for gaze based human intention prediction[J]. Frontiers in Neurorobotics,2023,17:1157957.
NG A Y, RUSSELL S J. Algorithms for inverse reinforcement learning[C]//Proceedings of the Seventeenth International Conference on Machine Learning,2000:663-670.
ABBEEL P, NG A Y. Apprenticeship learning via inverse reinforcement learning[C]//Proceedings of the Twenty-First International Conference on Machine Learning,2004.
WANG Y J, NIU Y C, XIAO M,et al. Modeling framework of human driving behavior based on deep maximum entropy inverse reinforcement learning[J]. Physica A: Statistical Mechanics and its Applications,2024,652:130052.
宋莉, 李大字, 徐昕. 逆强化学习算法、理论与应用研究综述[J]. 自动化学报,2024,50(9):1704-1723.SONG L, LI D Z, XU X. A survey of inverse reinforcement learning algorithms,theory and applications[J]. Acta Automatica Sinica,2024,50(9):1704-1723.(in Chinese)
CALINON S, GUENTER F, BILLARD A,et al. On learning,representing,and generalizing a task in a humanoid robot[J]. IEEE Transactions on Systems, Man,and Cybernetics, Part B(Cybernetics),2007,37(2):286-298.
CEDERBORG T, LI M, BARANES A,et al. Incremental local online Gaussian mixture regression for imitation learning of multiple tasks[C]//Proceedings of 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems,2010:267-274.
CALINON S, D′HALLUIN F, SAUSER E L,et al. Learning and reproduction of gestures by imitation[J]. IEEE Robotics & Automation Magazine,2010,17(2):44-54.
PIGNAT E, CALINON S. Bayesian Gaussian mixture model for robotic policy imitation[J]. IEEE Robotics and Automation Letters,2019,4(4):4452-4458.
HESS R A. Structural model of the adaptive human pilot[J]. Journal of Guidance and Control,1980,3(5):416-423.
HOSMAN R, SCHURING J, VAN DER GEEST P. Pilot model development for the manual balked landing maneuvre[C]//Proceedings of AIAA Modeling and Simulation Technologies Conference and Exhibit,2005:5884.
GRIFFIN M J. The validation of biodynamic models[J]. Clinical Biomechanics,2001,16(Suppl 1): S81-S92.
TRAN D, TADESSE E, SHENG W H,et al. A driver assistance framework based on driver drowsiness detection[C]//Proceedings of 2016 IEEE International Conference on Cyber Technology in Automation, Control,and Intelligent Systems(CYBER),2016:173-178.
SAITO T, WADA T, SONODA K. Control authority transfer method for automated-to-manual driving via a shared authority mode[J]. IEEE Transactions on Intelligent Vehicles,2018,3(2):198-207.
ERCAN Z, CARVALHO A, GOKASAN M,et al. Modeling,identification,and predictive control of a driver steering assistance system[J]. IEEE Transactions on Human-Machine Systems,2017,47(5):700-710.
ZHANG Y, LU J W, XIA G,et al. Human-machine shared control for industrial vehicles:a personalized driver behavior recognition and authority allocation scheme[J]. IEEE Transactions on Intelligent Vehicles,2024,9(11):6869-6880.
SENTOUH C, NGUYEN A T, RATH J J,et al. Human-machine shared control for vehicle lane keeping systems:a Lyapunov-based approach[J]. IET Intelligent Transport Systems,2019,13(1):63-71.
LI W F, XIE Z C, ZHAO J,et al. Human-machine shared steering control for vehicle lane keeping systems via a fuzzy observer-based event-triggered method[J]. IEEE Transactions on Intelligent Transportation Systems,2022,23(8):13731-13744.
YUCELEN T, YILDIZ Y, SIPAHI R,et al. Stability limit of human-in-the-loop model reference adaptive control architectures[J]. International Journal of Control,2018,91(10):2314-2331.
HABBOUSH A, YILDIZ Y. An adaptive human pilot model for adaptively controlled systems[J]. IEEE Control Systems Letters,2022,6:1964-1969.
ISAACS R. Differential games:a mathematical theory with applications to warfare and pursuit,control and optimization[M]. New York: John Wiley & Sons, Inc.,1965.
李臻, 范家璐, 姜艺, 等. 一种基于Off-Policy的无模型输出数据反馈H控制方法[J]. 自动化学报,2021,47(9):2182-2193.LI Z, FAN J L, JIANG Y,et al. A model-free H control method based on Off-Policy with output data feedback[J]. Acta Automatica Sinica,2021,47(9):2182-2193.(in Chinese)
WU C W, LI X L, PAN W,et al. Zero-sum game-based optimal secure control under actuator attacks[J]. IEEE Transactions on Automatic Control,2021,66(8):3773-3780.
VAMVOUDAKIS K G, LEWIS F L. Multi-player non-zero-sum games:online adaptive learning solution of coupled Hamilton-Jacobi equations[J]. Automatica,2011,47(8):1556-1569.
ZHANG H G, CUI L L, LUO Y H. Near-optimal control for nonzero-sum differential games of continuous-time nonlinear systems using single-network ADP[J]. IEEE Transactions on Cybernetics,2013,43(1):206-216.
LIU D R, LI H L, WANG D. Online synchronous approximate optimal learning algorithm for multi-player non-zero-sum games with unknown dynamics[J]. IEEE Transactions on Systems, Man,and Cybernetics: Systems,2014,44(8):1015-1027.
JOHNSON M, KAMALAPURKAR R, BHASIN S,et al. Approximate N-player nonzero-sum game solution for an uncertain continuous nonlinear system[J]. IEEE Transactions on Neural Networks and Learning Systems,2015,26(8):1645-1658.
VRABIE D, LEWIS F. Integral reinforcement learning for online computation of feedback Nash strategies of nonzero-sum differential games[C]//Proceedings of the 49th IEEE Conference on Decision and Control(CDC),2010:3066-3071.
WEI Q L, ZHU L, SONG R Z,et al. Model-free adaptive optimal control for unknown nonlinear multiplayer nonzero-sum game[J]. IEEE Transactions on Neural Networks and Learning Systems,2022,33(2):879-892.
LV Y F, CHANG H M, ZHAO J. Online adaptive integral reinforcement learning for nonlinear multi-input system[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs,2023,70(11):4176-4180.
STALFORD H L. Criteria for Pareto-optimality in cooperative differential games[J]. Journal of Optimization Theory and Applications,1972,9(6):391-398.
MU C X, WANG K, NI Z,et al. Cooperative differential game-based optimal control and its application to power systems[J]. IEEE Transactions on Industrial Informatics,2020,16(8):5169-5179.
NA X X, COLE D J. Game-theoretic modeling of the steering interaction between a human driver and a vehicle collision avoidance controller[J]. IEEE Transactions on Human-Machine Systems,2015,45(1):25-38.
LI Y, CARBONI G, GONZALEZ F,et al. Differential game theory for versatile physical human-robot interaction[J]. Nature Machine Intelligence,2019,1(1):36-43.
LI Y N, TEE K P, CHAN W L,et al. Continuous role adaptation for human-robot shared control[J]. IEEE Transactions on Robotics,2015,31(3):672-681.
FRANCESCHI P, PEDROCCHI N, BESCHI M. Human-robot role arbitration via differential game theory[J]. IEEE Transactions on Automation Science and Engineering,2024,21(4):5953-5968.
TONG K, LI M, QIN J H,et al. Differential game-based control for nonlinear human-robot interaction system with unknown desired trajectory[J]. IEEE Transactions on Cybernetics,2024,54(11):6832-6842.
WU H N, WANG M. Learning human behavior in shared control:adaptive inverse differential game approach[J]. IEEE Transactions on Cybernetics,2024,54(6):3705-3715.
NA X X, COLE D J. Modelling of a human driver′s interaction with vehicle automated steering using cooperative game theory[J]. IEEE/CAA Journal of Automatica Sinica,2019,6(5):1095-1107.
WU H N, JIANG X Y, WANG M. Human cognitive learning in shared control via differential game with bounded rationality and incomplete information[J]. IEEE Transactions on Artificial Intelligence,2024,5(10):5141-5152.
TAN J K, WANG J C, XUE S S,et al. Human-machine shared stabilization control based on safe adaptive dynamic programming with bounded rationality[J]. International Journal of Robust and Nonlinear Control,2025,35(11):4638-4657.
LI R J, LI Y N, LI S E,et al. Indirect shared control for cooperative driving between driver and automation in steer-by-wire vehicles[J]. IEEE Transactions on Intelligent Transportation Systems,2021,22(12):7826-7836.
KO S, LANGARI R. Shared control between human driver and machine based on game theoretical model predictive control framework[C]//Proceedings of 2020 IEEE/ASME International Conference on Advanced Intelligent Mechatronics(AIM),2020:649-654.
KRÜGER J J, ALBERTS H A. Fuzzy human-machine collaborative control of a nonlinear plant[J]. IFAC Proceedings Volumes,1993,26(2):1107-1112.
NGUYEN A T, SENTOUH C, POPIEUL J C. Sensor reduction for driver-automation shared steering control via an adaptive authority allocation strategy[J]. IEEE/ASME Transactions on Mechatronics,2018,23(1):5-16.
FANG Z W, WANG J X, LIANG J H,et al. Authority allocation strategy for shared steering control considering human-machine mutual trust level[J]. IEEE Transactions on Intelligent Vehicles,2024,9(1):2002-2015.
JIANG Y, DING Y Y, ZHANG X L,et al. A self-learning human-machine cooperative control method based on driver intention recognition[J]. CAAI Transactions on Intelligence Technology,2024,9(5):1101-1115.
CREMER S, DAS S K, WIJAYASINGHE I B,et al. Model-free online neuroadaptive controller with intent estimation for physical human-robot interaction[J]. IEEE Transactions on Robotics,2020,36(1):240-253.
WU H N, ZHANG X M. Stochastic stability analysis and synthesis of a class of human-in-the-loop control systems[J]. IEEE Transactions on Systems, Man,and Cybernetics: Systems,2022,52(2):822-832.
LIU Y F, WU H N, ZHANG X M. Stability and H performance of human-in-the-loop control systems through hidden semi-Markov human behavior modeling[J]. Applied Mathematical Modelling,2023,116:799-815.
LAM C P, SASTRY S S. A POMDP framework for human-in-the-loop system[C]//Proceedings of the 53rd IEEE Conference on Decision and Control,2014:6031-6036.
LIANG Y, YIN Z S, NIE L Z. Shared steering control for lane keeping and obstacle avoidance based on multi-objective MPC[J]. Sensors,2021,21(14):4671.
SOUALMI B, SENTOUH C, POPIEUL J C,et al. Fuzzy Takagi-Sugeno LQ controller for a shared control of vehicle[C]//Proceedings of 2011 14th International IEEE Conference on Intelligent Transportation Systems(ITSC),2011:956-961.
MERAH A, HARTANI K, DRAOU A. A new shared control for lane keeping and road departure prevention[J]. Vehicle System Dynamics,2016,54(1):86-101.
REDDY S, DRAGAN A D, LEVINE S. Shared autonomy via deep reinforcement learning[EB/OL].(2018-05-23)[2025-11-05].https://siddharth.io/files/deep-assist.pdf.
SCHAFF C, WALTER M R. Residual policy learning for shared autonomy[EB/OL].(2020-07-10)[2025-11-05].https://arxiv.org/abs/2004.05097.
TIAN C, SHAIK S, WANG Y. Deep reinforcement learning for shared control of mobile robots[J]. IET Cyber-Systems and Robotics,2021,3(4):315-330.
WANG S Y, ZHU Y X, LI Z H,et al. ChatGPT as your vehicle co-pilot:an initial attempt[J]. IEEE Transactions on Intelligent Vehicles,2023,8(12):4706-4721.
YANG X, HUA C C, YAN J,et al. Adaptive formation control of cooperative teleoperators with intermittent communications[J]. IEEE Transactions on Cybernetics,2019,49(7):2514-2523.
GUO H Z, CHEN M, JIANG Y H,et al. Distributed adaptive human-in-the-loop event-triggered formation control for QUAVs with quantized communication[J]. IEEE Transactions on Industrial Informatics,2023,19(6):7572-7582.
MA L, ZHU F L, ZHAO X D. Human-in-the-loop consensus control for multiagent systems with external disturbances[J]. IEEE Transactions on Neural Networks and Learning Systems,2024,35(8):11024-11034.
LIN G H, LI H Y, MA H,et al. Human-in-the-loop consensus control for nonlinear multi-agent systems with actuator faults[J]. IEEE/CAA Journal of Automatica Sinica,2022,9(1):111-122.
MA L, ZHU F L. Human-in-the-loop formation control for multi-agent systems with asynchronous edge-based event-triggered communications[J]. Automatica,2024,167:111744.
BASHYAL S, VENAYAGAMOORTHY G K. Human swarm interaction for radiation source search and localization[C]//Proceedings of 2008 IEEE Swarm Intelligence Symposium,2008:1-8.
KIUMARSI B, BAŞAR T. Human-in-the-loop control of distributed multi-agent systems:a relative input-output approach[C]//Proceedings of 2018 IEEE Conference on Decision and Control(CDC),2018:3343-3348.
QIN Z, WU H N, WANG J L. Behavior learning based distributed tracking control for human-in-the-loop multi-agent systems[J]. Journal of the Franklin Institute,2023,360(13):9996-10017.
LI Y L, CUI R X, YAN W S,et al. Reconciling conflicting intents:bidirectional trust-based variable autonomy for mobile robots[J]. IEEE Robotics and Automation Letters,2024,9(6):5615-5622.
EJAZ S, INOUE M. Trust-aware safe control for autonomous navigation:estimation of system-to-human trust for trust-adaptive control barrier functions[J]. IEEE Transactions on Control Systems Technology,2025,33(4):1151-1163.
QIN Z, WU H N, WANG J L. Proactive cooperative consensus control for a class of human-in-the-loop multi-agent systems with human time-delays[J]. Neurocomputing,2024,581:127485.
ZHANG X X, WU H N, WANG J L. Human leading behavior learning for multiple autonomous followers under constrained communication topologies[J]. IEEE Transactions on Systems, Man,and Cybernetics: Systems,2025,55(7):4791-4803.
ZHANG X X, WU H N, WANG J L. Distributed formation control for a class of human-in-the-loop multiagent systems[J]. IEEE Transactions on Human-Machine Systems,2024,54(4):416-426.
CHEN L, LIANG H J, PAN Y N,et al. Human-in-the-loop consensus tracking control for UAV systems via an improved prescribed performance approach[J]. IEEE Transactions on Aerospace and Electronic Systems,2023,59(6):8380-8391.
LI M, QIN J H, LI J C,et al. Game-based approximate optimal motion planning for safe human-swarm interaction[J]. IEEE Transactions on Cybernetics,2024,54(10):5649-5660.
YANG L N, CHI P, ZHAO J,et al. Human-in-the-loop formation-containment safe control for multi-agent systems via reinforcement learning[J/OL]. IEEE Transactions on Artificial Intelligence,2025:1-14(2025-04-11)[2025-11-20].https://ieeexplore.ieee.org/document/10962547.
刘东, 尹怡欣, 涂序彦. 智能系统的广义智能定性评价之研究[J]. 计算机科学,2007,34(9):167-169.LIU D, YIN Y X, TU X Y. Research on qualitative evaluation of generalized intelligence in intelligent system[J]. Computer Science,2007,34(9):167-169.(in Chinese)
刘东, 尹怡欣, 涂序彦. 从拟人的角度谈控制系统智能水平的评价[J]. 微计算机信息,2007,23(26):268-270,78.LIU D, YIN Y X, TU X Y. From being humanized study on intelligent-evaluation for intelligent control system[J]. Microcomputer Information,2007,23(26):268-270,78.(in Chinese)
孙扬. 无人驾驶车辆智能水平的定量评价[D]. 北京: 北京理工大学,2014.SUN Y. Quantitative evaluation of intelligence levels for unmanned ground vehicles[D]. Beijing: Beijing Institute of Technology,2014.(in Chinese)
王艺霖, 邱静, 黄瑞, 等. 人机协同智能系统及其临床应用[J]. 电子科技大学学报,2020,49(4):482-489.WANG Y L, QIU J, HUANG R,et al. Human-robot collaborative intelligent system and its clinical applications[J]. Journal of University of Electronic Science and Technology of China,2020,49(4):482-489.(in Chinese)
张树忠, 朱祺, 张弓, 等. 人机协同装配技术的研究现状与发展综述[J]. 世界科技研究与发展,2022,44(4):455-465.ZHANG S Z, ZHU Q, ZHANG G,et al. Human-robot collaborative assembly technology:review of research status and technology development[J]. World Sci-Tech R&D,2022,44(4):455-465.(in Chinese)
姜相争, 耿涛. 无人作战亦有“人”[EB/OL].(2024-03-28)[2025-11-20].http://www.81.cn/yw_208727/16297063.html.JIANG X Z, GENG T. There are also“people”in unmanned combat[EB/OL].(2024-03-28)[2025-11-20].http://www.81.cn/yw_208727/16297063.html.(in Chinese)
GUPTA A, SAVARESE S, GANGULI S,et al. Embodied intelligence via learning and evolution[J]. Nature Communications,2021,12:5721.