摘要
面向高端装备开放交互环境带来组件间高效数据交互的新型网络通信问题,提出了一种新型算控网络。针对高效、实时、灵活以及安全方面的极致需求,算控网络在协议体系、规划、应用及安全设计方面进行智简性设计,为异构资源间的强实时协同融合提供高效能和高灵活性的基础网络支撑。在详细调研相关研究工作基础上,探讨数据链路层增强、传感控制器远程内存直接获取接入、面向服务的感控中间件等新型算控网络关键技术,介绍国防科技大学网络芯片与系统团队算控网络关键技术攻关及测试评估情况,并展望未来挑战和研究方向,助力我国在高端装备体系和创新生态方面获得领先优势。
Abstract
For the new network communication challenges of efficient data interaction between components in open interactive environments, a novel C2N (computing and control network) was proposed. Aiming at the extreme requirements for efficiency, real-time performance, flexibility, and security, C2N adopts intelligent and simplified designs in protocol architecture, planning, application, and security design, providing high-performance and highly flexible basic network support for strong real-time collaborative fusion among heterogeneous resources. Based on a detailed investigation of relevant research work, key technologies of C2N were discussed, such as data link layer enhancement, remote direct memory access for sensor-controllers, and service-oriented sensing and control middleware. It also introduced the key technology research and test evaluation carried out by the network chip and system team of the National University of Defense Technology, and prospected future challenges and research directions to help China gain leading advantages in high-end equipment systems and innovative ecosystems.
Keywords
在人工智能与自动化等技术的推动下,具有自主感知和决策能力的高端装备如星、机、舰、车等由于其无人化、自主性、智能性等优点,将成为航空航天、高速铁路、运输物流、工业、海洋勘探等众多领域的必备设施。高端装备的智能化无人化发展正在成为产业革命的重要切入点和增长点,是衡量国家科技创新水平的重要标志,在国民经济、国防安全等诸多领域占据举足轻重的地位。
智能无人化高端装备作为信息物理系统(cyber physical system,CPS)在自主性场景下的延伸,更聚焦“自主执行”,是CPS的高阶应用[1]。由于需要面对非结构化、未知、动态、开放的任务环境,高端装备必须集成大量光电、雷达等传感器,对物理世界多模态信息进行实时协同感知。多模态信息的处理对系统集成的智能计算资源提出需求,控制决策的执行则要求多个执行器也具备精准实时的协同操作能力。此外,高端装备集群间的协同控制是解决复杂环境与多样化任务挑战的可行技术途径。
由于物理世界变化的强动态性,传感控制器与智能算力存储器间、传感器与控制器件以及智能高端装备集群间的强实时深度协同融合需求[2],给高端装备系统通信网络设计带来前所未有的技术挑战。
多年来,网络技术尤其是TCP/IP协议体系,主要面向互联网、高性能计算、云计算、智能计算等大规模组网需求演化发展,较少考虑高端装备系统对网络的特殊需求[3]。因此,现有网络架构在应用于高端装备时面临以下问题:第一,高效能数据传输保障难,即难以满足装备体积、重量及功耗(size,weight and power,SWaP)约束下,高效低功耗数据传输需求;第二,轻量化低延迟接入难,缺乏传感控制器数据敏捷实时接入方法;第三,规划开发难,多样化高端装备对网络规划和应用灵活开发部署带来极大挑战;第四,安全防护难,物理世界复杂环境及多模态信息交互对安全保障提出更高要求。
国防科技大学网络芯片与系统团队,长期从事网络领域的前沿技术研究、关键技术攻关以及重大工程项目实施,取得了一系列具有国际先进水平的科研成果。近年来,结合高效、实时、灵活以及安全等高端装备信息交互迫切需求,积极开展前沿探索和技术储备,在智能无人化驱动的新型算控网络领域,突破一系列关键技术,取得多项高水平科研成果,有效提升了我国在高端装备领域的核心竞争力。
论文提出的新型算控网络体系架构,为推动星、机、舰、车等高端装备智能化无人化演进奠定基础。该网络架构以信息传递的时空需求驱动网络协议、规划、应用及安全设计,采用“深度智能、极度简化”设计理念,有效支撑算力存储资源与传感控制器深入、高效、实时、灵活、安全融合协同。
1 相关工作
1.1 互联网架构体系
互联网作为支撑全球数字化进程的核心基础设施,连接终端类型丰富,包括传统PC、服务器等固定终端,智能手机、平板电脑、汽车等移动终端,以及海量物联网传感器和智能家居设备。
互联网拓扑结构具有超大规模、超异构以及逻辑分层特点[4]。在协议体系方面,互联网主要基于TCP/IP协议簇演化,针对高连通和高可扩展性需求,采用层次化自治系统架构,由Tier-1骨干网、ISP网络和边缘网络等多级组成。QUIC[5]等新型协议则针对特定场景优化;在路由控制方面,BGP等分布式路由协议[6]实现了自治系统之间的互联互通;通过多协议标签交换[7](multi-protocol label switching,MPLS)、软件定义网络[8](software defined network,SDN)等流量工程技术,实现了骨干网流量的智能调度[9]。
在应用方面,应用开发中间件、框架及接口呈现多样化,包括针对通信的Socket、libnet/libpcap[10]库,针对Web服务器的Nginx[11]、Apache[12]等,简化互联网业务应用开发,支持流媒体服务、网站构建、企业业务系统设计等。在安全方面,互联网协议设计考虑兼容性及可扩展性,以安全扩展增强为主,设计有IPSec[13]、Https[14]、S-BGP[15]等协议;同时依托分布式安全架构,由各网络自治区域部署防火墙、网络入侵检测系统等安全设备实现本区域网络安全防护。
随着云计算、智能计算等技术的涌现,现有互联网协议架构等关键技术难以满足数据中心、智算中心内部信息交互对低延迟、高通量、虚拟化等的需求。针对上述多样化网络应用场景,数据中心网络、智算中心网络等面向特定领域的新型网络体系架构及协议簇应运而生。
1.2 数据中心网络
数据中心网络是针对云计算需求,为支撑高密度计算、低延迟通信和大规模分布式应用而设计的高性能基础设施,负责连接高性能计算节点、高带宽存储系统等固定终端。与互联网南北向流量为主导的特性不同,数据中心网络70%以上的流量来自服务器间的东西向通信[16],需满足微秒级传输延时、高带宽及突发流量承载能力,以支持搜索引擎、分布式存储和高频交易等应用场景。
工业界和学术界针对上述流量需求特点,对数据中心网络协议体系进行了大量优化设计。在数据链路层和传输层,提出了各类网络虚拟化和拥塞控制技术,包括虚拟局域网VxLAN、NVGRE、显式拥塞提醒[17]、基于优先级的流控等标准协议[18]、基于队列的数据中心量化拥塞通告[19](data center quantized congestion notification,DCQCN)和基于往返传输延时的拥塞控制[20]。在控制平面,扩展BGP-EVPN[21]等协议,提升链路利用率。此外,数据中心网络拓扑普遍采用Clos/Fat-Tree架构,如Meta运用叶脊交换机组网[22]通过非阻塞交叉带宽消除链路竞争,并配合模块化分配点(point of delivery,PoD)设计实现支持数据中心的横向扩展。
在应用开发方面,通常基于多种前后端框架进行,包括MapReduce[23]、Spark[24]、Flink[25]等分布式计算框架、Spring、Django[26]等Web开发框架以及HDFS、ceph分布式存储框架[27]等,支持云业务、大数据分析、Web服务和流数据处理等各类业务系统开发。在安全方面,数据中心网络安全防护采用多层次防护策略,既注重系统边界防护,通过流量过滤和控制保障进出数据安全,又部署实时监测与故障恢复模块,实现对内部运行状态的持续防护[28]。
数据中心网络作为云计算时代的产物,着重于分布式服务能力供给。随着智能计算时代的到来,为提升深度学习大规模训练的性能,解决网络通信性能瓶颈问题,智算网络技术已成为当前的研究热点,致力于提升分布式AI训练效率[29]。
1.3 智算网络
智算网络(intelligent computing network)是为人工智能等智能计算任务专门设计的高性能网络基础设施,其核心目标是实现大规模异构算力资源(如CPU、GPU和NPU等)与存储资源的协调调度和弹性共享。与传统数据中心网络不同,智算网络通常采用双轨网络架构[30]:通过scale-out网络,如远程内存直接获取(remote memory direct access,RDMA)、InfiniBand,实现跨节点异构资源的弹性扩展[31];利用scale-up网络,如NvLink[32-33],完成单节点内同构算力的高速互联。这种架构创新有效支撑了分布式训练、推理等对低延迟和高带宽要求严苛的应用场景。
在流量特征方面,智算网络呈现显著的周期性突发和稀疏特性[34],导致传统负载均衡机制面临严峻挑战。为此,阿里云设计了高性能网络架构HPN[35],通过双架顶式(dual top of rack,ToR)上联和双平面组网创新设计,解决了传统数据中心网络的单点故障和哈希极化问题,优化负载均衡。超以太网联盟则试图针对智算网络,基于以太网全面优化智算网络协议栈架构,逼近InfiniBand性能,降低智算网络互联成本[36]。
在业务应用方面,智算网络应用更着重于提供深度学习、大模型训练或推理的支持:在训练侧支持主流深度学习框架,例如PyTorch、tensorflow等[37];在推理侧,则兼容OpenAI API[38]接口等通用规范。智算网络的安全防护体系继承自数据中心网络的成熟方案,同样包括边界防护、内部监测和故障恢复机制[39]。
智算网络在接入终端类型上与互联网、数据中心网络相似,主要以算力和存储资源为主,无须支持传感控制器等特殊终端[40]。因此,这类网络在传输性能方面对低延时、确定性需求相对较低,在强实时控制传输上面临严苛挑战,难以满足工业实时系统和高端装备及系统的特殊需求。
1.4 工业实时网络
工业实时网络作为专为工业环境设计的通信基础设施,旨在实现分散的工业设备、相对集中的控制系统与统一的上层信息系统之间进行实时、可靠、安全的数据交换[41]。与传统网络不同,工业实时网络中大量存在传感器、控制器设备终端。不同生产环境下,终端类型复杂多样、工艺流程差异巨大,工业网络中的流量表现为周期性和突发性共存,对网络传输的实时性、可靠性、确定性要求高,同时基于成本和易用性考量,存在关键数据、非关键数据等不同优先级流量共网传输的需求。
早期的工业实时网络依赖现场总线(如PROFIBUS[42]、CAN[43]等)和专用网络。现场总线的传输速率较低,且多采用轮询或令牌环网机制,在节点数目增多的情况下带宽明显下降,难以满足高清摄像头等新型传感器的高带宽需求。
以太网具有高带宽、低成本的优势,被工业实时网络采纳,形成了一系列标准,包括,过程现场网络(PROFIBUS international,PROFINET)、控制自动化以太网技术(ethernet for control automation technology,EtherCAT)、时间触发以太网(time trigger ethernet,TTE)等[44]。传统的工业以太网存在大量的透传网络而非交换网络,且在标准开放以及承载能力方面存在不足。
IEEE在2018年提出基于IEEE 802.1Q[45]网络,通过引入时间同步[46]、资源预留[47]、可靠性[48]等一系列标准和协议,形成了时间敏感网络(time-sensitive network,TSN)/确定性网络(deterministic networking,DetNet)等确定性以太网交换的国际开放标准。目前已形成较完整基础标准发布和场景规范草案,并涌现一系列的原型实现和初步应用。随着确定性以太网技术的融入,确定性网络将逐步成为工业实时网络的“主干通信”技术,总线网络将退化为“局部设备互联”技术[49]。
在业务应用方面,工业实时网络通常基于OPC UA、NEURON框架等进行业务逻辑开发,实现平台的数据接入以及分发[50]。工业实时网络安全防护与传统网络安全防护存在显著差异,主要源于工业控制系统的高异构性、高实时性、功能优先等特点,更着重于分层防御、物理加固等策略[51]。
工业实时网络与高端装备在异构性、实时性等方面存在一致特点,使得其相关协议与技术可以用于高端装备的构建。然而,智能化无人化高端装备对自主性和机动性要求更高,与物理环境交互也更加复杂且不可预测,数据信息的高效能、强实时、高通量传输交换面临更大挑战。
1.5 高端装备网络
高端装备网络旨在为装备内部及装备集群间通信提供易接入、安全、可靠、高通量、低时延的数据交互能力[3]。高端装备网络接入大量异构传感器、控制器、智能计算平台和执行器,从经济角度出发:一方面,需要高端装备网络提供支持不同应用、不同厂商设备的快速插拔能力;另一方面,面向高端装备实时智算需求,高端装备网络对数据传输时延在确定性、实时性、安全性等方面提出了更高要求。
早期高端装备网络多采用总线技术、标准以太网、无线技术混合构建,面向不同的作业场景设计定制化连接方案,存在以下问题:①网络软硬件接口定制化特征明显,不支持不同厂商相同功能的软硬件快速插拔;②高通量传输效果差,难以满足高通量、低时延、确定性的传输需求;③缺少有效的安全设计,防御能力弱[52]。
传感器开放系统架构[53](sensor open systems architecture,SOSA)由美国国防部提出,用于提升传感器网络快速接入的能力,其引入软件定义思路,垂直整合电缆、机械接口、硬件、软件和系统设计,实现软硬件及通信功能模块化设计,支持不同厂商传感器“即插即用”。与传统传感器网络相比,其支持不同厂商传感设备快速插拔。尽管SOSA针对传感器组网场景提出了模块化设计标准,但未考虑智能实时计算需求,需要扩展支持智能计算的传感器接入标准,且在安全防御方面缺乏考虑。
在网络传输方面,当前,确定性以太网如EtherCAT被用于构建高端装备端到端传输网络[54],其可提供高带宽的确定性传输能力,但其并不聚焦于端上的传输效能,特别对于资源较少的装备端侧,其将成为严重制约高端装备网络传输时延的瓶颈,无法满足智能计算高通量传输需求。
综上所述,当前高端装备网络在协议体系设计上无法满足高效实时网络传输的需求;面对不同应用和设备快速接入需求,表现为灵活性差;在遭遇网络攻击时,表现为防御效果差、资源消耗大,为此,亟须在协议体系、应用、安全等方面构建高效、实时、灵活、安全的新型网络架构。
1.6 其他:新型智简网络
华为在2019年发布《智简网络(IDN)》白皮书[57],提出“意图驱动的智简网络”,针对如何实现面向5G和云时代的网络数字化转型:一方面,通过简化网络协议、降低网络复杂度,实现业务的快速部署;另一方面,通过实时感知物理网络的健康状况,对网络进行智能管控,快速处理异常情况。中兴公司面向6G网络提出“智简网络,智联万物”的思想[58],通过创新的网络架构和技术,实现网络智能内生和极致简化,从外挂智能到内生智能演进,借助AI与通信的融合促使网络具备分布式自治、跨域协同的能力。张平院士团队提出智简6G通信概念[59],指出语义通信技术,可以作为智简通信的基础,实现从传统的比特传输向语义信息的高效传输转变。综上所述,下一代网络通信技术向智简方向发展已逐渐成为共识。然而,上述相关研究主要面向5G/6G通信以及大规模固定网络,高端装备算控网络智简化设计必须要针对其特点及约束特殊考虑。
1.7 小结
在上述网络场景中部署的网络通信协议通常在传统TCP/IP协议架构基础上,针对不同层次和方面进行了优化设计和考量,以更好满足相关终端接入与信息传输需求,有效支撑了能力效果。
智能无人化高端装备作为近年来新兴技术领域,目前还缺乏有效的网络通信协议体系设计,基本以沿用工业控制网络如工业实时以太网、确定性以太网等传统网络协议及技术为主[3]。与工业机器人、数控机床、自动化产线等工业控制场景不同,智能无人系统对感知、控制以及智能能力需求更加迫切和强烈,对端到端数据传输的延迟与带宽敏感。TSN、TTE等新一代工业控制网络技术可以作为算控网络的数据链路层的基础支撑,但总体上仍难以满足传感器、控制器、智能算力等多组件复杂且苛刻的信息流交互需求。此外,在部署应用环境方面,与工业控制网络相比,智能无人设备更加追求“低小轻”,因此,在SWaP方面面临更强约束,必须进行协议体系的优化、扩展与重构,突破算控网络高效、低时延、灵活互联、全局自适应优化等关键技术,构建新型算控网络体系架构,以满足智能无人装备数据传输、协同处理、安全防护以及业务开发等特殊要求。
2 算控网络架构
2.1 设计目标
算控网络(computing-control network,C2N)以现有网络技术体系为基础,面向高端装备算力存储资源与传感控制器深度融合需求,在SWaP受限条件下,基于智简设计原则,构建了高效、实时、灵活、安全的算控网络体系架构,实现系统多维感知、实时处理、智能决策与操控。
2.2 体系结构
算控网络体系由三层两面构成,如图1所示,算控资源层、算控网络层和算控中间件和应用层提供信息传输的基础能力,联合规划平面和智能安全平面提供系统运行支撑能力。
图1算控网络架构
Fig.1Computational control network architecture
2.2.1 算控资源层
算控网络资源对象由感控资源和算存资源两部分构成。感控资源包括雷达、光电等多样化传感器、执行器、控制器部件,用于支撑高端装备的环境感知与探测。算存资源包括CPU、GPU、NPU等通用计算、智能计算、固态存储等部件,主要为装备提供通用或智能算力及存储资源支撑。
2.2.2 算控网络层
算控网络层主要实现高端装备传控资源和算存资源的端端高效连接,是算控网络的核心。
其中,算控增强以太网一方面支持传统TSN、TTE以及无损聚合以太网(converged ethernet,CE),实现对已有端设备的兼容连接;另一方面针对高端装备高效能、强实时等严苛需求,采用智简优化方式,进一步扩展增强链路层能力。
在网络及传输层,以RDMA为核心构建算控网络基础端端传输能力。重点研究面向传感控制器接入的轻量化RDMA技术,实现传感控制资源到RDMA网络的无缝接入。
针对高端装备节点间的互联需求,研究通过自适应路由技术智能调整数据传输路径,降低高速变化时节点间数据交互时延并提升可靠交互能力,以适应复杂、多变的网络传输特征。
2.2.3 算控中间件与应用层
面向高端装备多样化业务灵活开发需求,基于至简理念,设计算控网络中间件,屏蔽并抽象底层异构资源,提供“便捷插拔”能力。提供标准化网络传输协议栈、网络规划配置和网络安全防御“服务”接口,支持通信类业务开发。
在此基础上,算控应用层可以面向不同场景,实现如目标检测和跟踪、智能避障、智能路径计算和分布式决策等应用业务能力。
2.2.4 联合规划平面
针对算控网络资源种类丰富、配置需求多样化等特征,设置联合规划平面。针对算控网络资源层、网络链路层、网络传输协议层分别提供全局端端优化的资源规划、拓扑规划、流量规划基础能力,为应用层业务开发提供直接支撑。
2.2.5 智能安全平面
算控网络安全需求高(轻量化、高精准、低时延),即高安全防御机制部署开销大、部署难,信息物理融合控制导致传统信息域数据驱动防御方法效果差,高通量数据融合分析时延长[60],因此构建以网络数据流为中心的智能驱动安全平面,通过把控全网数据流通,进行低时延防护、轻量智能检测与精准智能隔离恢复。其中:低时延防护采用内嵌标识密码机制对数据流传输过程进行实时防护,可对数据进行随流认证及加密,支持无可信第三方的无交互低时延防护;轻量智能检测基于轻量化智能模型,融合因果推理等技术对数据降维,采用分布式部署策略,将复杂检测功能拆分,分别部署于数据流转过程的多个节点,实现协同式轻量化检测;精准智能隔离恢复重点聚焦网络控制,对网络攻击区域或数据流进行智能网络隔离和数据流重路由,当发生网络攻击时,首先对攻击区域进行网络隔离,然后对流经该区域的数据流进行重路由,重点分析区域内数据输入输出。
3 算控网络关键技术
与传统网络相比,由于高端装备的部署特点,算控网络对数据传输效能、实时性、灵活性以及安全防护能力方面提出了更高要求。这也要求在协议、规划、应用开发以及安全机制等方面必须进行深度优化甚至定制设计。
3.1 数据链路层增强技术
传统以太网网络数据链路层更聚焦点到点高带宽互联能力,TSN等实时以太网的出现,使得其确定性实时传输能力得到大幅提升。受部署环境影响,高端装备算控网络必须能够为传感控制信息流提供更高效能和低延迟的数据传输通道。数据链路层增强技术是实现这一目标的重要手段。具体包括:
2)提升报文有效载荷率,优化报文头,如Ethlink协议[63],使用更小的报文头提升报文有效负载率,并尽可能兼容上层协议及业务应用,借鉴超大规模数据中心网络Slingshot[64]等相关技术成果,提升单位功耗转发率。
3)减少端到端重传,提高系统数据传输效能,降低平均延迟。通过增强算控网络链路层可靠传输能力[63],提高点到点传输可靠性,有效降低端到端重传概率。
在具体实现上,可基于专通双缓存的高阶瓦片交换结构及方法,解决由输出队列拥塞反压堵塞输入队列以及同一输入队列中输出给其他端口的报文被阻塞带来的交换延迟增大问题。采用小容量输入专用队列缓存结合大容量共享缓存双缓存策略,通过小容量输入专用队列缓存实现输入端口报文独立调度,避免其他端口报文头阻塞带来的延迟增大问题;通过共享缓存输入端口报文,避免突发导致的数据丢失问题;对于直接输出报文,采用Bypass方式直接旁路共享缓存,进一步清除报文数据拷贝带来的延迟。
3.2 传感控制器RDMA接入技术
与数据中心网络、智算网络不同,算控网络集成大量光电、雷达等多源高通量传感器,以形成对物理世界多模态信息感知能力[65]。RDMA技术广泛应用于超算以及智算所需的高带宽和低延迟传输,在带宽、效能和延迟方面与传统TCP/IP协议栈相比具备显著优势。传感控制器通过RDMA技术接入计算网络已逐渐成为工业界共识[66]。然而,传感控制器端算力等资源受限,部署RDMA机制需要解决以下问题:
1)支持轻量化建链协议栈和软件驱动,在计算与存储资源受限的条件下,实现无操作系统端的超轻量级通信配置;
2)实现高性能的工作队列元素(work queue element,WQE)、Doorbell、完成队列元素(completion queue element,CQE)处理,采用软硬件协同方式消除网络传输软件栈对传感端弱算力的依赖,释放系统传输性能;
3)轻量化高级拥塞控制技术,通过定制化拥塞控制机制(如主被动结合、AI驱动等)[67],实现有限资源下拥塞精确感知与实时控制,避免拥塞带来的性能骤降。
在具体实现上,可优化传统RDMA交互过程,硬件化实现WQE/Doorbell/CQE计算资源开销大模块,降低对端系统计算资源的依赖;可设计主动拥塞控制的带宽分配策略,实现快速收敛,同时结合被动拥塞控制的带宽调整策略,通过实现带宽稳定性与公平性提升拥塞控制能力。具体包括:①为支持拓扑实体不对称性,在机制设计上,应多侧重于流量接收方,即存储算力强的计算与存储终端,尽可能减少拥塞控制机制在传感终端上的资源消耗;②为满足流量多元性,算控网络拥塞控制机制侧重于考虑长流的性能表现,因为持续且庞大的传感数据是算控网络内的主要流量组成部分;③同时考虑控制短路与业务长流发生多对一或多对多传输时的拥塞控制性能。
3.3 大规模RDMA网络无损传输技术
算控网络面临网络规模大、业务流量种类多、传输需求多样化、传输场景多变等问题,跨节点的交互会呈现流量突发性拥塞、丢包、重传等多种情况[68],智能化无人高端装备面向上述情况需要稳定、可靠、高效的网络传输支撑。传统的RDMA传输技术在网络拥塞和重传控制上采用极简化设计,在网络发生拥塞、丢包时采取回退N策略易引起长尾延迟,严重降低RDMA网络的传输性能。为此,需要设计大规模RDMA网络无损传输技术,通过精准拥塞控制、智能负载均衡、多层级选择性重传提升大规模RDMA网络的无损传输效能[69]。
1)研究可控制流量速率,识别复杂拥塞场景,优化流量调度策略的精准拥塞控制方法,降低流量完成时间与尾时延,降低大规模突发传输丢包率;
2)增强业务流量识别与系统网络状态全局感知能力,设计AI驱动的分布式流量工程优化方法,提升毫秒级网络态势变化无损传输能力;
3)设计端网协同多层级选择重传技术,在不同网络节点增加重传策略,解决因资源受限引入的回退N重传问题,提升重传下的传输效能。
3.4 面向服务的感控中间件技术
算控网络的服务对象是星、机、舰、车等装备,其面临“设备多样化”“资源受限”“效能高约束”等问题[70],传统传感器、控制器及其上运行的软件如操作系统、协议栈多采用定制化技术实现,面向不同需求和不同厂商组件无法实现“便捷插拔”,极大增加了系统的集成难度,降低了运行效能,制约了智能化感-算-控一体化的实现。为此,需要设计面向服务的感控中间件技术,将不同资源抽象为服务,从接口、硬件、软件、网络等不同层次实现“高效能”“智能化”和“模块化”设计,使得感控资源在使用时满足高效能的同时具备敏捷部署能力。
1)制定感控资源“模块化”实现标准,从接口规范、交互协议等方面确定接入准则;
2)构建设备与网络抽象层,兼容各类传感器便捷插拔,同时,支持传统网络协议栈如TSN、TTE、CE等无感调用,满足不同网络传输需求;
3.5 全局联合规划技术
确定性传输网络通过将流量对延时、抖动等的实际需求作为约束条件,对数据包的传输路由、优先级、整形参数等进行全局规划,实现区分服务以提供逐流的服务质量保障。算控网络中大量光电、雷达等多源高通量传感器和高算力终端的集成使其相对于传统的工业实时网络呈现更复杂的网络流量传输特征,需要在设备、算法、管理架构等层面进行联合规划调度,主要表现为:
1)当前有关实时网络的研究主要集中在网络交换设备中的确定性保障方面,较少考虑端系统的确定性。而在实际的网络环境中,端节点由操作系统调度、协议栈、计算任务执行时长等引入的抖动可能远大于交换网络[73-74]。因此,算控网络中需要联合端-网进行规划,形成完整的端到端的延时视图模型。
2)算控网络中的流量对带宽、延时、抖动的保障差异较大,算控网络通过联合多种调度机制,比如时间感知整形[75]、异步流量整形[76]、基于信用的整形[77]等满足周期性流量、突发流量等不同的流量类型的服务质量需求。因此,算控网络规划需要兼容支持多种调度机制,形成多调度策略联合规划调度模型,提供离线规划和实时路由规划能力,分别为高端装备网络提供基础的运行保障和更加高效、灵活的适用性支持。因此,一方面需要实时监控算力资源、网络状况等状态,及时根据应用需求智能调整调度参数;另一方面,由于实时调度的复杂性,需要适当简化规划模型和精度,以实现规划计算时间、规模、可满足性之间的平衡。
3)现有流量规划调度多采用集中式的调度架构[78],由中心规划节点对全网流量进行统一的管理、规划和调度。由于中心规划节点在汇聚带宽、算力资源、通信延时等的限制,对网络实时管理带来较大的性能影响。因此,针对局域流量需求和算力分布状态,算控网络需要支持分布式规划策略以提升规划和调度效率。
3.6 数据流驱动的轻量化智能防御技术
高端装备网络攻击行为多表现为信息域和物理域的深度耦合[55],涉及对象多。高端装备系统资源受限及实时高通量计算特点对防御方法的效能提出了约束。传统的智能安全防御技术多采用集中部署模式,面对高通量数据流分析“不计资源成本”,在时效性上对数据随流采集的时间延迟不敏感,在分析目标上仅关注信息领域数据流导致无法有效防御信息物理融合攻击,即不适用于高端装备。为此,研究数据流驱动的轻量化智能防御技术,从时效性、精准性和轻量化等方面优化数据流转路径的智能防御策略,对于解决高通量异构数据实时计算场景下的高端装备安全防御问题是至关重要的。
1)构建以数据流为中心的多层级协同防御链,融合不同对象的计算能力,基于数据流转路径,设计动态分布式协同防御方法并形成多层级协同防护能力,解决复杂防御机制资源受限下的部署难问题,同时提升防御时效性;
2)研究防御服务智能编排方法[79],构建智能编排引擎,生成防御响应剧本,支持不同防御服务的动态调度及协同联动响应,为防御服务链的轻量化部署及动态演化提供智能控制支撑;
4)优化智能模型算法,设计面向嵌入式的轻量化深度神经网络计算模型[83],解决高通量实时数据流分析的时效性和资源开销问题。
4 关键技术验证与测试
面向高端装备智能化无人化迫切需求,国防科技大学网络芯片与系统团队对算控网络展开研究,在部分关键技术上取得了突破,并开展了验证与测试。
4.1 算控网络链路层增强技术
在网络终端节点方面,突破网络I/O技术优化数据传输通路,采用寄存器I/O访问技术[62],将完整报文数据从网卡直接传送到CPU内部的扩展寄存器中,使数据直达智能计算单元,消除内部寄存器和外部存储器之间移动数据的时间开销,将网络I/O延迟和抖动分别降低至少60%和 30%,成功实现微秒级网络I/O处理。
在网络交换方面,由于采用基于专通双缓存的高阶瓦片交换结构,实验表明,平均交换延迟可降低23.7%[61],其中,64 B报文最大转发延时仅为0.89 μs。控制流小报文延迟相对国外同类或类似网络芯片降低超13.2%。能效比方面,团队自研的敏捷交换芯片与主流商用以太网交换芯片相比,能效比可达20 Gb/(s·W)量级,相较于国内同级商用网络芯片能效比提升3倍以上(27.5 Gb/(s·W)与7.5 Gb/(s·W))[84]。
4.2 面向传感控制器的轻量化RDMA技术
针对传感控制器轻量化接入需求,团队自研轻量化RDMA IP,并面向光电传感器展开集成和原型测试,如图2所示,实现典型无人驾驶场景的车流智能识别功能[85],其中传感端主要由自主研发的网络边缘智能处理芯片银河衡芯 DP4C[86]和VCU118开发板组成。VCU118开发板部署自研嵌入式RDMA IP,并通过100 Gb/s光纤经由交换与计算端通信。DP4C用于部署嵌入式RDMA软件,提供加载、运行和暂停的程序控制接口;计算端使用VCU118开发板作为网卡,VCU118开发板部署嵌入式RDMA IP,连接华为80核服务器和华为Atlas 300I Pro[87]推理卡。计算端运行标准RDMA用户态和内核态驱动程序,并完成与传感端的建链交互和采集启停控制。
图2轻量化RDMA验证平台
Fig.2Lightweight RDMA verification platform
通过使用Perftest[88]性能测试工具,在延迟方面,在系统时钟频率为250 MHz的配置下,当采用队列对(queue pair,QP)数量为1、最大传输单元(maximum transmission unit,MTU)设置为2 048 B、消息大小约为256 B时,过一级交换,经对Read、Write、Send三种模式多次测试(结果如图3所示),端到端传输延迟最低仅为4.58 μs。
带宽随QP数量、MTU尺寸及消息大小的增加而显著提升。在系统时钟频率为250 MHz的条件下,当QP数量为30、MTU设置为4 096 B、消息大小约为1 MB时,最大单向吞吐量可达98.04 Gb/s。
4.3 小结
上述测试证明通过面向领域深度优化定制,算控网络能够进一步提升网络效能、延迟等核心关键指标,满足高端装备高效计算与实时控制的严苛需求。值得注意的是,其中部分关键技术已应用于多款网络芯片[47-50],并在星、机、舰、车等多平台开展了应用部署。
图3不同传输模式的延迟测试结果
Fig.3Delay test results of different transmission modes
5 总结与展望
智能化无人化高端装备作为新兴的跨学科领域,是国家重大需求和重大战略发展方向之一。面向高端装备信息感知、交互及利用,本文提出应从系统架构、协议设计、关键技术等多方面开展领域定制的智简化算控网络设计研究。从初步探索实践看,算控网络架构层次合理,关键技术路线可行。但形成一整套高效、实时、灵活、安全的算控网络架构及机制,需要在基础机理、关键算法机制以及应用适配支撑等方面开展大量研发和工程化工作。在此基础上,算控网络将作为构建智能化无人化高端装备体系和创新生态的重要基底技术,助力我国在高端装备研制领域获得领先优势。




