面向军事物联网任务低时延需求的网内协同计算方法

doi:10.11887/j.cn.202501014

doi: 10.11887/j.cn.202501014

任继军¹ ，李瑞彪¹ ，马步云² ，任智源²

1. 西安邮电大学通信与信息工程学院, 陕西西安 710121

2. 西安电子科技大学综合业务网理论及关键技术国家重点实验室, 陕西西安 710071

基金项目: 陕西省重点研发计划资助项目（2021GY-100）

详细信息

作者简介

任继军（1980—），男，陕西咸阳人，高级工程师，博士，硕士生导师，E-mail: renjijun@xupt.edu.cn

通讯作者

任智源（1983—），男，山东德州人，教授，博士，硕士生导师，E-mail: zyren@xidian.edu.cn

中图分类号: TN925+.1

文献标识码: A

文章编号: 1001-2486(2025)01-147-11

In-network collaborative computing method for low-latency demand of military IoT tasks

REN Jijun¹ ， LI Ruibiao¹ ， MA Buyun² ， REN Zhiyuan²

1. School of Communications and Information Engineering, Xi′an University of Posts and Telecommunications, Xi′an 710121 , China

2. State Key Laboratory of Integrated Services Networks, Xidian University, Xi′an 710071 , China

摘要

为了解决军事物联网中传感数据在往返服务器应用层时的高通信时延消耗问题，提出一种面向低时延任务需求的多设备网内协同计算方法。该方法依托以P4交换机为核心的网络架构展开研究，采用基于P4程序的数据面编程策略来完成交换机内的数据包处理。设计了一种任务映射策略，将任务集映射至交换机网络拓扑，实现任务在网络拓扑路径上边传输边计算的协同作业模式。之后构建时延优化模型以找到最佳映射结果，并通过异构最早完成时间算法进一步对任务进行了最佳调度。实验结果表明，当单个数据包的数据大小为1000 Byte时，该方法的输出时延与本地服务和云服务相比分别降低约54.2%和72.1%。因此，所提出的方法有效降低了时延，为满足任务的低时延需求提供了切实可行的解决方案。

关键词

军事物联网 / 协同计算 / P4交换机 / 任务映射

Abstract

To solve the problem of high-communication latency consumption when sensor data during the round trip to the server application layer in the military IoT(Internet of Things), an in-network collaborative computing method for multiple devices with low-latency task demands was proposed. This method relied on a network architecture with P4 switches as the core and employed a data-plane programming strategy based on the P4 program to complete the packet processing within the switch. A task mapping strategy was designed to map the task set to a switch network topology, thus realizing a collaborative operation mode in which tasks were computed while being transferred on the network topology path. After that, a latency optimization model was built to find the best mapping result, and the task was further optimally scheduled through the heterogeneous earliest finish time algorithm. Experimental results show that when the data size of a single packet is 1000 Byte, the output latency of this method is reduced by about 54.2% and 72.1% compared with the local service and cloud service, respectively. Therefore, the proposed method effectively reduces latency, offering a practical solution to meet the low-latency demands of tasks.

Keywords

military IoT / collaborative computing / P4 switches / task mapping

1 网络架构模型 2 基于P4的数据面编程策略 2.1 P4交换机 2.2 P4程序 2.3 任务的逻辑处理流程 2.4 基于P4的开发流程 3 任务映射策略 3.1 DAG表示的IoT任务 3.2 UG表示的P4网络拓扑 3.3 DAG至UG的映射规则 4 时延优化模型 5 HEFT算法 6 仿真测试 6.1 准备工作 6.2 仿真结果分析 6.2.1 三种计算范式的时延比较 6.2.2 任务分支的数据包重塑数目对时延的影响 6.2.3 P4网络的边连通度对时延的影响 6.2.4 不同算法的时延比较 7 结论

近年来，无线传感器网络的迅速发展，推动物联网（Internet of Things，IoT）技术在医疗、交通、电网及军事等重要领域的应用^[1]。海量轻量级设备的分布特性为任务的远程现场监测和控制带来极大的便利^[2]。在军事方面，各类作战设备通过传感系统与信息网络连接，建立军事物联网。通过获取武器装备、作战个体和战场环境的状态要素和特征数据，实现战场感知透明化、武器装备智能化、后勤保障灵敏化。传统的作战模式演变为信息化作战，高速度、高精度、高强度成为战争化常态。为满足信息化作战要求，21世纪出现了许多对时延要求较高的军事物联网任务，如目标定位打击、军事健康监测、可穿戴设备计算等，以实施全程透明化指挥，提高作战决策效率，保障作战人员生命安全^[3-5]。目前，大规模物联网设备投放战场，使任务情报的获取、处理和传输过程易于实现，但大量数据的实时处理给通信网络造成巨大压力。一些学者曾提出将任务卸载到本地或云端服务器，通过对传感数据的高性能处理来减少任务延迟^[6]。然而，尽管单个服务器集群的计算性能优越，但远离传感网络和作战单元将导致高的传输延迟。在高动态战场环境中，传感器频繁采集数据并更新参数，服务器间歇性接收处理数据包。一旦网络拥塞或传输延迟过大，服务器无法及时获取数据，可能导致指挥中心错误决策。同时，长距离链路受物理破坏或攻击威胁，影响任务包传输的可靠性。因此，需要解决任务包高效、低时延的传输问题，以提升军事行动灵活性和决策能力。

目前，网内计算技术^[7-11]兴起，支持任务在网络设备间的路径上传递，以渐近方式高效地完成计算。值得关注的是，软件定义网络（software defined networking，SDN）的概念被提出，网络运营商自定义数据包处理行为，使得网络设备从垂直集成模型转变为可编程平台，即增强了网络行为的扩展能力^[12-13]。其中P4交换机作为更便捷的网络计算元素，主要表现为低延迟、低功耗及高吞吐量，且具有分布范围广、部署成本低的特点。这表明任务可随时随地卸载到设备，设备可以接收分散的情报数据。因此，引入了基于可编程P4的数据面编程策略^[14-18]，以数据包拆包、处理、封包、传输的方式，在靠近数据源的网络层优先完成包计算包转发任务，与上传至服务器相比，缩短了任务包的接收和反馈时间。当前以P4承载计算的场景，如带内网络遥测^[19]、卫星通信^[20]、网内数据聚合^[21]及多媒体网络^[22]等被业界广泛研究，而在P4与包计算包转发任务融合上，尚未出现公开发表的技术或论文。

因此，为了避免军事包计算任务往返服务器应用层的时延消耗，本文将网内计算技术与可编程P4交换机结合，提出同区域交换机协同工作的网内计算方法。结合图映射原理将任务集映射至交换机网络，得到一组计算节点组合，继而可分步骤协作完成任务的包计算和转发。其中采用有向无环图（directed acyclic graph，DAG）表示分割后的任务集，无向图（undirected graph，UG）表示交换机网络拓扑。同时，进一步利用异构最早完成时间（heterogeneous earliest finish time，HEFT）算法的特性，在“边计算边传输”的过程中最大限度地使用计算和通信资源，从而显著提升所提网内协同计算方法的优势。

1 网络架构模型

本节构建一种如图1所示的网络架构。该架构由4部分组成，分别为物联网云平台、P4处理层、感知层和指挥系统。在任务执行过程中：云平台将任务卸载至P4处理层，P4交换机负责情报数据的采集、处理和传输，最终反馈指挥系统执行动作，达到打击目标或更新信息的目的。

图1基于可编程 P4 的网络架构

Fig.1Network architecture based on programmable P4

1）物联网云平台：作为控制终端，其功能主要有两方面。一是对接指挥员，允许指挥员向平台下达满足自身需求的作战任务；二是实时获取处理层的网络拓扑信息和节点状态，通过平台上部署的任务映射策略将包计算任务委托给处理层。

2）P4处理层：该部分由分布在作战要素附近的交换机组成，负责监控并接收感知层数据，同时为任务映射提供逻辑计算支持。出口交换机通过接收指挥系统反馈的数据，提供控制命令。

3）感知层：通过网络型传感器现场检测和收集数据，将数据序列化为固定格式的数据包流，上传至P4网络处理。每个传感器节点的IP数据包（pkt）包含路由信息和特定数据包类型，确保数据与指定交换机绑定。

4）指挥系统：当收到包指令时，控制作战单元发起定位、打击、管理和侦察预警等军事行动。

2 基于P4的数据面编程策略

在任务映射前，本节重点对交换机内部的工作原理、任务的逻辑处理流程，以及基于P4的整体开发流程等依次展开研究。

2.1 P4交换机

对于P4交换机而言，其工作原理可使用其抽象转发模型来描述，主要包含解析器、逆解析器、匹配动作表和元数据总线，如图2所示。

图2基于 P4 的抽象转发模型

Fig.2Abstract forwarding model based on P4

图2中，交换机内部组件之间形成一条分组流水线，这决定了数据包处理行为与组件的排列顺序有关，即依次进行了数据包的解析、多级流水线以及重组等操作。

数据包载入交换机端口后，首先通过解析器拦截，利用解析图将包头与载荷分开。与载荷不同，包头中定义了许多不同类型的数据，这些数据被提取出来并参与后续匹配。此外，程序员可以根据所需的任务数据，灵活定义包头结构和解析流程。解析完成后会经过多级流水线处理。多级流水线是多级匹配动作表在控制流（排队、复制以及调度）基础上的逻辑连接，记录数据在表之间的状态变化，需通过控制平面来驱动。匹配动作表包含关键字、动作和操作数据，匹配时触发动作，修改头部数据。当这一阶段完成后，逆解析器重新组装数据包，以便在逆解析阶段传输。

2.2 P4程序

分组流水线使用P4语言进行交换机硬件实现，旨在将P4程序定义的抽象结构映射到设备的物理体系结构，以驱动其运行。主要有5个基本程序，即头部声明、匹配动作表、控制流、解析和逆解析。

1）头部声明数据源地址、目的地址、版本、协议以及服务类型等信息，同时定义了包头格式。其中头部的部分字段是匹配动作表的匹配字段，用来触发动作的响应。

2）匹配动作表又称查找表，被程序员定义为关键字与动作的多组合匹配形式。针对某一操作的处理过程定义在动作内部，且多个关键字的连续操作实现特定功能。

3）控制流是用于表示多个匹配动作表（顶点）之间依赖关系（边）的有向无环图，其依赖关系决定了数据包在不同表间的跳转路径，指示包头如何读/写、修改。

4）解析是在识别包头后提取相关字段。解析过程被抽象地表示为一个有限状态机，如果发生状态转换，解析器则改变解析数据包的方式。

5）逆解析需要两个输入数据源，分别为分组载荷和分组头部。将这两个输入源重构为一个数据包的过程为逆解析。

编写P4程序是在配置阶段，其目的是预先制定规则以定义数据平面行为。配置文件内容包括解析图、控制流程序、表配置和动作集。在运行阶段，数据平面会运行P4程序来处理数据包。

2.3 任务的逻辑处理流程

为进一步明确交换机如何基于分组流水线执行任务逻辑，图3给出以单个传感器、单个交换机以及指挥系统为主线的处理流程。其中，交换机的多级流水线（查表、动作和流控制）是任务处理的核心内容。

具体的处理流程为：当传感器发送原数据包data1时，交换机处理后生成现数据包data2，并在任务结束前转发至指挥端。现数据包的data2格式需与指挥端预命令格式一致，否则指令不生效。交换机需要根据查找表对包格式进行判断和重塑。交换机的查找表中定义了格式和任务数据字段；动作集中定义了格式判断（If）、生成（Generate）和具体任务执行（Ops）等动作，且分别被存储在不同的表当中。其中，If操作用来判断包格式是否满足一致要求；Generate负责将不满足要求的包格式重塑为新数据包格式；Ops中包含了具体的任务处理操作。

当交换机收到原数据包时，首先解析头部和载荷，匹配头部的格式字段与查找表中的格式字段，执行相应的If动作。若If条件不满足，继续匹配表中Generate字段并执行格式重塑；若条件满足，则匹配包头的其他字段与查找表中的任务数据字段，执行Ops操作。最后，经过逆解析后的现数据包被转发至指挥端或下一跳交换机。

图3基于单个P4的任务功能实现

Fig.3Implementation of task function based on a single P4

2.4 基于P4的开发流程

下面概括P4交换机完整的开发流程。

步骤1：根据P4标准，自定义相关的任务程序，包括数据帧解析、匹配动作表定义和包的流控制过程。特别地，任务处理行为被定义在匹配动作表中。

步骤2：编译P4程序，得到交换机的二进制配置文件和运行时API（交换机功能驱动）。

步骤3：将配置文件加载到对应交换机芯片Tofino，更新数据帧解析的状态和匹配动作表的内容。

步骤4：交换机接收外部数据包，对更新后的匹配动作表遍历并执行指令动作。同时，在流控制下增加、删除、修改、查询表项。

开发流程如图4所示，图中P4架构提供可供任务开发的相关组件以及接口。编译器负责将指定的程序配置映射到目标设备。配置策略有两种：一种是解析器配置，规定了包头的顺序；另一种是表配置，实现逻辑表映射到交换机管道中的内存^[23]。此外，交换机的控制平面允许表项通过表依赖图（一种定义逻辑表之间依赖关系的DAG）进行外联逻辑操作，该平面也可控制外部对象来执行附加功能。

图4P4的开发流程图

Fig.4Workflow diagram of P4

3 任务映射策略

虽然单个交换机可以线速处理数据包，但其有限的通信范围使其难以正常接收来自较远位置的传感数据。因此，本节采用任务映射策略，通过交换机集群计算的方式来解决该问题。

3.1 DAG表示的IoT任务

一般而言，一个完整的计算任务有多个相互独立的功能模块，每个模块相当于一个逻辑上完整的子任务。特别地，子任务之间的任务依赖约束，即前置和后置任务在时间上的执行优先级关系，可以用一个DAG来明确表示。

本小节将DAG驱动的军事监测任务抽象描述为G=（M，E），M和E分别被定义为子任务集合和关联子任务的有向边集合。其中M={w₁，w₂，···，w_s，w_s₊₁，···，w_l_-1，w_l|s≥1，l＞s+1}，w₁，w₂，···，w_s表征入口任务；w_s₊₁，···，w_l_-1表征中继任务，w_l表征出口（目标）任务。入口、中继、出口任务间相互独立，且每个子任务的处理逻辑不同于其他任务。此外，中继或目标任务的前向子任务集合表征为Φ_↑（w_i）={w_j|（w_j，w_i）∈E}。E中边的权重表示任务处理时延，边的方向表示数据包的转发方向。

3.2 UG表示的P4网络拓扑

由一组P4交换机组网生成的网络拓扑图可以用UG表示，即N=（V，K）。其中，V={v₁，v₂，···，v_s，v_s₊₁，···，v_t_-1，v_t|s≥1，t＞s+1}为所有P4处理节点集合，K为N的边集合。为便于DAG任务映射，将v₁，v₂，···，v_s作为起始处理节点，v_s₊₁，···，v_t_-1作为中继处理节点，v_t作为目标处理节点。节点间的边为无向边，允许双向转发数据包。

若图N为连通图，其点割集用S

\subseteq

V表示，其边割集用S′

\subseteq

K表示，其连通分支数用ω（N）表示。当移除图N中的最小点割集或最小边割集使其不连通时，移除的顶点或边的数量分别称为点连通度或边连通度，它们通常被用来衡量网络拓扑的抗毁性能。其中，点连通度用min{S|:S

\subseteq

V（N），ω（N-S）＞1}表示，边连通度用min{|S′|:S′

\subseteq

K（N），ω（N-S′）＞1}表示。

给定从v_i到v_j传输单位量数据的最低时延，即

d_{v_{i} v_{j}}

，并将

p_{v_{i} v_{j}}

称为基于

d_{v_{i} v_{j}}

获得的最短路径。因此，相应地得到最短路径集，即

P = \{p_{v_{i} v_{j}} ∣ v_{i} ， v_{j} \in V\}

。考虑节点间直接或间接连通，利用其边权重和节点依赖关系，再依托Dijkstra算法可得到

d_{v_{i} v_{j}}

和

p_{v_{i} v_{j}}

。此外，起始处理节点到目标处理节点的最长路径称为关键路径。

3.3 DAG至UG的映射规则

基于上述定义，在云平台部署一种以处理层交换机为目标设备的任务映射策略，包括节点映射和边映射规则。

定义1 任务节点映射，即军事任务在P4集群的部署策略。定义ζ:M→V，其中ζ表示任务部署节点集。旨在将入口任务w₁，w₂，···，w_s映射到P4的起始处理节点v₁，v₂，···，v_s；中继任务w_s₊₁，···，w_l_-1映射到中继处理节点v_s₊₁，···，v_t_-1；出口任务w_l映射到目标处理节点v_t。映射结果表示为

ζ (w_{i}) = \{\begin{matrix} v_{i}, i \in {1,2, \dots, s} \\ v_{t}, i = l \\ v_{j}, v_{j} \in V / \{v_{1}, v_{2}, \dots, v_{s}, v_{t}\} \end{matrix}

(1)

定义2 边映射，即DAG表示任务的有向边映射到UG的无向边。定义ψ:E→K，其中ψ表示边映射集合，满足如下关系：

ψ (w_{i}, w_{j}) = p_{ζ (w_{i}) ζ (w_{j})}

(2)

式中：ψ将E中的所有有向边映射到节点的最短路径。

下面给出简单的映射示例，如图5所示。图5中，在DAG任务至UG的映射基础上，考虑了UG 中映射节点对每个不同格式数据包的处理操作，如If、Generate、Ops等动作，同时包的转发路径与任务流的方向一致，以确保任务处理的准确性。

图5DAG至UG映射示例

Fig.5Example of DAG to UG mapping

4 时延优化模型

由于不合理任务映射而带来的波动延迟需要优化，本节将构建一个以时延为优化目标的数学模型。在任务处理期间，某个P4节点执行到下一个节点或目标处理节点的总时延是其最短路径上的最大时间跨度，具体包含了处理时延、累积时延。其时延模型表示为

T_{sum} (w_{i}) = T_{proc} (w_{i}) + T_{accu} (w_{i})

(3)

式中：处理时延T_proc（w_i）是设备处理任务w_i时所消耗的时间，表示为

T_{proc} (w_{i}) = \frac{D_{w_{i}} α}{C_{ζ (w_{i})}}

(4)

其中

D_{w_{i}}

为处理的数据包大小，α为任务的逻辑复杂度，

C_{ζ (w_{i})}

为设备的处理能力。

累积时延T_accu（w_i）表示子任务在当前节点开始处理前所消耗的时间，具体为前向子任务的总时延、传输时延、队列时延之和，表示为

T_{accu} (w_{i}) = \underset{w_{j} \in Φ_{↑} (w_{i})}{m a x} \{T_{sum} (w_{j}) + T_{trans} (w_{i}) + T_{que} (w_{i})\}

(5)

式中：T_trans（w_i）表示传输时延，可表示为

T_{trans} (w_{i}) = d_{ζ (w_{j}) ζ (w_{i})} \times D_{w_{j} w_{i}}

(6)

其中

d_{ζ (w_{j}) ζ (w_{i})}

表示两映射节点间传输单位数据量的最小延迟，

D_{w_{j} w_{i}}

表示当前传输数据包的数据量大小；队列时延T_que（w_i）指数据包在传送前在队列中等待的时间，可表示为

T_{que} (w_{i}) = \frac{L \times I_{que}}{B}

(7)

其中L为数据包长度，I_que为队列平均长度，B为传输速率。由于多个设备协同作业时的通信距离较短，因此传输时延的影响可忽略不计。

通过上述时延模型可知，目标处理节点的输出时延即为任务图G所消耗的总时延，可表示为

T_{sum} (G) = T_{sum} (w_{l})

(8)

考虑DAG至 UG映射结果的随机因素，定义映射矩阵来统一表示所有的映射关系，映射矩阵表示为

X = [\begin{matrix} x_{w_{1} v_{1}} & \dots & x_{w_{1} v_{s}} & \dots & x_{w_{1} v_{t}} \\ x_{w_{2} v_{1}} & \dots & x_{w_{2} v_{s}} & \dots & x_{w_{2} v_{t}} \\ ⋮ & ⋮ & ⋮ \\ x_{w_{l} v_{1}} & \dots & x_{w_{l} v_{s}} & \dots & x_{w_{l} v_{t}} \end{matrix}]

(9)

式中：

x_{w_{p} v_{q}} \in X

表征全部子任务与P4节点的映射结果，若其值为1，则该子任务w_p被部署到P4处理层的v_q节点；若其值为0，则子任务w_p未被部署到v_q节点，即

x_{w_{p} v_{q}} \in {0,1}, \forall w_{p} \in M, \forall v_{q} \in V

(10)

结合映射原理，时延模型的表示形式更新为

\begin{matrix} T_{sum} (w_{i}) = \underset{w_{j} \in ζ (w_{i})}{m a x} \{T_{sum} (w_{j}) + \sum_{v_{p}, v_{q} \in V} d_{v_{i} v_{j}} D_{w_{j} w_{i}} x_{w_{j} q_{q}} x_{w_{i} v_{p}}\} + \\ \sum_{v_{p} \in V} \frac{D_{w_{i}} α}{C_{v_{p}}} x_{w_{i} v_{p}} \end{matrix}

(11)

因此，T_sum（G）可表示为X的函数，即

T_{sum} (G) = F (X)

(12)

综上所述，为了从映射矩阵中找到最佳的映射结果，建立如下时延优化模型：

\{\begin{matrix} X = \underset{x_{w_{p} v_{q}} \in X}{\arg m i n} (F (X)) \\ s . t . \{\begin{matrix} x_{w_{p} v_{q}} \in {0,1}, \forall w_{p} \in M, \forall v_{q} \in V \\ \sum_{v_{q} \in V} x_{w_{p} v_{q}} = 1, \forall w_{p} \in M \\ x_{w_{p} v_{q}} = 1, p = q, \forall p \in [1, s] \\ x_{w_{p} v_{q}} = 1, w_{p} = w_{l}, v_{q} = v_{t} \\ x_{w_{p} v_{q}} = 0, q \in [1, s], \forall p \in [s + 1, l - 1] \\ x_{w_{p} v_{q}} = 0, v_{q} = v_{t}, \forall p \in [s + 1, l - 1] \\ T_{sum} (w_{p}) = 0, \forall p \in [1, s] \end{matrix} \end{matrix}

(13)

5 HEFT算法

在映射优化的基础上，为了进一步完成优化目标，本节采用一种基于HEFT的表调度算法^[24]。该算法适用于解决多设备协同工作场景中具有任务依赖性约束和低复杂度的DAG多任务调度问题，能够预先评估所有设备处理数据包和通信的能力，在满足整个任务依赖的同时，将每个任务映射到计算和通信资源集中的路径设备上，从而减少连续任务的总完成时间。其设计思想分为两个阶段：同级任务的优先级排序和任务的调度。

在任务排序阶段，需要参考的两个指标分别由式（14）和式（15）得到。

\bar{e_{i}} = \frac{1}{m} \sum_{j = 1}^{m} e_{i, j}

(14)

式中，

\bar{e_{i}}

表示任务w_i的平均处理时间，m为设备总数，e_i_，_j为在设备v_j上运行任务w_i的时间。

\bar{c_{i, j}} = \bar{h} + D_{w_{i} w_{j}} / \bar{B}

(15)

式中，

\bar{c_{i ， j}}

表示子任务w_i执行到w_j时数据包传输所花费的平均通信成本，

\bar{h}

为设备的平均启动时间，

\bar{B}

为设备间的平均传输速率。

任务的排序值可通过下式得到：

r (w_{i}) = \bar{e_{i}} + \underset{w_{j} \in s (w_{i})}{m a x} \{\bar{c_{i, j}} + r (w_{j})\}

(16)

式中：r（w_i）表示子任务w_i与出口任务间的关键路径长度，其中具有高排序值的任务优先被调度；s（w_i）表示子任务w_i的一组直接后继子任务。对于出口任务而言，其排名值可以表示为

r (w_{exit}) = \bar{e_{exit}}

(17)

在任务调度阶段，通过映射优化模型（13）和式（11），得到任务w_i在每个设备执行时的最早完成时间e_ft，并选择最小e_ft所对应的设备进行任务调度。HEFT算法步骤如算法1所示。

算法1 HEFT算法

Alg.1 HEFT algorithm

6 仿真测试

本次仿真在基于Python的软件平台上进行模拟，旨在验证网内协同计算方法的可行性。测试平台配置为i5-7200U CPU和8 GByte内存。首先，评估了网内协同计算、本地计算和云计算三种计算范式在包计算与转发任务中的时延表现。然后，分析了包格式重塑和网络拓扑边连通度对时延的影响。最后，为展示HEFT任务调度算法的性能优势，比较了HEFT与其他调度算法在任务完成时间上的差异。

6.1 准备工作

实际应用场景中，不同作战任务内部的逻辑处理方式多样化。为不失一般性，对照真实的任务范例，设计了3种具有不同依赖关系的DAG任务模型，如图6所示。

图6用于仿真的任务模型

Fig.6Task model for simulation

同时，为符合作战场景中交换机随机分布的特点，利用Python平台产生如图7所示的4种不规则网络拓扑（按照设备的边连通度划分），指代10个组网的5交换机代理节点。每个节点上标记了与其关联的边的条数。由3.2节中边连通度的定义可知，网络拓扑Ⅰ、Ⅱ、Ⅲ、Ⅳ的边连通度依次为 4、3、2、1。

此外，测试所用参数参照文献^[25-26]进行设置，如链路传输速率和设备处理能力等参数基本满足交换机在4G（10~100 Mbit/s）网络下工作的实际需求，但没有考虑传输过程中丢包后重传的时延消耗。实验参数的具体设置如表1所示。

图7用于仿真的P4网络拓扑

Fig.7P4 network topology for simulation

表1仿真参数

Tab.1 Simulation parameters

6.2 仿真结果分析

6.2.1 三种计算范式的时延比较

本小节采用图6的任务模型2和图7的网络拓扑结构Ⅱ，对基于HEFT算法的P4网内协同计算、本地计算和云计算的时延进行评估。设置每个P4节点接收数据包大小相同，测试结果如图8所示。

图8的结果表明，相同负载下，网内协同计算的延迟最小，且链路时延的降低幅度最大。以包负载为1 000 Byte为例，网内协同计算的链路时延分别比本地计算和云计算降低约28.27 ms和69.91 ms。当负载较小时，由于本地计算和云计算具备更强的计算能力，能够在一定程度上弥补较长传输距离带来的时延劣势。但随着包负载的增大，这些计算模式的计算优势逐渐减弱，传输时延逐步增加。相比之下，网内协同计算的时延变化较为平稳，当包负载从200 Byte增加到1 000 Byte时，链路时延仅增加了3.27 ms。因此，提出的网内协同计算方法有效降低了包转发过程中的传输时延，更加适应军事任务对低时延的苛刻需求。

图8三种计算范式的时延比较

Fig.8Comparison of the latency of three computing paradigms

6.2.2 任务分支的数据包重塑数目对时延的影响

本小节使用图6中任务模型3和图7中的网络拓扑结构Ⅱ，研究任务分支中最大包重塑数量与本文方法性能之间的关系。假设每个节点负责单一数据包，发生包重塑的总数为3。以“{分支最大重塑数，{重塑任务编号}}”的形式设计a、b、c、d、e、f、g、h共8种方案，分别为{1，{2，3，4}}、{2，{1，2，3}}、{2，{1，3，4}}、{2，{2，3，5}}、{2，{3，4，5}}、{3，{1，2，5}}、{3，{1，3，5}}、{3，{1，4，5}}，设置数据包大小范围在[200 Byte，1 000 Byte]，单个数据包的重塑时间在[0.2 ms，1 ms]。测试结果如图9所示，箱线图记录了每个方案的最小值、中间值以及最大值。

图98种重塑方案对时延的影响

Fig.9Impact of eight reshaping schemes on latency

通常情况下，包格式重塑会滞后任务的完成时间。本小节的目的是在包重塑数量已知的情况下，将此类数据包安排到合理的执行任务节点（具有多种功能的节点）以减少额外延迟。图9的结果显示，当3个格式重塑操作都发生在任务执行过程的同一条分支路径上，即分支最大重塑数为3时，任务时延的最小值、中间值、最大值均较大，如方案f、g、h。相反地，分支上的最大重塑操作越少，时间越短，如方案a所需时间最短。主要原因是网内协同计算的任务时延实际上是分支路径的最大时间跨度，当包重塑操作在一条路径上累积时，最大时间跨度明显增加。考虑到这种情况，将数据包重塑任务合理地调度到不同的路径分支，可以有效地降低时延。

6.2.3 P4网络的边连通度对时延的影响

本小节应用任务模型2，进一步研究4种网络拓扑边连通度对本文网内协同计算时延的影响。

图10给出了网络拓扑的边连通度对时延的影响，其结果表明，网络拓扑的边连通度越高，则网内协同计算时延越低，如数据包大小为1 000 Byte时，在拓扑Ⅰ下的时延比拓扑Ⅳ降低约38%。其原因是边连通度会显著影响端到端的最小通信时延，导致 Dijkstra算法得到的最短路径随边连通度的改变而发生变化。与拓扑Ⅱ、拓扑Ⅲ和拓扑Ⅳ相比，在拓扑Ⅰ中，起点到达终点的备选路线更多，因此应用拓扑I得到的最短路径最小。从而得出结论，在边连通度高的P4网络环境中，网内协同计算的时延开销较低。

图10网络拓扑的边连通度对时延的影响

Fig.10Impact of edge connectivity of network topology on latency

6.2.4 不同算法的时延比较

为了证明HEFT任务调度算法的适应性，从两方面进行了时延评估：一是处理的数据包大小，二是不同的任务类型。其他调度算法，如加权循环（weighted round robin，WRR）算法、贪婪负载均衡（greedy load balancing，Greedy-LB）算法、Pick-KX负载均衡算法等被作为HEFT算法的比较对象。采用网络拓扑结构Ⅲ进行仿真，结果如图11所示。其中图11（a）是采用任务模型2所得结果。

图11不同算法的时延对比

Fig.11Comparison of latency of different algorithms

图11（a）的结果表明，无论数据包多大，HEFT算法的时延始终要低于其他3种调度算法。如包大小为1 200 Byte时，HEFT算法的延迟性能比Greedy-LB算法、WRR算法和Pick-KX算法分别改善25.6%、47.9%和54.3%。同时，为了证明HEFT算法针对不同任务模型均适用，在图11（b）中给出对应仿真结果，可以看出，4种算法应用到3种任务模型（子任务数量相同）下的时延有一定差距，其中任务模型3的时延最低，任务模型1的时延最高。该结果由关键路径上的子任务数量所导致：与任务模型1和任务模型2相比，任务模型3在该路径下的子任务数量最少，因此所消耗的时间最短。此外，无论采用何种任务模型，HEFT算法相对于其他算法均具有更低的延迟。主要原因是Pick-KX算法将子任务调度至节点时，未考虑设备的包转发能力；而WRR算法和Greedy-LB算法尽管在该问题上有所提升，但却忽略了设备网络链路的通信开销问题。与其相反，HEFT算法以设备的计算和通信开销为优化指标，综合提高了资源的利用率，从而弥补了上述缺陷。

7 结论

在军事物联网中，包计算转发任务在往返服务器处理过程中存在着明显的缺陷，即无法有效解决从网络层到应用层的数据包传输时延开销问题。为此，本文提出了一种低时延的网内协同计算方法。文章前部分详细介绍了P4交换机及其实现包计算的过程；后半部分重点介绍了任务映射、时延优化建模，以及通过HEFT算法对本文方法进行优化。通过Python仿真测试的结果表明，与本地和云服务相比，该方法可保持在更短时间内完成任务。然后，进一步研究和讨论了如何合理地调度重塑数据包到指定执行节点、如何设置网络拓扑的边连通度等来提高该方法的效率。此外，也验证了所提算法比其他算法更显著地降低了任务时延。为进一步证明所提计算方法处理任务时的低时延特性，将在后续的相关工作中使用P4专用模拟器（BMv2）对其进行研究。

图1基于可编程 P4 的网络架构

Fig.1Network architecture based on programmable P4

下载: 全尺寸图片

图2基于 P4 的抽象转发模型

Fig.2Abstract forwarding model based on P4

下载: 全尺寸图片

图3基于单个P4的任务功能实现

Fig.3Implementation of task function based on a single P4

下载: 全尺寸图片

图4P4的开发流程图

Fig.4Workflow diagram of P4

下载: 全尺寸图片

图5DAG至UG映射示例

Fig.5Example of DAG to UG mapping

下载: 全尺寸图片

图6用于仿真的任务模型

Fig.6Task model for simulation

下载: 全尺寸图片

图7用于仿真的P4网络拓扑

Fig.7P4 network topology for simulation

下载: 全尺寸图片

图8三种计算范式的时延比较

Fig.8Comparison of the latency of three computing paradigms

下载: 全尺寸图片

图98种重塑方案对时延的影响

Fig.9Impact of eight reshaping schemes on latency

下载: 全尺寸图片

图10网络拓扑的边连通度对时延的影响

Fig.10Impact of edge connectivity of network topology on latency

下载: 全尺寸图片

图11不同算法的时延对比

Fig.11Comparison of latency of different algorithms

下载: 全尺寸图片

表1仿真参数

下载: 全尺寸图片

图1基于可编程 P4 的网络架构

Fig.1Network architecture based on programmable P4

图2基于 P4 的抽象转发模型

Fig.2Abstract forwarding model based on P4

图3基于单个P4的任务功能实现

Fig.3Implementation of task function based on a single P4

图4P4的开发流程图

Fig.4Workflow diagram of P4

图5DAG至UG映射示例

Fig.5Example of DAG to UG mapping

图6用于仿真的任务模型

Fig.6Task model for simulation

图7用于仿真的P4网络拓扑

Fig.7P4 network topology for simulation

图8三种计算范式的时延比较

Fig.8Comparison of the latency of three computing paradigms

图98种重塑方案对时延的影响

Fig.9Impact of eight reshaping schemes on latency

图10网络拓扑的边连通度对时延的影响

Fig.10Impact of edge connectivity of network topology on latency

图11不同算法的时延对比

Fig.11Comparison of latency of different algorithms

表1仿真参数

引用提醒

图(11) / 表(1)

引用本文

任继军，李瑞彪，马步云, 等. 面向军事物联网任务低时延需求的网内协同计算方法[J]. 国防科技大学学报, 2025, 47(1): 147-157.

复制

REN J J, LI R B, MA B Y, et al. In-network collaborative computing method for low-latency demand of military IoT tasks[J].Journal of National University of Defense Technology, 2025, 47(1): 147-157.

Copy

计量

图1基于可编程 P4 的网络架构

Fig.1Network architecture based on programmable P4

图2基于 P4 的抽象转发模型

Fig.2Abstract forwarding model based on P4

图3基于单个P4的任务功能实现

Fig.3Implementation of task function based on a single P4

图4P4的开发流程图

Fig.4Workflow diagram of P4

图5DAG至UG映射示例

Fig.5Example of DAG to UG mapping

图6用于仿真的任务模型

Fig.6Task model for simulation

图7用于仿真的P4网络拓扑

Fig.7P4 network topology for simulation

图8三种计算范式的时延比较

Fig.8Comparison of the latency of three computing paradigms

图98种重塑方案对时延的影响

Fig.9Impact of eight reshaping schemes on latency

图10网络拓扑的边连通度对时延的影响

Fig.10Impact of edge connectivity of network topology on latency

图11不同算法的时延对比

Fig.11Comparison of latency of different algorithms

表1仿真参数

蒋永彬.2G/3G转网关键技术分析与物联网业务发展建议[J]. 通信世界,2022(1):34-37. JIANG Y B. Analysis of key technologies for 2G/3G migration and suggestions for IoT business development[J]. Communications World,2022(1):34-37.(in Chinese)

GAI R L, DU X Y, MA S Y,et al. A summary of 5G applications and prospects of 5G in the Internet of Things[C]//Proceedings of the IEEE 2nd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering(ICBAIE),2021:858-863.

BHOMBLE B, KATKAR S, DHERE D,et al. IoT based smart sniper[C]//Proceedings of the International Conference on I-SMAC(IoT in Social, Mobile, Analytics and Cloud),2017:557-561.

REYES CH R P, VACA H P, CALDERÓN M P,et al. MilNova:an approach to the IoT solution based on model-driven engineering for the military health monitoring[C]//Proceedings of the CHILEAN Conference on Electrical, Electronics Engineering, Information and Communication Technologies(CHILECON),2017:1-5.

任智源, 肖尧, 郭凯, 等. 适应低时延业务需求的分布式可穿戴单兵作战信息系统[J]. 国防科技大学学报,2018,40(4):159-165. REN Z Y, XIAO Y, GUO K,et al. Distributed wearable individual soldier combat information system for low-latency business[J]. Journal of National University of Defense Technology,2018,40(4):159-165.(in Chinese)

CHEN Z G, ZHAN Z H, LIN Y,et al. Multiobjective cloud workflow scheduling:a multiple populations ant colony system approach[J]. IEEE Transactions on Cybernetics,2019,49(8):2912-2926.

李瑞彪, 任继军, 任智源. 面向车联网低时延需求的分布式路径计算方案[J]. 西安交通大学学报,2022,56(10):91-100. LI R B, REN J J, REN Z Y. Distributed path computing scheme for low-latency demand of Internet of vehicles[J]. Journal of Xi′an Jiaotong University,2022,56(10):91-100.(in Chinese)

AHMED M, MUMTAZ R, ZAIDI S M H,et al. Distributed fog computing for Internet of Things(IoT)based ambient data processing and analysis[J]. Electronics,2020,9(11):1756.

张夏童, 任智源, 胡锦涛, 等. 面向医疗大数据任务低时延需求的路径计算方案[J]. 西安交通大学学报,2020,54(2):119-126. ZHANG X T, REN Z Y, HU J T,et al. A path computing scheme for low-latency requirement of medical big data task[J]. Journal of Xi′an Jiaotong University,2020,54(2):119-126.(in Chinese)

WU H Z, SHEN Y B, XIAO X,et al. Accelerating industrial IoT acoustic data separation with in-network computing[J]. IEEE Internet of Things Journal,2023,10(5):3901-3916.

何秀丽, 任智源, 史晨华, 等. 面向医疗大数据的云雾网络及其分布式计算方案[J]. 西安交通大学学报,2016,50(10):71-77. HE X L, REN Z Y, SHI C H,et al. A cloud and fog network architecture for medical big data and its distributed computing scheme[J]. Journal of Xi′an Jiaotong University,2016,50(10):71-77.(in Chinese)

XING J R, HSU K F, KADOSH M,et al. Runtime programmable switches[C]//Proceedings of the 19th USENIX Symposium on Networked Systems Design and Implementation,2022:651-665.

刘莹, 曹畅, 杨建军, 等. P4技术的边缘计算相关应用研究[J]. 信息通信技术,2020,14(4):45-50. LIU Y, CAO C, YANG J J,et al. Research on the application of P4 technology in edge computing[J]. Information and Communications Technologies,2020,14(4):45-50.(in Chinese)

WANG S Y, WU C M, LIN Y B,et al. High-speed data-plane packet aggregation and disaggregation by P4 switches[J]. Journal of Network and Computer Applications,2019,142:98-110.

ZHANG C, BI J, ZHOU Y,et al. HyperV:a high performance hypervisor for virtualization of the programmable data plane[C]//Proceedings of the 26th International Conference on Computer Communication and Networks(ICCCN),2017:1-9.

CASTANHEIRA L, PARIZOTTO R, SCHAEFFER-FILHO A E. FlowStalker:comprehensive traffic flow monitoring on the data plane using P4[C]//Proceedings of 2019 IEEE International Conference on Communications(ICC),2019:1-6.

WU Y J, HWANG W S, SHEN C Y,et al. Network slicing for mMTC and URLLC using software-defined networking with P4 switches[J]. Electronics,2022,11(14):2111.

PAOLUCCI F, SCANO D, CASTOLDI P,et al. Latency control in service chaining using P4-based data plane programmability[J]. Computer Networks,2022,216:109227.

CUI M W, LI X, WANG Y,et al. SPT:sketch-based polling in-band network telemetry[C]//Proceedings of 2022 IEEE/IFIP Network Operations and Management Symposium,2022:1-7.

杨爱玲, 邹乾友, 付松涛. P4交换机在天地一体化网络中的应用[J]. 信息工程大学学报,2020,21(4):453-458. YANG A L, ZOU Q Y, FU S T. Implementation with P4 switch in space and terrestrial integrated network[J]. Journal of Information Engineering University,2020,21(4):453-458.(in Chinese)

SAPIO A, ABDELAZIZ I, CANINI M,et al. DAIET:a system for data aggregation inside the network[C]//Proceedings of the 2017 Symposium on Cloud Computing,2017:626.

EDWARDS T G, CIARLEGLIO N. Timestamp-aware RTP video switching using programmable data plan[J]. Proceedings of the ACM SIGCOMM Industrial Demo,2017:1-2.

JOSE L, YAN L, VARGHESE G,et al. Compiling packet programs to reconfigurable switches[C]//Proceedings of the 12th USENIX Symposium on Networked Systems Design and Implementation,2015:103-115.

ZHANG H L, WU Y H, SUN Z X. EHEFT-R:multi-objective task scheduling scheme in cloud computing[J]. Complex & Intelligent Systems,2022,8(6):4475-4482.

HASSAN M A, XIAO M B, WEI Q,et al. Help your mobile applications with fog computing[C]//Proceedings of the 12th Annual IEEE International Conference on Sensing, Communication,and Networking-Workshops(SECON Workshops),2015:1-6.

MUÑOZ O, PASCUAL-ISERTE A, VIDAL J. Optimization of radio and computational resources for energy efficiency in latency-constrained application offloading[J]. IEEE Transactions on Vehicular Technology,2015,64(10):4738-4755.

首页

期刊介绍

投稿指南

编委会

出版声明

开放获取声明

联系我们

期刊订阅

Rss

AI检索

English

1 网络架构模型

2 基于P4的数据面编程策略

3 任务映射策略

4 时延优化模型

5 HEFT算法

6 仿真测试

7 结论