多尺度学习的红外无人机目标检测算法

doi:10.11887/j.issn.1001-2486.24090041

多尺度学习的红外无人机目标检测算法

doi: 10.11887/j.issn.1001-2486.24090041

左震，袁书东，李灿，黄泓赫

国防科技大学智能科学学院, 湖南长沙 410073

基金项目: 国家自然科学基金资助项目（52101377）

详细信息

作者简介

左震（1982—），男，安徽安庆人，副研究员，博士，硕士生导师，E-mail: z.zuo@nudt.edu.cn

通讯作者

袁书东（1999—），男，湖南常宁人，博士研究生，E-mail: yuanshudong21@nudt.edu.cn

中图分类号: TP391.4

文献标识码: A

文章编号: 1001-2486(2025)06-224-11

Multi-scale learning algorithm for infrared UAV target detection

ZUO Zhen ， YUAN Shudong ， LI Can ， HUANG Honghe

College of Intelligence Science and Technology, National University of Defense Technology, Changsha 410073 , China

摘要

针对无人机目标体积小、在图像中所占像素少、纹理细节信息弱、算法难以有效提取红外无人机目标特征导致检测精度较低等问题，提出多尺度学习的目标检测算法。通过在模型的颈部网络中构造多尺度特征融合结构，引入多尺度特征学习模块，将深层网络和浅层网络的特征进行级联，获取目标在多个尺度上的特征，丰富特征图的语义信息和特征信息，显著提高了算法对小型无人机目标的检测精度。在训练过程中使用SIoU代替CIoU损失函数，使网络模型在训练过程中损失最小化，提高了回归精度。实验结果表明，与其他红外小目标、主流检测算法相比，所提方法能有效提高无人机目标的检测精度，在实际应用中可以满足探测无人机目标的检测精度需求。

关键词

红外图像 / 探测无人机 / 多尺度学习

Abstract

The issues of small UAV (unmanned aerial vehicle) target size, limited pixel coverage in images, weak texture detail information, and the difficulty in effectively extracting infrared UAV target features, which lead to low detection accuracy, were addressed by proposing a multi-scale learning-based target detection algorithm. A multi-scale feature fusion structure was constructed in the neck network of the model, and a multi-scale feature learning module was introduced. Features from both deep and shallow networks were cascaded to capture target features at multiple scales, enriching the semantic and feature information of the feature map, which significantly improved the detection accuracy of small UAV targets. During training, SIoU was used in place of CIoU loss, minimizing the network model′s loss and enhancing the regression accuracy. Experimental results demonstrate that, compared to other infrared small target detection algorithms and mainstream methods, the proposed approach effectively improves the detection accuracy of UAV targets and meet the detection accuracy requirements for UAV target detection in practical applications.

Keywords

infrared imagery / detecting UAV / multi-scale learning

1 红外目标检测难点 2 多尺度学习的目标检测算法 2.1 算法总体结构 2.2 多尺度特征融合结构 2.3 多尺度特征学习模块 2.4 损失函数优化 3 数据集构建与实验设置 3.1 数据集构建 3.1.1 公开数据集 3.1.2 自制数据集 3.2 实验设置 3.3 算法评价指标 4 实验结果与分析 4.1 对比实验 4.1.1 与典型红外小目标检测方法对比结果 4.1.2 与主流SOTA检测方法对比结果 4.2 消融实验 4.2.1 多尺度特征学习模块的消融实验 4.2.2 添加不同子模块的消融实验 4.3 实物实验 5 结论

目前，黑飞无人机对公共安全构成了重大威胁。因此，及时发现这些无人机并采取有效的应对措施势在必行。红外相机适用于各种复杂环境，可以全天候工作。基于红外图像的低空无人机目标探测具有很大的应用前景和发展潜力。但红外图像中的无人机目标有其独特的“弱”和“小”的特点，且由于红外成像设备受传感器灵敏度、背景温度、红外噪声等因素的影响，成像质量较差。上述问题导致算法对红外无人机目标特征提取困难，检测精度较低。当前提升红外小目标检测精度的方法主要集中在多尺度融合方面。

在多尺度融合方面，Zhai等^[1]介绍了一种用于探测低空无人机目标的增强型方法，该方法保留了原有YOLOv3架构的基本框架，但通过多尺度预测方法对其进行了改进，以增强对小型目标物体的检测能力。Wang等^[2]为解决小目标检测问题，提出了相似性融合模块，利用相似性选择性地融合多尺度特征，有效避免了小尺度特征被大尺度特征覆盖，导致小目标检测不到。Sunkara等提出了轻量化的物体检测模型，包含一个两阶段的特征学习流程，采用廉价的线性变换，仅使用传统卷积神经网络所需卷积滤波器数量的一半来学习特征图。但是，两阶段特征学习流水线会占用大量计算资源，不便于轻量级操作^[3]。Xu等^[4]针对现有检测算法无法有效区分和融合多种特征的问题，提出了一种用于检测任务的密集多尺度特征学习网络，从而有效提取图像中的目标信息，提高检测效果。Yang等依托自下而上的多尺度特征融合网络，横向联立建立一个自上而下的路径，通过横向联立建立多尺度高级语义特征的综合层次结构^[5]。

Wang等^[6]提出了路径聚合结构网络（path aggregation network，PANet），引入了一条自下而上的路径，实现了层间特征共享，以促进高级特征与来自低级特征的足够细节的整合。Ghiasi等利用神经架构搜索，构建了NAS-FPN网络，采用空间搜索策略在特征层内建立跨层连接从而实现可扩展的特征信息^[7]。Zhao等^[8]构建了一个多层级的提取多层次和多尺度特征的M2Det网络，为跨层特征融合提供了便利。Yu等^[9]提出了多尺度局部对比度学习和双线性的特征金字塔（feature pyramid networks，FPN）网络，在网络训练过程中学习局部对比度特征，以充分提取多尺度目标特征。针对目标纹理特征差、对比度低等问题，李向荣等基于YOLOv4架构提出了一种融合通道注意力机制的多尺度红外目标检测模型，该模型通过降低主干特征提取网络深度，减少了模型参数，提高了计算资源的利用率^[10]。针对目标存在形态多变以及特征过少等问题，张朝阳等对YOLO网络结构进行重构，搭建多尺度网络，增加目标检测层，提高对小目标的检测能力^[11]。

利用多尺度融合的方式主要有两个方面的显著优势：①能够在不增加额外计算成本的前提下提升网络性能；②能够生成包含高分辨率信息的特征图。

在上述研究的基础上，本文创新工作如下：①在模型的骨干网络中引入三维无参注意力机制减弱背景干扰。在模型的颈部网络构造了多尺度融合结构，通过加入多尺度特征学习模块（multi-scale feature learning module，MSFLM），融合目标的多尺度特征，提升算法对目标全局特征信息提取能力。②优化损失函数，加快算法的收敛速度。③针对当前特定场景中红外无人机目标数据集匮乏的问题，制作了一个含有多场景的单帧红外图像目标检测数据集。

1 红外目标检测难点

红外目标与干扰源具有相似的特征，在整幅图像中目标的形状或轮廓依然表现为弱纹理特征，且在图像中面积占比小，难以直观有效地判断该目标是否为无人机目标。

目前检测红外小目标是一个非常具有挑战性的问题，导致目标检测方法对红外小目标的检测性能不佳主要有以下四个因素：

1）卷积神经网络中的卷积步长较大。在卷积过程中，特征图尺寸不断缩小，而卷积步长比红外小目标尺寸大，导致小目标特征很难传递到深层网络。

2）当前目标检测数据集中的样本分布状况并不理想。其中小目标的样本数量相对较少，而大目标和小目标之间存在显著的尺寸差异，导致检测算法难以适应目标的尺寸变化。

3）先验框的超参数设置欠优。在目标检测过程中，红外小目标的尺寸往往与设定的先验框尺寸相差较大，只有小部分先验框与标注的真实框能够重叠，算法的检测效果不佳。

4）交并比阈值的选择不固定。红外小目标的候选边界框与真实框之间的交并比较小，交并比阈值的大小会影响训练的效果，从而影响检测性能。

2 多尺度学习的目标检测算法

2.1 算法总体结构

本文提出了多尺度学习的目标检测算法IRSDD-YOLOv8，该算法的网络模型总体框架如图1所示，在传统YOLOv8n-seg架构的基础上，在颈部网络构建多尺度特征融合结构，引入多尺度特征学习模块，以提升特征提取能力和检测性能。

1）输入层接收图像并进行预处理。使用YOLOv8n-seg的Conv和C2f模块作为骨干网络，从输入图像中提取目标特征。C2f模块通过残差结构和跨阶段部分网络来提高特征提取能力。此外，针对无人机目标纹理信息弱等问题，在骨干网络中引入三维无参注意力机制，增强算法对无人机目标特征的提取能力并减弱背景干扰。

2）在颈部网络中，借鉴特征金字塔、自上而下和自下而上的路径聚合结构，构建多尺度特征融合结构，引入多尺度特征学习模块。在颈部网络中分别与来自骨干网络的第2层、第4层、第6层的输出特征图级联，以融合来自不同尺度的特征，这样既能得到包含对象类别的高层次抽象特征，又能保留浅层特征图的低层次边缘纹理等细节信息，有助于提升红外无人机小目标的检测性能。

图1IRSDD-YOLOv8网络结构

Fig.1IRSDD-YOLOv8 network structure

3）基于YOLOv8n-seg的原有预测头，增加一个微小目标预测头（PH₁），使得网络能够更好地提取不同尺度和复杂背景下的目标特征并预测每个网格单元的边界框、类别概率和置信度得分。

4）优化损失函数，有助于更快地学习到正确的边界框位置，加速训练过程中的收敛速度。

本文提出的多尺度学习的目标检测算法具有以下突出优势：①多尺度检测。IRSDD-YOLOv8算法借鉴了特征金字塔、自上而下和自下而上的路径聚合结构，能够有效处理不同尺度的目标，减小特征图池化的速度，使得小目标的特征能够更好地传递到深层网络。②高效检测。在保留YOLOv8n-seg高效推理速度的同时，增强了特征提取能力，使得IRSDD-YOLOv8算法在精度和速度之间达到了较好的平衡。

2.2 多尺度特征融合结构

典型的特征融合算法的网络结构如图2所示，白色方块部分代表特征融合结构，绿色代表微小目标检测器，橙色代表小目标检测器，黄色代表中型目标检测器，蓝色代表大目标检测器。在图2（a）中，FPN构建了一个自上而下的特征网络、在不同层次的特征图之间添加横向连接，以更好地利用低层次特征中包含的高频细节，从而形成一个包含多尺度信息的特征网络。在图2（b）中，自上而下和自下而上的PANet在编码器和解码器之间加入了路径聚合模块，以聚合不同尺度的特征，生成多尺度的特征图。在图2（c）中，YOLOv8n-seg 借鉴了PANet的思想，来提高物体检测的准确性和效率。

本文在多尺度学习的目标检测算法IRSDD-YOLOv8的颈部网络构造了一种新颖的多尺度特征融合结构，该结构如图2（d）所示，融合步骤主要如下：

1）使用卷积神经网络作为骨干网络来提取图像中的特征。随着网络层数加深，特征图的空间尺寸会逐渐减小，深层特征图更倾向于包含对象类别的高层次抽象特征，而浅层特征图则保留了更多的低层次的边缘纹理等细节信息。

2）将深层特征图进行上采样（Upsample），与相应尺度的浅层特征图进行拼接（Concat），帮助恢复因下采样丢失的空间信息，并且将深层的语义信息传递给浅层。

3）将自顶向下路径中的特征图与来自主干网络的同尺度特征图结合，帮助每个尺度都获得既有语义信息又有空间信息的特征图。通过此方式，可构建出一个多尺度的特征网络，每个层级的特征图都可用于后续不同尺度目标检测任务。

图2特征融合结构的比较

Fig.2Comparison of feature fusion structures

2.3 多尺度特征学习模块

浅层特征网络保留了空间位置信息，但却无法充分提取目标的语义信息；深度特征网络因为对输入图像进行了多次卷积和池化操作来提取图像特征而失去了目标的空间细节信息。若模型未能充分利用来自多个特征层的信息，则无法有效学习目标的特征。为此，本文通过在YOLOv8n-seg网络模型中添加多尺度特征学习模块，融合浅层网络得到的空间纹理信息与中层网络得到的语义信息，从而保留更多可供网络模型学习的目标特征，避免无人机目标被深层网络卷积后导致的目标特征丢失。图3展示了多尺度特征学习模块的工作过程。

图3多尺度特征学习模块

Fig.3Multi-scale feature learning module

多尺度特征学习模块融合目标全局信息的方法如式（1）~（2）所示。

H_{1} = C 2 f module (δ (A) \otimes B)

(1)

H_{2} = C 2 f m o d u l e (A \otimes C o n v (H_{1}))

(2)

其中，A和B分别表示来自中层网络和浅层网络的特征图，δ表示上采样，

\otimes

表示对不同的输入进行级联。对中层语义特征图A进行上采样，与对应的浅层特征图B级联经过C2f模块处理后得到H₁，送入微小目标预测头PH₁，再对H₁进行卷积和上采样，与中层语义特征图A级联，再经过C2f模块处理得到输出H₂，将得到的特征图H₂送入小目标预测头PH₂，融合分类后解耦出图像中物体的类别和位置信息。

2.4 损失函数优化

YOLOv8n-seg网络模型中的损失函数由分类损失L_class_loss、边界框损失L_box_loss组成。分类损失采用BCE With Logits Loss函数进行计算，而边界框损失函数通过DFL Loss、CIoU Loss进行计算。其中，CIoU损失计算公式如下：

(3)

式中，I_IoU是标准交并比（intersection over union，IoU）值，b表示预测框，b_gt表示真实框，c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离，p表示两个矩形框之间的欧氏距离，α为平衡参数，ν用来衡量框的长宽比是否一致。

(4)

令

r = \frac{p^{2} (b, b_{g t})}{c^{2}} + α ν

(5)

其中，w_gt、h_gt是真实框的宽高，w、h是预测框的宽高。从式（5）可以看出，当预测框与真实框的长宽比一样大时，ν取0，此时长宽比的惩罚项r并没有起到作用，CIoU损失函数不能稳定工作^[12]。为解决上述问题，本文引入新的损失函数SIoU来优化YOLOv8n-seg的边界框损失函数。SIoU引入了角度损失、距离损失、形状损失和IoU损失，考虑了预测框与目标框之间的匹配性，重新定义了距离损失，有效降低了回归的自由度^[13]。

3 数据集构建与实验设置

3.1 数据集构建

3.1.1 公开数据集

当前针对低空弱小目标检测应用的公开数据集有第一届CVPR（IEEE conference on computer vision and pattern recognition）反无数据集、IRSTD-1K数据集和地/空背景下红外图像数据集^[14]。第一届CVPR反无数据集由160个视频序列组成，涵盖了大量的无人机飞行的素材，但该数据集只提供了无人机在图像中的坐标与目标框大小，未对目标位置区域进行像素级的标注，并未细分无人机的飞行场景。IRSTD-1K数据集是一个用于红外小目标检测的公开数据集，该数据集包含1 001张红外图像，提供了图像中每个目标框的宽度、高度等信息；地/空背景下红外图像数据集是以固定翼无人机为探测对象，在不同背景下对该固定翼无人机进行数据采集与整理而成。

3.1.2 自制数据集

针对当前无人机目标探测领域中数据集不足的情况，本文挑选了公开的地/空背景下红外图像数据集与第一届CVPR反无数据集的部分数据用于制作自制数据集。对处于不同场景的目标进行分类，并进行了像素级的标注。自制的单帧红外图像目标检测数据集（single-frame infrared image object detection dataset，SIDD）包含4 737张640像素×512像素的红外图像。

为了尽可能地模拟无人机的真实入侵场景，本文在SIDD中划分了四个场景，以探究不同背景对低空红外无人机目标检测精度的影响。表1展示了SIDD中不同场景训练集和测试集中的图像数量。

表1SIDD训练集和测试集中的图像数量

Fig.1IRSDD-YOLOv8 network structure

在对红外无人机目标检测的研究中，分析了不同场景下目标在图像中的尺度分布。通过对城市场景、山地场景、海面场景以及天空场景中目标区域与整个图像面积的占比进行统计，发现目标面积与图像面积占比大多极低。

3.2 实验设置

实验平台的软硬件环境配置如表2所示。所有检测算法在数据集上均被训练50个周期。在训练过程中，每次迭代处理2张图像，设置模型的初始学习率为0.002 5，设置权重衰减为0.005，选择AdaGrad作为训练优化器。

表2软硬件环境配置

Tab.2Hardware and software environment configuration

3.3 算法评价指标

本文使用平均交并比、归一化交并比、平均精度、每秒检测图像张数（frames per second，FPS）等指标评估不同算法的检测性能。

交并比: 指预测的目标掩码与目标真实区域的并集与交集之比，其计算方式如式（6）所示。

I_{I o U} = \frac{S_{overlop}}{S_{union}}

(6)

平均交并比: 对所有类别的交并比取平均值。定义如下：

μ_{l o U} = \frac{1}{N} \overset{N}{\underset{i = 1}{Σ}} {(I_{l o U})}_{i}

(7)

归一化交并比：作为红外小目标探测模型和数据驱动方法之间更平衡的指标。定义如下:

n_{I o U} = \frac{1}{N} \overset{N}{\underset{i}{Σ}} \frac{T_{p} (i)}{T_{p} (i) + F_{p} (i) + F_{n} (i)}

(8)

式中：T_p是指被模型预测为正且确实是正样本的数量；F_p是指被模型预测为正，但实际是负样本的数量；F_n是指被模型预测为负，但实际上是正样本的数量。

通过计算精度-召回曲线下方的面积得到m_AP值来评估检测精度，计算方式如式（9）所示。

m_{A P} = \int P (R) d R

(9)

式中，P指精度，R指召回率。P和R的计算方式如下：

P = \frac{T_{p}}{T_{p} + F_{p}}

(10)

R = \frac{T_{p}}{T_{p} + F_{n}}

(11)

平均精度：使用m_AP@0.5 ∶0.95评估IoU阈值为{0.5，0.55，···，0.95}时的平均值，使用m_AP@0.5评估IoU阈值为0.5 时的取值。

每秒检测图像张数：每秒处理帧数。

4 实验结果与分析

4.1 对比实验

4.1.1 与典型红外小目标检测方法对比结果

红外无人机目标属于经典的红外小目标，本文通过对比主流的红外小目标检测算法top-hat^[15]、MPCM^[16]、UIU-Net^[17]、DNANet^[18]、ISTDU-Net^[19]，评估IRSDD-YOLOv8算法的性能，明确IRSDD-YOLOv8是否在准确性、鲁棒性上有显著改进。

表3是IRSDD-YOLOv8算法与其他红外小目标检测算法在数据集中的检测结果。在城市场景中， IRSDD-YOLOv8的μ_IoU和n_IoU指标分别达到了82.4%和83.1%的良好性能，达到了业内的先进水平。在山地场景中，IRSDD-YOLOv8的μ_IoU和n_IoU指标分别达到了75.2%和77.0%的良好性能，远高于其他红外小目标检测算法，与原算法YOLOv8n-seg相比，μ_IoU和n_IoU指标分别提高了2.4%和2.8%。

IRSDD-YOLOv8算法在海面场景中的μ_IoU和n_IoU值分别为66.5%和65.3%，虽然在该场景下的μ_IoU和n_IoU值相较于其他场景较低，原因在于该场景下的目标检测条件最为苛刻，不仅背景复杂且面积占比最小，但其相较于原算法指标依然有一定提升。IRSDD-YOLOv8算法在天空场景中的μ_IoU和n_IoU值则达到了83.9%和80.6%，检测性能优于其他红外小目标检测算法。

表3在不同场景下红外小目标算法的检测结果

Tab.3Detection results of infrared small target algorithms in different scenarios

4.1.2 与主流SOTA检测方法对比结果

为了验证本文提出的IRSDD-YOLOv8算法的检测性能，在自制数据集上对所提算法与BoxInst^[20]、CondInst^[21]、YOLACT++^[22]、Mask R-CNN^[23]、YOLOv5n-seg、YOLOv7^[24]、YOLOv8n-seg等SOTA（state of the art）方法进行了比较。为了保证实验的完整性，对算法在自制的SIDD数据集的不同场景的检测结果进行了定量和定性比较。

（1）定量结果

如表4所示，在城市场景下，IRSDD-YOLOv8算法的 m_AP@0.5 ∶0.95 和 m_AP@0.5 值分别达到 51.1%和 93.9%， m_AP@0.5值与其他先进算法相比，取得了排名第一的结果，比原算法YOLOv8n-seg高出1.2%，尽管提升比例较低，但在高精度状态下，模型已经接近其性能瓶颈，进一步提升的空间变得非常有限。

在山地场景下，目标占比面积小，导致原算法YOLOv8n-seg的m_AP@0.5 ∶0.95 和m_AP@0.5值分别只有25.3%和66.4%。但是通过本文的改进，算法精度分别达到了 30.9% 和 78.5%，比原算法分别高出 5.6% 和 12.1%。

表4在不同场景下主流检测算法的检测结果

Tab.4Detection results of mainstream detection algorithms in different scenarios

在海面场景下，IRSDD-YOLOv8 算法的m_AP@0.5 ∶0.95 和m_AP@0.5 分别达到 35.2% 和 90.2%，相较于原算法分别提升了1.5%和7.3%。通过山地场景和海面场景的检测结果可知，算法在检测精度低的场景中精度提升较明显。

在天空场景下，IRSDD-YOLOv8算法的m_AP@0.5 ∶0.95和m_AP@0.5分别达到60.6%和96.5%，相较于YOLOv8n-seg算法分别高出1.5%和0.8%。由于天空背景比较简单，大多数检测算法都取得了优异的检测结果，但实时性明显不如本文所提出的方法。

综合上述分析可知，通过多尺度特征融合整合来自不同层的特征图，捕获到目标不同尺度的信息，能够提高算法对目标的检测能力。对于山地和海面这两个检测精度相对较低的场景，在略微牺牲检测实时性的前提下，本文所提出的IRSDD-YOLOv8算法对精度的提升效果较明显。对于城市和天空这两个检测精度已经较高的场景，本文所使用的模型架构及所提出的多尺度特征学习方法可能在理论上已经达到其极限，模型所能提取和利用的特征已经非常充分，因此检测精度提升比例较低，进一步提升检测精度需要对模型架构作改进，但在实际探测无人机的任务中，所提算法的检测精度已经能够满足检测需求。

（2）定性结果

图4展示了在SIDD的四个不同场景中使用IRSDD-YOLOv8和其他方法获得的定性结果。从上到下依次是城市场景、山地场景、海面场景、天空场景，从左到右依次是不同检测方法的检测结果。由于目标在图像中的比例较小，因此以目标掩码图显示检测结果，算法检测正确的结果用红色圈标记，检测错误的结果用黄色圈标记，未检测到目标则不标记。

图4IRSDD-YOLOv8及其他算法检测结果

Fig.4IRSDD-YOLOv8 and other algorithmic detection results

在城市场景中，YOLACT++算法存在错误检测目标的情况；在山地场景中，Mask R-CNN算法存在错误检测目标的情况，YOLACT++算法未能有效检测到目标；在海面场景中，BoxInst算法存在错误检测目标的情况，CondInst算法未能有效检测到目标；在天空场景中，YOLOv8n-seg算法未能有效检测到目标。上述结果表明，本文提出的IRSDD-YOLOv8算法在复杂背景下对红外无人机目标的检测性能良好。

从定量与定性结果来看，本文所提出的IRSDD-YOLOv8算法的检测精度优于YOLOv8n-seg算法，IRSDD-YOLOv8算法对这些场景变化的鲁棒性更强，检测结果更准确，仅增加了少量的计算量就能带来大幅的性能提升，符合实际的检测需求。

4.2 消融实验

4.2.1 多尺度特征学习模块的消融实验

（1）定量结果

在本小节中，比较了多尺度特征学习模块中不同数量 C2f 模块的性能，共进行了6 次实验。表5显示了在不同层中设置不同n₁和n₂ 值的 m_AP值。其中， n₁和 n₂ 分别代表在图1第 18 层和第 21 层的 C2f 数量。

如表5所示，从exp（1）到exp（6），多尺度特征学习模块中C2f模块的数量从1到3不等，随着C2f模块数量的增加，SIDD的m_AP@0.5值呈上升趋势，在exp（6）中达到75.8%，相较于exp（1）高出了1.3%。对于exp（4）至exp（6），由于增加了更多的 C2f 模块，算法对目标的检测能力更强。因此，将IRSDD-YOLOv8网络结构中的第 18、 21 层的C2f 的模块数量分别取为 3、3。

表5在不同层中添加 C2f数量的实验结果

Tab.5Experimental results of adding C2f quantities in different layers

（2）定性结果

图5展示了经过多尺度特征学习模块处理后的浅层与中层特征图目标特征提取结果。浅层特征图为模型第2层的输出，属于早期卷积层，该层通常提取的是图像的边缘、纹理等低级特征。由于靠近输入层，该层的特征图包含大量的原始图像信息，信息还不够抽象，不足以明确地识别出无人机这样的特定目标。中层特征图为模型第15层的输出，该层处于网络的较深位置，能提取到比浅层更复杂的特征，还没有丢失过多细节，但是该层特征图并没有将目标特征与背景区分出来。将浅层特征图与中层特征图送入多尺度特征学习模块后，输出的特征图能够较好地包含无人机目标的形状、结构特征，使得无人机目标在特征图中的表现更加突出。

图5多尺度特征学习模块的目标特征提取示例

Fig.5Example of feature extraction from the multi-scale feature learning module

4.2.2 添加不同子模块的消融实验

为了验证多尺度特征学习模块（MSFLM）、三维无参注意力模块（SimAM）和优化损失函数（SIoU）的有效性，本研究做了相应的消融实验。为了保证实验结果的可比性，在训练过程中设置相同的迭代轮数和初始学习率，并记录了模型的分割损失变化以及添加不同模块后精度-召回曲线的变化。

表6展示了在YOLOv8n-seg算法中添加各个模块的实验结果。由实验结果可知，增加子模块后，模型的检测精度都会出现一定程度的提升，其中，添加多尺度特征学习模块对检测精度的提升最明显，检测精度提升了9.4%（m_AP@0.5）。

表6添加不同子模块的实验结果（山地场景）

Tab.6Experimental results of adding different submodules (mountain scenario)

如图6（a）所示，IRSDD-YOLOv8算法（YOLOv8n-seg+MSFLM+SimAM+SIoU）在模型训练过程中具有更好的收敛性。图6（b）显示了消融实验中添加不同模块后模型的精度-召回曲线。结果表明，基于多尺度改进的 IRSDD-YOLOv8算法的曲线与坐标轴的面积更大，说明性能更优于YOLOv8n-seg算法。

4.3 实物实验

为了验证所提算法在实际环境中探测无人机目标的性能，本文研究团队在户外试验场搭建了一套低空无人机目标检测系统。使用Q30TIRM双光吊舱的红外相机作为红外图像采集器，其成像像元间距为17 μm，镜头焦距为25 mm，对应的视场角为24.6×18.5°，最大变焦倍数为4。假设探测的无人机目标有效热辐射面积为200 mm×200 mm，无人机的运动方向与红外相机平面平行，理论上红外相机发现无人机目标的极限距离可达1 452 m。

图6消融实验的分割损失与精度-召回曲曲线

Fig.6Segmentation loss and precision-recall curves for ablation experiments

在实采数据集上对提出的IRSDD-YOLOv8算法进行了实验验证，并与其他性能较好的单阶段目标检测算法进行了对比。实验结果如表7所示，本文提出的IRSDD-YOLOv8算法在实采数据集上的检测精度达到了94.0%（m_AP@0.5），在检测精度指标上的表现均优于其他单阶段目标检测算法。

表7算法在实采数据集上的检测精度对比

Tab.7Comparison of detection accuracy of algorithms on the actual collection dataset

5 结论

本文针对在红外图像中检测无人机目标存在尺寸小、纹理特征弱的问题，提出了多尺度学习的目标检测算法IRSDD-YOLOv8，构建了一个新的SIDD，在数据集中划分了四种典型的无人机入侵场景。

对IRSDD-YOLOv8算法与经典的红外小目标检测算法、主流检测算法在自制的SIDD上进行了大量的实验。实验结果表明，在城市、山地、海面、天空四个场景下，IRSDD-YOLOv8算法的μ_IoU值达到了82.4%、75.2%、66.5%、83.9%，相较于原始YOLOv8n-seg算法分别高出1.2%、2.4%、1.6%、0.2%；m_AP@0.5值分别达到了93.9%、78.5%、90.2%、96.5%，检测精度分别提高了1.2%、12.1%、7.3%、0.8%。

此外，还搭建了一套低空无人机目标检测系统，采集红外无人机目标数据进行验证。验证结果表明，IRSDD-YOLOv8算法在实采数据集上的检测精度（m_AP@0.5）达到了94.0%，可以满足实际的探测需求。

图1IRSDD-YOLOv8网络结构

Fig.1IRSDD-YOLOv8 network structure

下载: 全尺寸图片

图2特征融合结构的比较

Fig.2Comparison of feature fusion structures

下载: 全尺寸图片

图3多尺度特征学习模块

Fig.3Multi-scale feature learning module

下载: 全尺寸图片

图4IRSDD-YOLOv8及其他算法检测结果

Fig.4IRSDD-YOLOv8 and other algorithmic detection results

下载: 全尺寸图片

图5多尺度特征学习模块的目标特征提取示例

Fig.5Example of feature extraction from the multi-scale feature learning module

下载: 全尺寸图片

图6消融实验的分割损失与精度-召回曲曲线

Fig.6Segmentation loss and precision-recall curves for ablation experiments

下载: 全尺寸图片

表1SIDD训练集和测试集中的图像数量

Fig.1IRSDD-YOLOv8 network structure

下载: 全尺寸图片

表2软硬件环境配置

Tab.2Hardware and software environment configuration

下载: 全尺寸图片

表3在不同场景下红外小目标算法的检测结果

Tab.3Detection results of infrared small target algorithms in different scenarios

下载: 全尺寸图片

表4在不同场景下主流检测算法的检测结果

Tab.4Detection results of mainstream detection algorithms in different scenarios

下载: 全尺寸图片

表5在不同层中添加 C2f数量的实验结果

Tab.5Experimental results of adding C2f quantities in different layers

下载: 全尺寸图片

表6添加不同子模块的实验结果（山地场景）

Tab.6Experimental results of adding different submodules (mountain scenario)

下载: 全尺寸图片

表7算法在实采数据集上的检测精度对比

Tab.7Comparison of detection accuracy of algorithms on the actual collection dataset

下载: 全尺寸图片

图1IRSDD-YOLOv8网络结构

Fig.1IRSDD-YOLOv8 network structure

图2特征融合结构的比较

Fig.2Comparison of feature fusion structures

图3多尺度特征学习模块

Fig.3Multi-scale feature learning module

图4IRSDD-YOLOv8及其他算法检测结果

Fig.4IRSDD-YOLOv8 and other algorithmic detection results

图5多尺度特征学习模块的目标特征提取示例

Fig.5Example of feature extraction from the multi-scale feature learning module

图6消融实验的分割损失与精度-召回曲曲线

Fig.6Segmentation loss and precision-recall curves for ablation experiments

表1SIDD训练集和测试集中的图像数量

Fig.1IRSDD-YOLOv8 network structure

表2软硬件环境配置

Tab.2Hardware and software environment configuration

表3在不同场景下红外小目标算法的检测结果

Tab.3Detection results of infrared small target algorithms in different scenarios

表4在不同场景下主流检测算法的检测结果

Tab.4Detection results of mainstream detection algorithms in different scenarios

表5在不同层中添加 C2f数量的实验结果

Tab.5Experimental results of adding C2f quantities in different layers

表6添加不同子模块的实验结果（山地场景）

Tab.6Experimental results of adding different submodules (mountain scenario)

表7算法在实采数据集上的检测精度对比

Tab.7Comparison of detection accuracy of algorithms on the actual collection dataset

引用提醒

图(6) / 表(7)

引用本文

左震, 袁书东, 李灿, 等. 多尺度学习的红外无人机目标检测算法[J]. 国防科技大学学报, 2025, 47(6): 224-234.

复制

ZUO Z, YUAN S D, LI C, et al. Multi-scale learning algorithm for infrared UAV target detection[J]. Journal of National University of Defense Technology, 2025, 47(6): 224-234.

Copy

计量

图1IRSDD-YOLOv8网络结构

Fig.1IRSDD-YOLOv8 network structure

图2特征融合结构的比较

Fig.2Comparison of feature fusion structures

图3多尺度特征学习模块

Fig.3Multi-scale feature learning module

图4IRSDD-YOLOv8及其他算法检测结果

Fig.4IRSDD-YOLOv8 and other algorithmic detection results

图5多尺度特征学习模块的目标特征提取示例

Fig.5Example of feature extraction from the multi-scale feature learning module

图6消融实验的分割损失与精度-召回曲曲线

Fig.6Segmentation loss and precision-recall curves for ablation experiments

表1SIDD训练集和测试集中的图像数量

Fig.1IRSDD-YOLOv8 network structure

表2软硬件环境配置

Tab.2Hardware and software environment configuration

表3在不同场景下红外小目标算法的检测结果

Tab.3Detection results of infrared small target algorithms in different scenarios

表4在不同场景下主流检测算法的检测结果

Tab.4Detection results of mainstream detection algorithms in different scenarios

表5在不同层中添加 C2f数量的实验结果

Tab.5Experimental results of adding C2f quantities in different layers

表6添加不同子模块的实验结果（山地场景）

Tab.6Experimental results of adding different submodules (mountain scenario)

表7算法在实采数据集上的检测精度对比

Tab.7Comparison of detection accuracy of algorithms on the actual collection dataset

ZHAI H Q, ZHANG Y. Target detection of low-altitude UAV based on improved YOLOv3 network[J]. Journal of Robotics,2022,2022(1):4065734.

WANG M M, ZHANG B. Contrastive learning and similarity feature fusion for UAV image target detection[J]. IEEE Geoscience and Remote Sensing Letters,2024,21:6001105.

SUNKARA R, LUO T. YOGA:deep object detection in the wild with lightweight feature learning and multiscale attention[J]. Pattern Recognition,2023,139:109451.

XU C, ZHANG Q, MEI L Y,et al. Dense multiscale feature learning transformer embedding cross-shaped attention for road damage detection[J]. Electronics,2023,12(4):898.

YANG L, ZHONG J H, ZHANG Y,et al. An improving faster-RCNN with multi-attention ResNet for small target detection in intelligent autonomous transport with 6G[J]. IEEE Transactions on Intelligent Transportation Systems,2023,24(7):7717-7725.

WANG K X, LIEW J H, ZOU Y T,et al. PANet:few-shot image semantic segmentation with prototype alignment[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV),2019:9196-9205.

GHIASI G, LIN T Y, LE Q V. NAS-FPN:learning scalable feature pyramid architecture for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:7029-7038.

ZHAO Q J, SHENG T, WANG Y T,et al. M2Det:a single-shot object detector based on multi-level feature pyramid network[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):9259-9266.

YU C, LIU Y P, WU S H,et al. Infrared small target detection based on multiscale local contrast learning networks[J]. Infrared Physics & Technology,2022,123:104107.

李向荣, 孙立辉. 融合注意力机制的多尺度红外目标检测[J]. 红外技术,2023,45(7):746-754.LI X R, SUN L H. Multiscale infrared target detection based on attention mechanism[J]. Infrared Technology,2023,45(7):746-754.(in Chinese)

张朝阳, 张上, 王恒涛, 等. 多尺度下遥感小目标多头注意力检测[J]. 计算机工程与应用,2023,59(8):227-238.ZHANG Z Y, ZHANG S, WANG H T,et al. Multi-head attention detection of small targets in remote sensing at multiple scales[J]. Computer Engineering and Applications,2023,59(8):227-238.(in Chinese)

ZHENG Z H, WANG P, LIU W,et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000.

GEVORGYAN Z. SIoU loss:more powerful learning for bounding box regression[EB/OL].(2022-05-25)[2024-04-02].https://arxiv.org/abs/2205.12740.

回丙伟, 宋志勇, 范红旗, 等. 地/空背景下红外图像弱小飞机目标检测跟踪数据集[J]. 中国科学数据,2020,5(3):291-302.HUI B W, SONG Z Y, FAN H Q,et al. A dataset for infrared detection and tracking of dim-small aircraft targets under ground/air background[J]. China Scientific Data,2020,5(3):291-302.(in Chinese)

BAI X Z, ZHOU F G. Analysis of new top-hat transformation and the application for infrared dim small target detection[J]. Pattern Recognition,2010,43(6):2145-2156.

WEI Y T, YOU X G, LI H. Multiscale patch-based contrast measure for small infrared target detection[J]. Pattern Recognition,2016,58:216-226.

WU X, HONG D F, CHANUSSOT J. UIU-Net: U-Net in U-Net for infrared small object detection[J]. IEEE Transactions on Image Processing,2023,32:364-376.

LI B Y, XIAO C, WANG L G,et al. Dense nested attention network for infrared small target detection[J]. IEEE Transactions on Image Processing,2023,32:1745-1758.

HOU Q Y, ZHANG L W, TAN F J,et al. ISTDU-Net:infrared small-target detection U-Net[J]. IEEE Geoscience and Remote Sensing Letters,2022,19:7506205.

TIAN Z, SHEN C H, WANG X L,et al. BoxInst:high-performance instance segmentation with box annotations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2021:5439-5448.

TIAN Z, SHEN C H, CHEN H. Conditional convolutions for instance segmentation[C]//Proceedings of the European Conference on Computer Vision,2020:282-298.

BOLYA D, ZHOU C, XIAO F Y,et al. YOLACT++ better real-time instance segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(2):1108-1121.

HE K M, GKIOXARI G, DOLLÁR P,et al. Mask R-CNN[EB/OL].(2017-03-20)[2024-04-06].https://arxiv.org/abs/1703.06870.

WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2023:7464-7475.

首页

期刊介绍

投稿指南

编委会

出版声明

开放获取声明

联系我们

期刊订阅

Rss

AI检索

English

1 红外目标检测难点

2 多尺度学习的目标检测算法

3 数据集构建与实验设置

4 实验结果与分析

5 结论