YOLOv8-DM轻量化光伏组件缺陷检测方法
doi: 10.11887/j.issn.1001-2486.24120025
杨威 , 张长胜 , 刘辉
昆明理工大学 信息工程与自动化学院, 云南 昆明 650500
基金项目: 国家自然科学基金资助项目(61863018)
Lightweight photovoltaic module defect detection with YOLOv8-DM
YANG Wei , ZHANG Changsheng , LIU Hui
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500 , China
摘要
针对光伏组件损伤检测的难度大、现有检测技术对人力和算力的需求高的现状,基于YOLOv8n提出一种改进的轻量化模型YOLOv8-DM,结合电致发光成像技术和目标检测方法,实现光伏组件缺陷检测。创新性地提出尺度特征自适应金字塔网络和倒置残差高效多尺度注意力机制,并引入结合动态卷积的Ghost模块,针对YOLOv8n模型在特征表达和多尺度目标识别方面的不足进行优化,增强细粒度检测能力并降低计算复杂度。YOLOv8-DM模型在经数据增强的PVEL-AD数据集上测试,召回率和mAP50较初始模型分别提升3%和3.3%,参数量与算力需求分别降低34%和20%,可以较好满足光伏组件缺陷检测任务中对低计算成本和高检测精度的实际需求。
Abstract
Given the challenges posed by photovoltaic component damage detection and the high demands placed on human and computational resources by existing detection technologies, an improved lightweight model named YOLOv8-DM was proposed on the basis of the YOLOv8n. The integration of electroluminescence imaging with object detection methods was implemented to achieve photovoltaic defect detection. Innovative components were introduced, including a dynamic scale feature pyramid network and an inverted residual multiscale attention mechanism, along with a Ghost module enhanced by dynamic convolution. These modifications were specifically designed to address the deficiencies observed in the YOLOv8n model regarding feature representation and multiscale object recognition, which enhanced fine-grained detection capabilities and reduced computational complexity. When evaluated on the augmented PVEL-AD dataset, the model demonstrated an improvement of 3% in recall rate and 3.3% in mAP50 compared to the baseline model, with a 34% reduction in parameter count and a 20% decrease in computational demand. The optimized architecture was validated to effectively meet the practical requirements for high-accuracy photovoltaic defect detection with lower computational costs.
光伏组件的损伤通常由生产缺陷、运输和安装过程中的外力、环境因素、不均匀载荷等多种因素共同引起,难以完全避免。这些损伤会导致发电效率降低、产生热点效应、缩短组件寿命,并增加电气失效的概率和安全隐患,最终引发系统性能下降和经济损失[1]。及时检测和修复光伏组件的损伤对于确保光伏系统的稳定性和可靠性至关重要。由于光伏组件常安装在偏远的户外,分布广泛,且许多损伤类型难以通过肉眼检测,需要借助复杂且成本较高的专业设备[2],这使得光伏组件高频率全面检测存在较大挑战。
电致发光(electroluminescence,EL)成像[3]是一种用于检测光伏组件缺陷的高精度方法。它通过在光伏组件上施加电流,使组件发光,并利用红外摄像机捕捉组件内部可能存在的缺陷,如裂纹、断栅等[4],这为基于计算机视觉的光伏组件缺陷目标检测提供了便利[5]
目标检测方法经历了从传统技术到深度学习方法的逐步演进[6]。早期由Felzenszwalb等[7]提出的可变形部件模型(deformable part model)打破了纯手工特征与传统分类器组合的局限。Redmon等[8]提出 YOLO框架,率先将检测任务表述为端到端回归;Liu等[9]通过多尺度特征图与默认框设计,兼顾速度与小目标性能。伴随Transformer的出现,Carion 等[10]把目标检测转化为序列建模问题,简化后处理流程;Chen等[11]验证对比学习在无监督预训练中的价值,为检测提供更强的通用特征;Shi 等[12]引入图神经网络刻画目标间关系,显著改善复杂场景下的准确率。Bochkovskiy 等[13]通过系统级策略优化,实现轻量与高精度平衡;Sun等[14]提出稀疏查询方案,显著降低计算量;Zhang等[15]结合动态解码与增强训练策略,使 Transformer检测模型收敛更快、精度更高。工业方面,Xu等[16]通过结构重参数化与训练技巧,在实时任务中展现出较高效率;Wang等[17]在轻量化与精度两端均刷新了实时检测基准;Wang等[18]进一步精简网络、降低算量,在端到端实时检测场景中表现突出。
这些基于深度学习的模型不仅可以提高检测的精度和效率,还能够自动适应复杂的场景和多样化的缺陷类型。尽管已有的研究已取得显著进展,但现有模型仍面临着在检测精度和计算效率之间的权衡问题,尤其是在光伏组件缺陷检测中的应用,仍然存在一定的挑战。
Jiang等[19]提出基于注意力机制的多尺度 U型网络自动像素级微裂纹检测方法,通过EL图像实现光伏组件的微裂纹检测,这种方法通过引入注意力机制增强网络对微裂纹的敏感性,但在多尺度特征融合和模型计算效率方面依然存在不足;后又进一步提出基于注意力机制的分类和分割网络的方法[20],进一步提升对微裂纹检测的性能,但在面对复杂场景和实时性要求时,计算复杂度和推理速度的瓶颈依然制约其应用范围;Liu 等[21]采用基于分割的深度学习模型进行光伏电池裂缝检测,此方法可显著提升裂缝检测的效率,虽在解决复杂缺陷识别上有所突破,但仍然未能有效解决计算资源的高需求问题,且在多尺度目标检测上仍存在不足;Alrifaey等[22]提出的混合深度学习模型通过集成多个子模型对光伏系统的故障进行分类,该方法可提高整体检测效果,但在实时检测和大规模光伏组件应用中的算力需求依然较高;Animashaun[23]与Hassan[24]等则采用正则化卷积网络,通过地面建模实现制造环节中的微裂纹自动检测;Li等[25]将基于时间-频率嵌入的小波变换与卷积长短期记忆混合神经网络深度学习模型结合,用于提取初期故障的时频特征并捕捉信号的空间模式与时间依赖关系,虽能实现较为高效的配电系统初期故障检测,但无法对光伏组件故障具体情况进行定位;Lang等[26]提出一种结合Transformer和注意力机制、精度相对较高的缺陷检测方法,该方法在提高检测准确性方面取得进展,但在处理复杂背景和多类型缺陷时,计算资源需求较高。陶志勇等[27]结合粒子群优化(particle swarm optimization,PSO)与支持向量机(support vector machine,SVM)提出一种用于精准检测太阳能电池板裂缝的算法,该方法在提高检测精度的同时,充分考虑算法的计算效率,但由于SVM的局限性,该方法在多类型缺陷的自动化识别上有所欠缺。Guo[28]通过优化卷积神经网络结构,提升了光伏模块缺陷检测的精确性和多场景适应性,但该方法依然面临在复杂场景下处理大规模数据时的计算瓶颈。周颖等[29]提出一种改进YOLOv8模型的方法,利用数据增强、上下文聚合模块和多注意力检测头,成功提升YOLOv8在光伏电池缺陷检测中的精度,但其在特征表达和感受野范围方面依然存在一定的限制,无法充分应对多尺度和复杂缺陷的检测需求;张冀等[30]通过引入感受野坐标注意力和多尺度特征融合模块,进一步优化YOLOv8n模型,提升检测精度并保持轻量化设计,但在精度和计算效率要求更高的场景下,仍存在一定的适用性限制。
针对检测技术在光伏缺陷检测中的不足,本文提出一种改进的YOLOv8-DM模型,该模型结合光伏检测任务对高精度和鲁棒性的需求,在高层筛选特征金字塔网络(high-level screening-feature pyramid network,HSFPN)基础上[31],设计尺度特征自适应金字塔网络[32](dynamic scale feature pyramid network,DSFPN);将倒置残差结构[33]与高效多尺度注意力机制[34](efficient multi-scale attention mechanism,EMA)结合,提出倒置残差高效多尺度注意力机制(inverted residual efficient multi-scale attention mechanism,iRMA),增强模型对复杂背景和多尺度目标的检测能力;使用融合动态卷积的Ghost-D(Ghost-dynamic)模块[35-36]改进C2f模块,优化特征提取效率,并显著降低计算复杂度。
1 方法
光伏组件缺陷检测面临多尺度目标、弱特征表征及复杂背景干扰等挑战,针对现有方法在特征敏感度与尺度适应性方面存在的不足,提出如图1所示的双路径优化框架。
1)特征提取增强:提出iRMA与动态Ghost-D模块,通过跨尺度特征融合与自适应卷积核优化,在低计算开销下增强微弱缺陷特征的显著性并抑制背景干扰。
2)特征融合优化:构建DSFPN,基于可学习权重实现跨尺度特征动态筛选与增强,抑制背景干扰并平衡尺度差异引发的误/漏检矛盾。
1YOLOv8-DM整体框图
Fig.1YOLOv8-DM general framework
1.1 iRMA
传统的注意力机制通常需要依赖通道降维或逐像素的全局计算,导致信息丢失或计算量过大,限制了其在多尺度特征提取中的适应性。特别是在光伏缺陷检测任务中,不同尺度缺陷特征的依赖关系较为复杂,现有注意力机制难以有效捕获局部细节与全局依赖,且由于大多数采用顺序处理方式,其在高分辨率图像分析和实时检测中的效率受限。
为进一步优化光伏缺陷检测模型的特征提取能力,并降低计算成本,本文提出结合EMA的iRMA,其结构如图2所示。iRMA通过并行的1×1和3×3卷积提取多尺度特征,并在不同特征组内应用注意力权重生成,从而实现局部和全局的注意力融合。这种分组处理与跨空间的注意力机制,使模型能够自适应地捕获像素级的关系并减少无关信息,从而解决传统方法中信息丢失和计算成本高的问题。EMA模块可避免通道降维操作,既保留丰富的空间信息,又降低整体计算复杂度。
2倒置残差高效多尺度注意力机制
Fig.2Inverted residual efficient multi-scale attention mechanism
iRMA模块可以概括为:
Yout =X+ProjDropPathConvlocal OEMA Xnorm
(1)
式中:Xnorm为经过标准化操作后的输入特征图;OEMA为应用EMA模块对标准化后的特征进行进一步增强处理;Proj是卷积核为1的卷积操作;Convlocal为用于对特征进一步提取增强的深度卷积操作;DropPath为用于正则化和泛化能力的路径丢弃,由式(2)实现。
Y'=MXproj2
(2)
式中,M是一个随机生成的二进制掩码矩阵,元素值为0或1,每个元素有1-p的概率为1,有p的概率为0,其中p即为路径丢弃的概率。
其中OEMA部分的计算公式为:
Y=Xgroup σMatmulSoftmaxCGAPX1,X2+MatmulSoftmaxCGAPX2,X1
(3)
式中:Xgroup为特征图X重塑后的分组表示,尺寸为B×C×H×W(其中B是批量大小,C是通道数,HW分别为高度和宽度);X1X2分别为经过分组归一化和卷积核为3的卷积处理后的特征图;CGAP为用于生成空间全局特征的全局平均池化操作;Softmax用于特征融合生成归一化权重;Matmul为结合不同特征权重的矩阵乘法;σ为用于生成最终权重的Sigmoid激活函数。
1.2 C2f_GD轻量化拼接增强模块
YOLOv8n的C2f模块结构如图3(a)所示,其通过减少通道数来实现压缩模型体积的目的,这也使其特征表达能力有所削弱。简化的设计使感受野受限,导致目标间空间关系捕捉不足,尤其在裂纹、断栅等细微缺陷的检测上表现受限。上下文理解能力缺乏,使其在目标密集或背景复杂的检测场景中易发生误检与漏检;在处理噪声和低分辨率图像时鲁棒性不够。
为优化YOLOv8n主干网络的特征提取能力,使其更适应光伏组件缺陷检测任务,提出结构如图3(b)所示的C2f_GD,通过引入结构如图4所示的Ghost-D模块和动态卷积,在保持高计算效率的同时,增强特征表达的能力。
3瓶颈结构图
Fig.3Bottleneck structure
4Ghost-D结构
Fig.4Ghost-D structure
动态卷积使模型能够自适应地调整卷积核以适应不同输入,增强特征提取的灵活性;Ghost-D模块能够通过低计算开销的操作生成额外的特征图(即“幽灵特征”),目的在于保留尽可能多的信息,同时大大减少计算成本。生成的“幽灵特征”能够补充原有特征图的信息,增强模型的表达能力和鲁棒性。
若用s表示每个内在特征图生成的“幽灵特征”数量(s=3),c表示输入特征图的通道数,Ghost的计算加速比可由下式得到:
rn=scs+c-1
(4)
在本模型中由于c远远大于s,该结构可为模型实现接近s倍的计算加速。
结合残差连接的DropPath机制,C2f_GD在减少计算负担的同时提升了模型的泛化性和稳定性,使其在实时检测任务中表现较为优越。
Ghost-D实现方式为:
Y=Y'+j=1s-1 ΦjY'
(5)
式中:Y为最终输出的特征图集合;Y′=X*f′为由标准卷积生成的内在特征图;ΦjY′)为一系列廉价线性操作,将内在特征图Y′扩展为“幽灵特征”;s为每个内在特征生成的“幽灵特征”数。
Ghost-D结构中,主卷积操作与廉价卷积操作环节使用动态卷积(见式(6))来代替传统卷积。主卷积操作中,动态卷积被用来高效生成初始特征;而在廉价卷积操作中,其又能通过自适应的轻量级卷积进一步扩展特征空间。
y=gk=1K πk(x)Wk*x+k=1K πk(x)bk
(6)
式中:yx分别为动态卷积的输出和输入;g为非线性激活函数;Wkbk分别为全连接层的权重矩阵和偏置向量; πkx)对应输入x的注意力权重,满足k=1K πkx=1;“*”为标准卷积操作。
通过引入iRMA和C2f_GD模块,主干网络在保持低计算开销的前提下,实现了对多尺度缺陷特征的精细化表达与高效提取,提升了模型在复杂背景环境下的特征判别能力,从而为后续DSFPN的有效实施奠定稳固的特征基础。
1.3 DSFPN
光伏缺陷检测面临图像分辨率低、瑕疵尺寸差异大、遮挡和背景干扰等挑战,传统方法难以兼顾细节捕获与全局语义,导致小目标漏检和遮挡信息丢失。为提升多尺度适应性与检测稳定性,本文提出结构如图5所示的DSFPN,通过特征筛选、融合与增强模块协同优化,有效提升复杂场景下的检测性能与鲁棒性。
1.3.1 特征筛选
特征筛选是多尺度处理中的关键环节,旨在提取关键信息并优化特征表达。为避免高低层特征直接融合带来的冗余与语义不一致,引入通道注意力机制(channel attention,CA),以高层语义特征生成权重,筛选低层特征中的有效信息,提升其语义表达能力,为后续特征融合打下高效基础[31]
5尺度特征自适应金字塔网络结构
Fig.5DSFPN architecture diagram
特征筛选通过CA和维度匹配模块(dimensional matching,DM)实现,核心目标是筛选出具有重要语义的低层特征。
对于特征图fin RC×H×W,对其进行全局平均池化CGAP和全局最大池化CGMP处理:
CGAP=1H×Wi=1H j=1W fin(c,i,j)
(7)
CGMP=maxHi=1 maxWj=1 fin(c,i,j)
(8)
将全局平均池化CGAP和全局最大池化CGMP的结果输入两层全连接网络:
fCA(c)=σW2ReLUW1CGAP;CGMP
(9)
式中,W1W2是两层全连接层的权重矩阵,其维度分别为W1RC/r×CW2RC×C/r,其中r为压缩比例,用于降低计算复杂度和规定参数量瓶颈层维度缩减程度。
将权重fCA应用于原特征图,生成筛选后的特征图,并使用卷积核为1的卷积进行维度匹配(令通道数统一为256):
fDM=Conv1×1fCA(c)fin (c,i,j)
(10)
1.3.2 特征融合
结构如图6所示的特征融合模块在DSFPN中通过整合不同层次的特征信息,实现全局语义与局部细节的有效结合,显著提升检测性能。
区别于传统FPN的逐层采样方式,DSFPN利用高层特征生成权重,通过通道注意力筛除低层冗余信息,并与高层特征精确对齐,实现语义与空间信息的高效融合。为统一高层特征fhigh和低层特征flow的空间分辨率,采用转置卷积(Transposed Conv)和双线性插值(Bilinear Interpolation):
fhigh =Bilinear Transposed Convfhigh
(11)
使用通道注意力机制生成权重fatt
fatt =CAfhigh
(12)
6特征融合模块
Fig.6Feature fusion module
通过高层特征的权重fatt对低层特征flow进行筛选,并与升维后的高层特征融合:
fout=flowfatt+fhigh
(13)
式中,flow·fatt表示权重筛选后的低层特征,fhigh表示升维后的高层特征。
1.3.3 特征增强
特征增强模块结构如图7所示,通过将多尺度特征增强(multi-scale feature augmentation,MSFA)机制引入DSFPN,提升网络对不同尺度光伏缺陷的精准感知与识别能力。该机制的设计包含两个阶段:
1)尺度感受野扩展阶段通过引入空洞卷积,在不增加计算量的情况下扩展感受野,增强模型对大目标的全局感知能力。结合多尺度特征融合,弥补空洞卷积可能导致的特征稀疏化问题,使模型在小目标的局部细节捕获方面仍能保持有效的信息表达。
7多尺度特征增强机制
Fig.7MSFA mechanism
2)尺度自适应增强阶段通过动态生成空间-通道自适应权重,强化目标区域特征表达并抑制背景干扰。模块首先融合多分支跨尺度特征,构建具有广域感受野的初始特征表达;随后分别采用5×5与7×7卷积核的可变形卷积结构,有效捕获局部细节特征与全局上下文语义信息,实现对不同尺度特征的动态适应;最后经空间-通道自适应权重对特征进行动态重校准,以残差形式显著强化关键语义区域表达,提升模型在复杂场景下的特征判别能力。该阶段实现方式如下式:
Y=x'+Proj2Proj1x'Conv1×1DeformCorv(7,7)DeformConv(5,5)GELUProj1x'
(14)
式中:Proj1、Proj2为卷积核为1的标准卷积操作,作用分别为调整通道关系和进行最终通道映射;DeformConv(5,5)、DeformConv(7,7)分别为卷积核为5和7的深度可变形卷积操作,分别起到捕获局部上下文特征、捕获全局上下文特征的作用;GELU为激活函数。x′为模块的尺度感受野扩展阶段的输出特征图,实现公式为:
x'=Conv1×1x1,x2,y
(15)
式中:x1x2为输入特征x经过卷积核为1的标准卷积拆分的两个部分,其中x1为直接传递的分支,x2为进入递归特征提取的初始分支,在空洞卷积操作中被进一步处理。y计算公式为:
y=SAConvx2,w,r=S(x)Convx2,w,1+(1-S(x))Convx2,w+Δw,r
(16)
式中:SAConv为空洞卷积;x2同时作为该运算输入;r为空洞卷积的超参数;w来源于预训练的检查点权重;Δw为可学习的附加权重,用于微调第二项卷积的特性。Sx)为开关函数,具体实现方式为:
S(x)=σW1K2pR5×5 x(p)+b
(17)
式中:σ为Sigmoid函数;Wb分别表示卷积核为1的标准卷积的权重和偏置;K2为池化区域大小,值为25;p表示特征图上的位置索引。
尺度感受野扩展和尺度自适应增强的协同应用,使得模型在处理复杂场景和遮挡目标时表现更为鲁棒,显著提升特征的表达能力。
DSFPN通过特征筛选、融合与增强机制,动态优化主干网络提取的多尺度特征表达,有效降低尺度差异引起的漏检和误检风险,与主干网络优化策略协同提升YOLOv8-DM模型在复杂光伏检测场景下的精度和鲁棒性。
综上所述,YOLOv8-DM模型通过优化特征提取和特征表达能力,理论上可以有效缓解传统检测方法对尺度变化适应、弱特征捕捉与复杂背景抑制能力不足的问题。
2 数据集与实验分析
2.1 实验平台和训练参数配置
本节涉及的实验其实验平台搭载 16核 i9-12900K CPU 和双 NVIDIA RTX 4080 GPU,软件环境为 CUDA 12.6 和 Torch 2.4.0。实际具体训练参数见表1,采用最多300轮训练,批次大小为32,优化器使用随机梯度下降(stochastic gradient descent,SGD)并结合学习率衰减策略。引入自动混合精度(automatic mixed precision,AMP)以提升计算效率,并设置提前停止机制(耐心值=50)防止过拟合。
1训练参数
Tab.1 Training parameters
2.2 评价指标
在消融实验,数据增强策略对比实验和与其他模型对比实验中,选取精确率P、召回率R、平均精度(mAP50)作为精度衡量指标。
P=TPTP+FP×100%
(18)
R=TPTP+FN×100%
(19)
mAP=1Ni=1N APi
(20)
AP=01 P(R)dR
(21)
在受试者工作特征曲线(receiver operating characteristic,ROC)性能分析实验中,选取曲线下面积(area under the curve,AUC)为衡量指标:
AUC=01 TPR(FPR)d(FPR)
(22)
FPR=FPFP+TN
(23)
TPR=TPTP+FN
(24)
其中:TP为正确预测为正样本的数量;FP为错误预测为正样本的数量;FN为未能正确预测为正样本的数量;PR)为在特定召回率R下的精确率PAPi为第i个类别的平均精度。另选取模型参数量Nparameters、算力需求Fcost、权重文件大小Wweight为衡量模型资源需求指标。
2.3 数据集
2.3.1 数据来源
PVEL-AD(photovoltaic electroluminescence anomaly detection)数据集是一个大规模、高质量的EL图像数据集,该数据集包含36 543张图像及40 358个标注框,覆盖裂纹(线状、星状)、断栅、黑芯、粗线、水平错位、短路等12种常见缺陷类型[37]。PVEL-AD数据集的构建需结合EL成像技术实现,EL图像采集子系统内部结构见图8
8EL图像采集子系统
Fig.8EL image acquisition subsystem
在暗室中,光伏组件被传送至探针条下方,传感器向可编程逻辑控制器(programmable logic controller,PLC)发送信号后,PLC控制探针条缓慢下降,确保轻微接触组件以防损坏。随后,组件正极接入24 V直流电源并通电8 A,电压激发下发射波长1 000~1 200 nm的近红外光,由冷却的Si-CCD相机捕捉,同时探针复位,传送带输送下一组件,循环进行。图像采集至存储全过程约1 s,支持实时检测需求,图像用于数据集构建。系统采用搭载SONY ICX825芯片的WP-US146单色近红外相机与VTG1214-M4镜头,距组件表面350 mm,分辨率1 024×1 024,曝光时间0.7 s,确保清晰成像。
2.3.2 数据增强及依据
基于PVEL-AD数据集,筛选裂纹、星状裂纹、粗线、断栅、黑芯、水平位移和短路这7种标签类别构建模型性能验证原始数据集。经过初步筛选的数据集如图9(a)所示,依然存在较为严重的数据不平衡问题,故依据表2数据重度增强技术对数据集进一步处理,得到经数据增强的数据集如图9(b)所示,以缓解因缺陷类别样本数量不均衡而引起的模型泛化能力不足问题;并模拟光伏电站中不同组件尺度变化及复杂信号干扰等实际环境因素,缺陷样本细节如图9(c)所示。
9缺陷样本占比
Fig.9Defective sample ratio
2数据增强依据
Tab.2 Basis for data augmentation
2.4 消融实验
2.4.1 YOLOv8-DM关键模块消融实验及分析
本次消融实验中,通过分析模块A——DSFPN、B——iRMA和C——C2f-GD的单独作用及其组合效果,旨在体现A+B+C组合的显著优越性,消融实验结果见表3
Ⅶ组合精确率(P=0.925)、召回率(R=0.887)和mAP50(0.941)性能上较其他配置有较明显的优势。其中,精确率较Ⅰ~Ⅵ组合分别提升3%、6.7%、8.8%、7.8%、5.6%、10.5%;召回率较 Ⅰ~Ⅵ组合分别提升2.5%、0.5%、1.5%、-0.9%、1.2%、3%;mAP50较Ⅰ~Ⅵ组合分别提升0.9%、1.1%、3.1%、1%、1.9%、3.3%。这些数据表明Ⅶ组合在检测完整性和精准性上实现较全面的优化,特别是在复杂场景中展现出色的鲁棒性。
3YOLOv8-DM消融实验
Tab.3 Ablation study on YOLOv8-DM
Ⅶ组合参数量为1 981 040,算力需求为6.464 GFLOPS,仅略高于Ⅰ组合(参数量为1 963 557,算力需求为6.921 GFLOPS)和Ⅵ组合(参数量为1 542 549,算力需求为5.517 GFLOPS),在资源效率上表现出色。这一表现充分说明Ⅶ组合在显著提升检测性能的同时,并未显著增加模型复杂度,可保持较高的计算效率,非常适合资源有限的实时检测任务。
从模块协同的角度分析,A模块的多尺度特征融合可提升全局检测精度,B模块的注意力机制可显著增强召回率,C模块通过轻量化设计可优化计算开销。Ⅶ组合通过有机结合三者的优点,能够较好地平衡性能、召回率和效率之间的关系。
2.4.2 DSFPN关键模块消融实验及分析
为评估各模块对 DSFPN金字塔网络性能的贡献,本次消融实验分析在主干网络优化提取特征能力后,A(特征筛选)、B(特征融合)和C(特征增强)的单独效果及其组合效果。实验旨在揭示A+B+C组合在提升DSFPN性能方面的显著作用,相关实验结果见表4
4DSFPN 消融实验
Tab.4 Ablation study on DSFPN
模块A(Ⅰ组)和B(Ⅱ组)的精确率分别为0.822和0.846,而模块C(Ⅲ组)使精确率提高至0.861,突出表现在减少假阳性;Ⅴ组精确率为0.857,Ⅵ组提升至0.898,Ⅶ组达到0.925,显示A、B、C的结合在提升模型对负例识别的能力上尤为有效。在召回率方面,模块A、B的召回率分别为0.861和0.864,C的加入使其略升至0.870;Ⅴ组召回率为0.868,Ⅵ组为0.876,Ⅶ组达到0.887,三个模块的协同提升对正例的识别,并减少漏检。mAP50指标方面,模块A、B、C单独使用时分别为0.903、0.918、0.915;Ⅳ组为0.930,Ⅴ组为0.923,Ⅶ组为0.941,显示三者结合在目标检测精度上具有明显优势。在资源消耗方面,Ⅶ组虽权重文件最大,算力需求最高,分别为4.102 MB和6.464 GFLOPS,但其对比其余组合性能提升也最为显著。
消融实验表明特征筛选、特征融合和特征增强模块的组合显著提升DSFPN金字塔网络的性能,在光伏组件缺陷目标检测任务中,三者结合展现出最优效果。
2.5 策略有效性分析
为证实优化策略的有效性,对YOLOv8n和YOLOv8-DM在典型光伏组件缺陷上的性能进行对比分析。通过分析ROC曲线和AUC值,评估两种模型在真阳性率(true positive rate,TPR)与假阳性率(false positive rate,FPR)之间的平衡能力;结合热力图分析,进一步揭示其在缺陷定位与特征提取方面的实际效果。
2.5.1 ROC性能分析
实验通过比较YOLOv8n与YOLOv8-DM在六种不同复杂程度的工业缺陷(水平位移、裂纹、短路、粗线、断栅、星状裂纹)上的ROC曲线和AUC值,深入探讨两者在缺陷检测中的性能差异。实验中统一设置IoU阈值为0.7,以确保评估结果的科学性。图10为ROC性能对比结果。
10各缺陷类型受试者工作特征曲线
Fig.10Receiver operating characteristic curves for each defect type
图10实验结果表明,YOLOv8-DM在复杂缺陷检测中表现出显著优势,特别是在星状裂纹和裂纹这类需要精细特征捕捉的缺陷中,AUC值分别提升0.07和0.05,且在低FPR(<0.3)区域,YOLOv8-DM的ROC曲线显著高于YOLOv8n,TPR大幅提升,表明其对细微、不规则缺陷的敏感性和鲁棒性得到增强。在中等检测难度缺陷如水平位移和粗线中,YOLOv8-DM也展现出良好的性能提升,AUC值分别提高0.04和0.03,模型稳定性得到增强,适应性更强。对于特征明显且易于区分的缺陷,如短路、断栅,YOLOv8-DM的优化效果相对较小,但仍在降低误报率方面表现出一定的优势。
ROC曲线趋势分析表明,YOLOv8-DM在低FPR(<0.3)区域优势显著,能够有效提高TPR,尤其在星状裂纹和裂纹等细微缺陷检测中展现出更高的敏感度和准确性。在中等假阳性率(FPR≈0.4)区域,YOLOv8-DM在水平位移、粗线缺陷等多种类型上的检测性能稳定,体现其对复杂缺陷种类的检测也有较好的鲁棒性。综合来看,YOLOv8-DM在复杂缺陷检测上具有明显优势,在简单缺陷的检测中能够保持较高的稳定性和准确性。
2.5.2 模型可视化分析
从光伏缺陷数据集中选取具有代表性的5张图片,使用梯度加权类激活映射实现模型在最终卷积层特征激活的计算,并生成热力图,图片涵盖了数据集中所有的缺陷类别标签。这些图片的选取基于以下标准:覆盖了单一缺陷与多缺陷并存的简单与复杂场景;包含缺陷边界清晰和模糊两种情况;有不同程度的背景噪声。
热力图如图11所示,优化模型能够更精准地聚焦缺陷区域,同时有效抑制背景噪声。优化模型在裂纹(a)边缘、断栅(b)位置和水平位移(c)分布等关键区域的响应高度集中,而初始YOLOv8n模型的响应较为分散,增加了误检风险。
11热力图可视化对比
Fig.11Heatmap visualization comparison
优化模型在复杂场景下,如短路造成的大面积特征丢失(d)、多缺陷共存(b)或亮度不均(e),依然保持稳定的热力分布,而初始模型在高噪声环境下易出现响应紊乱,难以稳定捕获缺陷区域。由此可得出结论:优化模型在定量性能指标、特征提取集中性、背景抑制能力和复杂场景鲁棒性方面均显著优于初始YOLOv8n模型。
2.6 与其他模型对比实验
为体现YOLOv8-DM性能,与主流目标检测模型进行对比,其结果见表5,这些模型可代表从轻量化到高性能的不同策略。所有模型训练过程中,除模型内置参数外均采用表1训练参数配置。
5各模型实验结果
Tab.5 Experimental results of various models
精确率方面,YOLOv8-DM为0.925,是所有对比模型中最高的,这表明该模型在减少误报方面具有优势,相较YOLOv8-BiFPN(0.905)、YOLOv9c(0.874)和ASF-yolo(0.842)有较大优势,仅有RT-detr-x(0.923)能在精度上接近YOLOv8-DM。召回率方面,YOLOv8-DM为0.887,体现其在识别正例的能力上的优越性能,与YOLOv8n和YOLOv6的召回率(0.857和0.896)相比,该模型可实现精度与召回率之间的平衡。在mAP50指标上,YOLOv8-DM(0.941)显著高于其他相近体量的模型,如YOLOv8s(0.934)、YOLOv6(0.922)和GoldYolo(0.922),对比计算量需求更大的Faster-RCNN(0.890)和RT-detr-x(0.939)也能略优,这表明该模型在适应复杂背景和多尺度目标检测任务时表现更优。
从模型复杂度和计算效率角度分析,该模型的参数量为1 981 040,显著小于YOLOv8s、YOLOv9c和ASF-yolo的,相较于初始YOLOv8n模型减少34%,体现其在硬件资源受限的环境中更好的适应性。计算效率方面,YOLOv8-DM的算力需求为6.564 GFLOPS,低于YOLOv9c(103.709 GFLOPS)、YOLOv8s(28.660 GFLOPS)和ASF-yolo(8.692 GFLOPS)。这种高计算效率使其能够快速推理,非常适合实时应用场景。其他模型如YOLOv3-tiny和YOLOv10n在参数量上虽相对较小,但其综合检测性能相比YOLOv8-DM存在较大差距,难以满足复杂场景中的高精度检测需求。
总体而言,YOLOv8-DM凭借其优异的精度、良好的召回率、最佳的mAP50,以及显著降低的参数量和计算复杂度,在本实验中表现突出。相比YOLOv8s、YOLOv9c等模型,YOLOv8-DM在保持高检测精度的同时,能有效减少对计算资源的需求,适合应用于需要快速响应和资源受限的环境中。
3 结论
本文针对光伏组件缺陷检测任务中存在的高人力和算力需求,以及现有检测模型在特征表达和多尺度目标识别能力上的不足,提出一种改进的轻量化模型YOLOv8-DM。该模型基于YOLOv8n进行优化设计,针对EL成像光伏组件缺陷检测的需求,引入DSFPN、iRMA以及融合动态卷积与Ghost模块的Ghost-D模块,以提升检测精度与鲁棒性。这些创新使得YOLOv8-DM能够在复杂检测场景中实现高精度的缺陷识别,同时显著降低计算资源的消耗。
实验验证YOLOv8-DM模型在重度数据增强后的PVEL-AD数据集上的表现,精度达到0.925,召回率和平均精度分别达到0.887和0.941,相较于原始YOLOv8n模型分别提升3%和3.3%。与其他主流目标检测模型相比,YOLOv8-DM模型参数量仅约为198万,算力需求仅为6.564 GFLOPS,相较于原始模型,参数量减少34%,计算复杂度降低20%。YOLOv8-DM的低计算复杂度和参数量,可以显著减少对硬件资源的依赖,更适合于参数和存储资源受限的设备上部署。
为进一步验证YOLOv8-DM模型在光伏缺陷检测任务中的性能提升,对改进模型与初始模型进行典型缺陷类型下ROC性能分析和热力图对比,AUC最大提升幅度达到7%,在检测较为简单缺陷类型上也能实现最低1%的提升;热力图可视化分析证实,YOLOv8-DM检测结果更为精准,且鲁棒性更强。结果证实,YOLOv8-DM能够较为成功地解决初始模型在特征表达能力和多尺度目标检测上的不足。
综上所述,YOLOv8-DM模型在光伏组件缺陷检测任务中展现出较高的实用性和应用前景。其在精准检测与资源消耗优化上的突破性表现,不仅可以为光伏组件检测领域提供一种高效、轻量化的解决方案,也为其他工业缺陷检测任务的模型优化提供一定参考。
1YOLOv8-DM整体框图
Fig.1YOLOv8-DM general framework
2倒置残差高效多尺度注意力机制
Fig.2Inverted residual efficient multi-scale attention mechanism
3瓶颈结构图
Fig.3Bottleneck structure
4Ghost-D结构
Fig.4Ghost-D structure
5尺度特征自适应金字塔网络结构
Fig.5DSFPN architecture diagram
6特征融合模块
Fig.6Feature fusion module
7多尺度特征增强机制
Fig.7MSFA mechanism
8EL图像采集子系统
Fig.8EL image acquisition subsystem
9缺陷样本占比
Fig.9Defective sample ratio
10各缺陷类型受试者工作特征曲线
Fig.10Receiver operating characteristic curves for each defect type
11热力图可视化对比
Fig.11Heatmap visualization comparison
1训练参数
2数据增强依据
3YOLOv8-DM消融实验
4DSFPN 消融实验
5各模型实验结果
JORDAN D C, KURTZ S R. Photovoltaic degradation rates:an analytical review[J]. Progress in Photovoltaics: Research and Applications,2013,21(1):12-29.
VENKATAKRISHNAN G R, RENGARAJ R, TAMILSELVI S,et al. Detection,location,and diagnosis of different faults in large solar PV system:a review[J]. International Journal of Low-Carbon Technologies,2023,18:659-674.
CIRIO M, DE LIBERATO S, LAMBERT N,et al. Ground state electroluminescence[J]. Physical Review Letters,2016,116(11):113601.
DEITSCH S, BUERHOP-LUTZ C, SOVETKIN E,et al. Segmentation of photovoltaic module cells in uncalibrated electroluminescence images[J]. Machine Vision and Applications,2021,32(4):84.
PURANIK V E, KUMAR R, GUPTA R. Progress in module level quantitative electroluminescence imaging of crystalline silicon PV module:a review[J]. Solar Energy,2023,264:111994.
HIJJAWI U, LAKSHMINARAYANA S, XU T H,et al. A review of automated solar photovoltaic defect detection systems:approaches,challenges,and future orientations[J]. Solar Energy,2023,266:112186.
FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained,multiscale,deformable part model[C]//Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8.
REDMON J, DIVVALA S, GIRSHICK R,et al. You only look once:unified,real-time object detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
LIU W, ANGUELOV D, ERHAN D,et al. Ssd:single shot multibox detector[C]//Proceedings of the European Conference on Computer Vision,2016:21-37.
CARION N, MASSA F, SYNNAEVE G,et al. End-to-end object detection with transformers[C]//Proceedings of the European Conference on Computer Vision,2020:213-229.
CHEN T, KORNBLITH S, NOROUZI M,et al. A simple framework for contrastive learning of visual representations[C]//Proceedings of the 37th International Conference on Machine Learning,2020:1597-1607.
SHI W J, RAJKUMAR R. Point-GNN:graph neural network for 3D object detection in a point cloud[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2020:1708-1716.
BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020-04-23)[2024-12-01].https://arxiv.org/abs/2004.10934.
SUN P Z, ZHANG R F, JIANG Y,et al. Sparse R-CNN:end-to-end object detection with learnable proposals[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2021:14449-14458.
ZHANG H, LI F, LIU S L,et al. DINO: DETR with improved denoising anchor boxes for end-to-end object detection[EB/OL].(2022-03-07)[2024-12-01].https://arxiv.org/abs/2203.03605.
XU S L, WANG X X, LV W Y,et al. PP-YOLOE:an evolved version of YOLO[EB/OL].(2022-03-30)[2024-12-01].https://arxiv.org/abs/2203.16250.
WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2023:7464-7475.
WANG A, CHEN H, LIU L H,et al. YOLOv10:real-time end-to-end object detection[EB/OL].(2024-05-24)[2024-12-01].https://arxiv.org/abs/2405.14458.
JIANG Y, ZHAO C H, DING W,et al. Attention M-net for automatic pixel-level micro-crack detection of photovoltaic module cells in electroluminescence images[C]//Proceedings of the 2020 IEEE 9th Data Driven Control and Learning Systems Conference(DDCLS),2020:1415-1421.
JIANG Y, ZHAO C H. Attention classification-and-segmentation network for micro-crack anomaly detection of photovoltaic module cells[J]. Solar Energy,2022,238:291-304.
LIU Y Q, WU Y Q, YUAN Y B,et al. Deep learning-based method for defect detection in electroluminescent images of polycrystalline silicon solar cells[J]. Optics Express,2024,32(10):17295-17317.
ALRIFAEY M, LIM W H, ANG C K,et al. Hybrid deep learning model for fault detection and classification of grid-connected photovoltaic system[J]. IEEE Access,2022,10:13852-13869.
ANIMASHAUN D, HUSSAIN M. Automated micro-crack detection within photovoltaic manufacturing facility via ground modelling for a regularized convolutional network[J]. Sensors,2023,23(13):6235.
HASSAN S, DHIMISH M. A survey of CNN-based approaches for crack detection in solar PV modules:current trends and future directions[J]. Solar,2023,3(4):663-683.
LI Q Y, LUO H, CHENG H,et al. Incipient fault detection in power distribution system:a time-frequency embedded deep-learning-based approach[J]. IEEE Transactions on Instrumentation and Measurement,2023,72:1-14.
LANG D, LV Z Z. A PV cell defect detector combined with transformer and attention mechanism[J]. Scientific Reports,2024,14(1):20671.
陶志勇, 于子佳, 林森. PSO_SVM算法在太阳能电池板裂缝缺陷检测研究[J]. 电子测量与仪器学报,2021,35(1):18-25.TAO Z Y, YU Z J, LIN S. Research on crack defect detection of solar cell based on PSO_SVM[J]. Journal of Electronic Measurement and Instrumentation,2021,35(1):18-25.(in Chinese)
GUO J. Computer vision-based algorithm for precise defect detection and classification in photovoltaic modules[J]. PeerJ Computer Science,2024,10:e2148.
周颖, 颜毓泽, 陈海永, 等. 基于改进YOLOv8的光伏电池缺陷检测[J]. 激光与光电子学进展,2024,61(8):0812008.ZHOU Y, YAN Y Z, CHEN H Y,et al. Defect detection of photovoltaic cells based on improved YOLOv8[J]. Laser & Optoelectronics Progress,2024,61(8):0812008.(in Chinese)
张冀, 王文彬, 余洋. 基于RFCARep-YOLOv8n的光伏电池缺陷检测算法[J]. 计算机工程与应用,2025,61(3):131-143.ZHANG J, WANG W B, YU Y. Defect detection of photovoltaic cells based on RFCARep-YOLOv8n[J]. Computer Engineering and Applications,2025,61(3):131-143.(in Chinese)
CHEN Y F, ZHANG C Y, CHEN B,et al. Accurate leukocyte detection based on deformable-DETR and multi-level feature fusion for aiding diagnosis of blood diseases[J]. Computers in Biology and Medicine,2024,170:107917.
AZAD R, NIGGEMEIER L, HÜTTEMANN M,et al. Beyond self-attention:deformable large kernel attention for medical image segmentation[C]//Proceedings of the 2024 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV),2024:1287-1297.
ZHANG J N, LI X T, LI J,et al. Rethinking mobile block for efficient attention-based models[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision(ICCV),2023:1389-1400.
OUYANG D L, HE S, ZHANG G Z,et al. Efficient multi-scale attention module with cross-spatial learning[C]//Proceedings of the 2023 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),2023:1-5.
HAN K, WANG Y H, XU C,et al. GhostNets on heterogeneous devices via cheap operations[J]. International Journal of Computer Vision,2022,130(4):1050-1069.
CHEN Y P, DAI X Y, LIU M C,et al. Dynamic convolution:attention over convolution kernels[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2020:11027-11036.
SU B Y, ZHOU Z, CHEN H Y. PVEL-AD:a large-scale open-world dataset for photovoltaic cell anomaly detection[J]. IEEE Transactions on Industrial Informatics,2023,19(1):404-413.