摘要
针对现有低照度图像增强网络对不同尺度特征信息存在感知与表达能力不足的问题,提出金字塔渐进融合低照度图像增强网络模型。网络对图像进行多次下采样操作以组成特征金字塔,通过在特征金字塔的三个不同分支上加入跳跃连接,将不同尺度的特征图进行相互融合。通过精细恢复模块进一步提取精炼信息,将特征图恢复到正常的光照图像。结果表明,该网络模型不但能有效地提升低照度图像的整体亮度,而且能很好地保持图像中的细节信息和清晰的物体边缘轮廓,同时能够有效地抑制图像中的暗部噪声,使增强后的图像整体画面真实自然。
Abstract
Since existing low-illumination image enhancement networks have insufficient ability to perceive and express feature information of different scales, a low-illumination image enhancement network model based on pyramid asymptotic fusion was proposed. The network performed multiple down-sampling operations on the image to form a feature pyramid. It fused the feature maps at different scales by adding skip connections to three different branches of the feature pyramid. Fine recovery module further extracted the refined information, and restored the feature map to a normal light image. Results indicate that, the network model not only effectively enhances the brightness of the overall low-illumination image, but also maintains the detailed information and clear edge contours of the objects in the image. Moreover, it can effectively suppress the dark noise, and make the overall enhanced image realistic and natural.
随着数字成像设备的普及,人们可以方便地获取大量的数字图像,但在拍摄场景光照条件较差或图像采集设备性能受限等情况下,容易产生低照度图像。低照度图像的整体亮度和对比度较低,将影响其实用价值。为提高低照度图像的实用性和清晰度,需要采取低照度图像增强方法进行处理。
传统低照度图像增强算法主要有直方图均衡化的方法、频域的方法和Retinex计算理论的方法。直方图均衡化的方法可以分为全局直方图均衡化[1]、局部直方图均衡化[2]、自适应直方图均衡化[3]、限制对比度自适应直方图均衡化[4]等,该类方法容易受到图像中伪影的影响。频域的方法主要利用小波变换[5]和傅里叶变换[6]来增强处理低照度图像,但该类方法需要人工参与变换参数的选择。Retinex计算理论的方法[7-9]利用颜色恒常知觉计算理论,通过获得反映物体固有属性的反射分量来实现图像增强处理。该类方法可以获得较好的图像增强效果,然而其模型计算复杂度高,且容易产生局部区域过曝现象。此外,余春艳等[10]和Dong等[11]采用去雾方法来实现低照度图像增强,但增强后的图像中物体边缘处容易出现伪影。这些传统算法的图像增强能力有限,模型泛化能力较差。
近年来,基于深度学习的低照度图像增强方法已成为研究热点。Lore等[12]提出堆叠稀疏去噪编码器对低照度图像进行增强去噪,但其增强的图像细节模糊,模型鲁棒性弱。Li等[13]和Wei等[14]将Retinex理论与卷积神经网络(convolutional neural networks,CNN)相结合,采用监督学习来训练网络参数以实现低照度图像增强,但容易产生边缘轮廓模糊的问题。Lü等[15]提出MBLLEN网络,通过多个子网进行增强,以多分支融合策略产生输出图像,但其增强图像整体模糊。Zhang等[16]提出KIND方法,具有很好的泛化力,但其图像锐化过度,局部细节不清晰。Jiang等[17]提出生成对抗网络(generative adversarial networks,GAN)的夜间图像增强模型,无须使用图像对进行训练,但其模型鲁棒性仍然较弱。文献[18-20]采用零样本学习方案来增强图像,将低照度图像增强看成曲线估计任务,但其增强的图像整体亮度偏暗。
虽然深度学习的方法是当前图像增强处理研究的主要趋势,但都是对同一尺度的特征图进行特征提取,导致对不同尺度图像特征的表达能力不足,图像细节容易丢失,噪声易被放大,边缘轮廓出现模糊。针对这些问题,有研究者将金字塔网络[21]和残差学习方式[22]引入低照度图像增强网络中,这些方法通过端到端的网络结构将特征信息进行有效的表达和传递。受此启发,本文提出了金字塔渐进融合低照度图像增强网络(pyramid asymptotic fusion low-illumination image enhancement network,PAFNet)。
对于低照度增强任务,局部信息和全局信息都是必不可少的,因为全局信息能够评估整个图像的光照状况,局部特征可以细化图像细节。PAFNet将特征金字塔的思想应用于低照度图像增强网络中,采用特征金字塔的结构可以合并来自不同层次的多尺度特征,使得网络模型可以包含多个尺度的特征信息,并使所有尺度上的特征图都具有较强的语义信息。PAFNet还改变现有深度学习的低照度图像增强网络对不同分辨率特征图的连接方式,采用并行多分支网络与跨层串行相结合的方式设计出金字塔渐进融合模块(pyramid asymptotic fusion module,PAFM)。该模块不仅将不同分辨率的特征图进行并行连接,而且在其基础上加入跳跃连接,把不同分辨率的特征图进行反复融合,在不同网络分支之间保持信息交互,使整个网络能够保持高分辨率的细节和语义信息。其次,还设计了精细恢复模块(fine recovery module,FRM),采用渐进融合的方式进一步提取精炼信息,从而恢复细节更加清晰、边缘更加明朗的正常光照图。此外,该网络模型还加入残差块来降低网络训练的复杂度,以减轻训练过程中梯度消散的问题,从而提高网络模型的稳定性。
1 算法模型
1.1 网络结构
有效利用低照度图像局部和全局特征,解决图像在增强过程中容易丢失细节的问题,提出的金字塔渐进融合低照度图像增强网络PAFNet的基本结构如图1所示,其中Conv3-32×1表示卷积核尺寸为3×3卷积层,通道数为32,执行1次卷积操作。PAFNet首先将原始低照度图像通过3×3卷积核以及LReLU(leaky rectified linear units)激活函数得到特征图Xi,其大小为H×W,与原始图像相同。之后对特征图Xi进行卷积核大小为2×2、步长为2的最大池化操作,得到特征图Yi(大小为H/2×W/2),以提取最显著的特征信息。为了进一步提取最显著的特征信息,对特征图进行卷积核大小为2×2、步长为2的最大池化操作,得到特征图Zi(大小为H/4×W/4)。需要说明的是,Xi、Yi、Zi是经过卷积、池化等操作得到的浅层特征图,用来组成特征金字塔。通过这种方式可以把低照度图像转换为特征图来提取浅层特征,以使特征图更加稀疏化,有利于更好地挖掘不同层次的特征信息。

图1模型网络结构
Fig.1Network structure of the model
PAFNet把取到的浅层特征图送入金字塔渐进融合模块PAFM中,进行深层次的特征提取和融合,从而得到含有丰富语义信息和细节信息的特征图。最后把PAFM模块中获得的深层特征图输入精细恢复模块FRM中进行逐层融合,恢复出正常的光照图像。整个网络的计算流程可以表示为:
(1)
(2)
(3)
(4)
(5)
其中:Input为原始低照度输入图像;Conv3×3表示大小为3×3、步长为1的卷积核;down_sampling表示采用最大池化操作对输入特征图进行尺度为1/2的降采样;Xi+11、Yi+11、Zi+11为经过金字塔渐进融合模块PAFM输出的特征图,其大小分别为H×W、H/2×W/2和H/4×W/4;Ooutput为经过FRM模块逐层融合得到最终的正常光照图。
为了保持深层网络的学习能力,训练更高效的网络模型,PAFNet还使用残差块来确保特征信息的有效传递。该模块采用跳跃连接,将输入特征图直接与输出特征图进行相加,然后经过大小为3×3的卷积层。与普通卷积相比,残差块可以捕捉到更多的图像特征信息,能有效改善网络模型的稳定性。
研究表明,批正则化(batch normalization,BN)可以加速网络模型的训练速度。将BN操作应用于残差块Res_Block,可以更好地解决网络模型中的梯度消散问题。该处理过程可以表示为
(6)
式中,R_in是输入残差块的特征图,R_out是经过残差块输出的特征图,Add表示逐像素相加。
1.2 PAFM模块
为了提高低照度图像增强网络对不同尺度特征的表达和感知能力,PAFNet设计了PAFM模块,该模块由两个阶段组成,其网络结构如图2所示。由于在低照度图像增强任务中挖掘和利用图像的深层特征非常重要,同时考虑到模型复杂度的问题,因此在PAFM模块中每个分支都包括6个残差块和5个卷积层来提取图像的深层次特征。

图2PAFM模块结构
Fig.2PAFM module structure
PAFM模块有三个不同尺度的分支,其中特征图Xi所在的分支拥有高分辨率的特征图,它们具有较小的感受野,能获得小区域图像信息;特征图Yi所在的分支拥有中分辨率的特征图,可以同时获得图像细节和整体结构信息;特征图Zi所在的分支拥有低分辨率的特征图,具有较大的感受野,可以更好地获取图像的整体结构。
PAFM模块在第一阶段将特征信息从低分辨率分支输入高分辨率分支中,通过加入从低分辨率到高分辨率的重建过程,使网络获得具有结构信息的高分辨率特征图,从而提高了对图像整体结构的恢复能力。通过第一阶段,网络可以获得亮度适当增强但细节较少的粗糙图像。该阶段的计算过程可以表示为:
(7)
(8)
(9)
其中:Xi、Yi、Zi分别为并行的三个具有不同分辨率的特征图,其大小分别为H×W、H/2×W/2和H/4×W/4;Res1、Res2、Res3分别表示输入大小为H×W、H/2×W/2和H/4×W/4的残差块,它们具有相同的网络结构,但其输入特征图的尺寸不同;Xi+1、Yi+1、Zi+1分别是经过Res1、Res2、Res3得到的特征图,其大小分别为H×W、H/2×W/2和H/4×W/4;down_sampling为最大池化操作,Cat表示连接操作,“×2”表示最大池化和卷积操作执行2次。
PAFM模块在第二阶段将特征信息从高分辨率分支输入低分辨率分支中。经过第一阶段的多层卷积和残差块操作,图像细节信息损失严重。为解决该问题,PAFM模块将高分辨率特征图加到低分辨率特征图中,使网络模型在恢复图像整体结构的同时,还能不断地找回丢失的细节信息。通过第二阶段,网络可以获得亮度进一步增强、细节信息更加丰富的精细图像。该阶段的计算过程可以表示为:
(10)
(11)
(12)
其中:Xi+6、Yi+6、Zi+6是第二阶段输入的特征图,其大小分别为H×W、H/2×W/2和H/4×W/4;Xi+7、Yi+7、Zi+7分别是经过Res1、Res2、Res3模块输出的特征图;up_sampling为大小为2×2、步长为2的转置卷积操作。
1.3 FRM模块
为了提高网络模型的稳定性,让网络能够输出细节和边缘更加清晰的正常光照图像,PAFNet设计了FRM模块,该模块的网络结构如图3所示。FRM模块由1个Res1、2个Res2、1个Res3和6层卷积(卷积核为3×3、步长为1)组成。首先,它将PAFM模块的输出特征图进行逐层融合,将通过Res1低分辨率特征图Zi+11与通过Res2的中分辨率特征图Yi+11进行融合,得到中分辨率特征图Yi+12(大小为H/2×W/2)。然后,为了提取精炼信息,将通过Res2的中分辨率特征图Yi+12和通过Res3的高分辨率特征图Xi+11进行融合,得到与原始图像一样大小的特征图N。最后,将高分辨率特征图N输入6层卷积中得到正常的光照图。该模块的计算过程可以用式(13)~(15)表示。

图3FRM模块结构
Fig.3FRM module structure
(13)
(14)
(15)
其中,Output为最终输出的正常光图像,“×6”表示Conv3×3操作重复执行6次。
1.4 损失函数
为了让图像增强结果的纹理细节更清晰,亮度分布更合理,将均方误差(mean square error,MSE)、结构性相似度(structural similarity index,SSIM)和梯度损失(gradient loss,GL)结合起来作为图像增强模型的联合训练损失,其计算公式如下:
(16)
MSE损失函数是网络训练时常用的回归损失函数,在训练过程中具有较好的收敛性,其计算公式为:
(17)
式中:I表示原始正常图像,其大小为S×T;K表示经过网络模型增强后的图像。
为了衡量增强后的低照度图像和正常光照图像之间的结构相似性,在联合训练损失中加入了SSIM损失函数,其计算公式为:
(18)
式中,μx和μy分别为图像x和y的均值,σ2x和σ2y分别是图像x和y的方差,σxy表示图像x和y的协方差,c1和c2为默认调节参数。
为了避免网络在训练过程中陷入局部最优解,在联合训练损失中加入了梯度损失函数,其计算公式为:
(19)
式中:是梯度算子,包含图像x和y两个维度方向;和分别表示水平和垂直方向的梯度;Rhigh和Rlow分别代表正常光照图像和低照度图像的像素值。
2 实验部分
本节实验将提出的PAFNet与现有经典方法进行性能比较和评估,并进行消融实验。基于LOL数据集对比了经典的低照度图像增强算法。为了说明实验的有效性,又基于PASCAL VOC数据集对比了2019至2021年最新深度学习方法的低照度图像增强算法。实验平台配置Intel Xeon W-2102 2.90 GHz CPU、8 GB RAM和Nvidia2080 GPU,实验程序在Tensorflow 1.15框架上运行,联合损失函数的权重参数设置为:α=β=γ=1。
2.1 定性分析
2.1.1 在LOL公开数据集上的测试
本小节实验将提出的PAFNet模型与9种经典低照度图像增强算法进行比较:MSRCR[7],DONG[11],NPE[23],SRIE[8],MF[9],LIME[24],BIMEF[25],MBLLEN[15],KIND[16]。其中,MBLLEN和KIND为近阶段提出的深度学习的低照度图像增强方法,其他7种为传统的低照度图像增强方法。在本实验中,网络模型的训练和测试采用LOL公开数据集[14],其包含485对低光/正常光训练图像和15幅低照度测试图像。
图4所示为LOL数据集中的3幅测试图像以及10种对比方法得到的低照度图像增强实验结果,第一幅为“游泳馆”图像,第二幅为“衣柜”图像,第三幅为“玩偶”图像。其中LOW和HIGH分别表示低照度图像和正常光照图像。可以看出,本文模型可以有效地增强低照度图像的亮度,还原图像细节,同时还能有效去除暗部区域中的噪声。
图4LOL数据集实验对比
Fig.4Experimental comparison on the LOL dataset
图5、图6、图7分别给出了“游泳馆”“衣柜”和“玩偶”3幅测试图像的局部细节对比。可以看出,DONG、SRIE和BIMEF方法计算得到的增强图像整体亮度仍然偏暗;MSRCR方法在其增强图像的局部区域出现了过曝现象;BIMEF、MBLLEN和KIND方法在其增强图像的物体边缘会出现模糊现象;MSRCR、DONG、SRIE、BIMEF、MF、NPE和LIME方法在其增强后的图像中产生了大量噪声。相比之下, PAFNet方法不但能更好地提升增强图像的整体亮度,而且能防止出现局部区域过曝,其增强后的图像保持了丰富的物体细节信息和清晰的边缘轮廓,同时还能有效抑制暗部噪声,使整体画面比较干净、真实自然。
2.1.2 在PASCAL VOC公开数据集上的测试
本小节实验将提出的PAFNet模型与5种深度学习的低照度图像增强算法进行比较:DRBN[26],DSLR[27],KIND++[28],RRDNet[19],EnlightenGAN[17]。其中DSLR和KIND++为监督学习方法,DRBN是半监督学习方法,EnlightenGAN是无监督学习方法。RRDNet是采用零样本学习方案。
在本实验中,网络模型的训练和测试采用PASCAL VOC公开数据集[29],其包含人工合成的16 925幅低照度图像、144张测试图像。该数据集在合成时对相应普通图像的每个通道进行随机伽马调整,并加入了峰值为200的泊松噪声。
图5“游泳馆”图像细节对比
Fig.5Detailed comparison of the “natatorium” image
图6“衣柜”图像细节对比
Fig.6Detailed comparison of the “wardrobe” image
图7“玩偶”图像细节对比
Fig.7Detailed comparison of the “doll” image
图8所示为PASCAL VOC数据集中的4幅测试图像以及6种对比方法得到的低照度图像增强实验结果。4幅测试图像分别取名为“人”“瓶子”“墙”“飞机”。可以看出,DRBN算法图像细节不够丰富;DSLR和RRDNet算法在图像整体亮度提升上不够理想,有些黑暗的地方仍模糊不清;EnlightenGAN算法出现了少量噪声,图像细节轮廓模糊;KIND++算法产生了过曝的现象。相比之下,PAFNet方法不但能更好地提升低照度图像的整体亮度,而且能有效地去除原始低照度图像中的噪声,同时增强后的图像保持了丰富的物体细节和清晰的边缘轮廓,整体画面表现自然真实。
2.2 定量分析
本节实验采用图像质量客观评价指标来评估所提出的PAFNet模型。选用的评价指标包括峰值信噪比(peak signal-to-noise ratio,PSNR)、SSIM、信噪比(signal-to-noise ratio,SNR)、视觉信息保真度(visual information fidelity,VIF)、亮度顺序误差(lightness order error,LOE)及信息保真度准则(information fidelity criterion,IFC)。其中MSE值越小则PSNR值和SNR值越大,表明图像的质量越好,失真越少;SSIM值越大,表明图像的质量越好,更符合人眼的评判标准;VIF和IFC值越大则说明图像质量越好,细节保留得越好;LOE值越小则待测图像越接近真实图像。
表1、表2、表3分别给出了对应LOL数据集中3幅测试图像的各种对比方法所得到的客观评价指标(表中加粗字体为每列最优值,后文同)。可以看出,在表1中除了PSNR、SNR指标略低于KIND外,PAFNet模型在其他评价指标上都是最优的,而且在IFC、LOE、运行时间三个评价指标上明显优于其他对比方法。在表2和表3中,除了LOE指标外,本文PAFNet模型在PSNR、SSIM、SNR、VIF、IFC、运行时间指标上明显优于其他对比方法。另外,在表4中还给出了LOL数据集中全部15幅测试图像所对应各种方法的平均指标。可以看出,PAFNet模型在整个数据集上的平均指标也明显优于其他所有对比方法。由此可见,本文该研究方法对低照度图像增强的效果在客观评价指标上明显优于其他9种对比方法。
表5给出了对应PASCAL VOC数据集中的4幅测试图像的各种基于深度学习的低照度图像增强方法所得到的客观评价指标。可以看出,对于“人”“瓶子”“飞机”三幅测试图像,PAFNet在所有6种客观评价指标上,都明显优于其他5种深度学习的方法。对于“墙”测试图像,除了LOE指标外,PAFNet在PSNR、SSIM、SNR、VIF、IFC指标上明显优于其他对比方法。由此可见,本文研究方法对各种场景类型的图像都能进行有效的低照度增强处理,在客观评价指标上优于现有的深度学习方法。
图8PASCAL VOC数据集实验对比
Fig.8Experimental comparison on the PASCAL VOC dataset
表1“游泳馆”图像评价指标对比
Tab.1 Comparison of the evaluation metrics of the “natatorium” image

表2“衣柜”图像评价指标对比
Tab.2 Comparison of the evaluation metrics of the “wardrobe” image

表3“玩偶”图像评价指标对比
Tab.3 Comparison of the evaluation metrics of the “doll” image

表4整个LOL数据集的图像评价指标对比
Tab.4 Comparison of the image evaluation metrics of the whole LOL dataset

表5PASCAL VOC数据集评价指标对比
Tab.5 Comparison of the evaluation metrics of the PASCAL VOC dataset

2.3 消融实验
本节对提出的PAFNet网络模型中各个网络模块进行消融实验,本实验采用LOL数据集。为公平比较,实验均在相同设置下进行训练,采用PSNR、SSIM和MSE三个指标来定量评估模型中各个模块的有效性。
表6给出了采用LOL数据集中的“玩偶”图像来进行消融实验所得到的客观评价指标。另外,AVG_PSNR是采用LOL数据集中所有15幅测试图像所得到的平均峰值信噪比。为了验证联合损失函数中所采用的3个损失函数的有效性,每次训练分别移除其中一个损失函数来进行消融实验。从表6中可以看出,移除梯度损失、SSIM损失、MSE损失当中的任何一个损失函数后,网络模型所得到的低照度图像增强效果的客观评价指标都会有明显劣化。特别是移除梯度损失函数会对结果产生较大的影响。若采用全部三种损失作为联合损失函数对网络模型进行训练,会得到最好的实验结果。
为了验证模型中精细恢复模块FRM和残差块Res_Block的有效性,每次训练分别移除其中一个网络模块来进行消融实验,如表6所示。从表中可以看出,加入Res_Block模块和FRM模块能够有效提升低照度图像的增强效果。加入FRM模块后,AVG_PSNR指标提升了3.16%;而加入Res_Block模块后,AVG_PSNR指标提升了6.80%。为了直观表示消融实验中评价指标的变化情况,将消融实验的各个数据绘制成散点图和折线图,如图9和图10所示。其中,图9所示为各消融实验在迭代2 000次后所得到的平均PSNR值。可以看出,PAFNet的基础模型能取得最好的结果。图10所示为各消融实验每隔200次迭代所得到的平均PSNR值及其变化情况。由此可见PAFNet的基础模型在充分训练以后能逐步达到最好的实验结果。
表6关于损失函数和网络结构的消融实验
Tab.6 Ablation experiments on the loss function and the network structure


图9消融实验散点图
Fig.9Scatter diagram of the ablation experiment

图10消融实验折线图
Fig.10Broken line diagram of the ablation experiment
PAFM模块是PAFNet的核心,为了分析PAFM模块采用不同上下采样数量(即模型深度)对网络性能的影响,表7给出了在上下采样数量分别为2、3、4、5层时,网络模型所得到的AVG_PSNR、AVG_SSIM、AVG_MSE指标。可以看出,当上下采样数量为3层时,网络模型能取得较为理想的结果。虽然5层的效果也很好,但其网络参数量及训练所消耗的时间会急剧增加,计算和存储成本也随之增加。因此,算法模型最终将金字塔渐进融合模块PAFM的上下采样数量设定为3层网络。
表7关于上下采样数量的消融实验
Tab.7 Ablation experiments on the number of upper and lower sampling

3 结论
本文提出了基于金字塔渐进融合的低照度图像增强网络模型。在网络训练过程中采用渐进融合的策略,对网络进行端到端的有监督学习。由于使用跳跃连接将高、低分辨率的特征图进行反复融合,所以金字塔结构的各网络层可以学习相邻层的图像特征信息,从而提高了网络对不同尺度特征的表达能力,而且使整个网络保持高分辨率的细节信息和语义信息。为了验证所提出网络模型的有效性,从主观视觉和客观性能指标角度评价了PAFNet模型对低照度图像的增强处理效果。实验结果表明,与现有方法相比,PAFNet模型具有更优的性能。在增强图像亮度的同时,能保持更多的图像结构和纹理信息,而且可以有效地去除图像黑暗区域中的噪声。
基于研究提出的低光照图像增强网络模型,未来的研究工作将会涉及以下两个方面的应用:一方面,将该网络模型应用于云南壁画文化遗产的数字化保护研究,针对在野外低光照情况下采集到的古代壁画图像,需要尽可能地提升壁画图像的亮度,同时还需要更真实地还原壁画图像的细节信息,以便后续的破损壁画数字化修复研究;另一方面,将进一步研究能应用于视频监控系统的低照度视频增强方法,以提高夜间或低光照情况下的实时视频监控能力。