摘要
扩散模型是一种新型生成式人工智能模型,相比生成对抗网络、变分自编码网络、流模型等传统网络,具有训练稳健、生成保真性与多样性高、数学可解释性强等特点,在计算机视觉、信号处理、多模态学习等领域应用广泛。扩散模型能够充分学习挖掘训练图像的深度生成先验,为解决图像处理逆问题提供了一类全新解决范式。为了系统性梳理扩散模型发展现状,特别是其解决图像处理逆问题的最新进展,对面向图像处理逆问题的扩散模型研究进行了综述,阐述了扩散模型的基本原理及其发展现状,重点介绍了利用扩散模型解决图像处理逆问题的主要技术路线,以及在该方向的具体应用成果,并展望了未来研究方向。
Abstract
Diffusion models represent a novel type of generative artificial intelligence models. Compared to traditional networks such as generative adversative networks, variational autoencoders, and flow models, diffusion models are characterized by their robust training, high fidelity and diversity in generation, and strong mathematical interpretability, and so they are widely used in fields of computer vision, signal processing, multi-modal learning and so on. Diffusion models are capable of sufficiently learning and exploring the deep generative priors from the training images, providing a novel paradigm for solving inverse problems in image processing. In order to systematically sort out the development status of diffusion model, especially the latest progress in solving the inverse problem of image processing, the research of diffusion model for the inverse problem of image processing was reviewed. The basic principle and development status of diffusion model was expounded, the main technical route of using diffusion model to solve the inverse problem of image processing and some specific application results in this direction were emphatically introduced, and the future research directions were envisioned.
生成式人工智能模型(简称生成模型)是一种利用人工智能技术生成文本、图像、视频等内容的深度学习网络,其通过对训练数据的统计分布进行建模,能够生成符合该统计分布的新样本。早期的生成模型主要有玻耳兹曼机[1]、深度信念网络[2]以及深度玻耳兹曼机[3],泛化能力较差;之后的生成模型如生成对抗网络[4](generative adversarial networks,GAN)、变分自编码器[5](variational auto-encoder,VAE)、流模型[6-7](flow models)、基于能量的模型[8](energy based model,EBM)、自回归模型[9]等,在生成高质量样本方面取得了显著进步。然而这些传统的生成模型存在着训练过程不稳定、生成样本的保真性和多样性不足等问题。在此背景下,扩散模型应运而生,特别是随着OpenAI发布的基于扩散模型的文生图模型GLIDE[10]以及Stability AI发布的开源文生图扩散模型Stable Diffusion[11],扩散模型持续引领生成模型的研究热潮。从数学上讲,扩散模型包括两个马尔可夫链,对应着正向加噪过程与反向去噪过程,前者通过网络训练学习训练图像的统计分布信息,后者通过迭代推理生成新的图像数据,因此扩散模型具有很强的数学可解释性。此外,相比传统生成模型,扩散模型还具有训练稳健、生成内容可控、保真度与多样性高等优点。因此,扩散模型一经提出便在计算机视觉[12-17]、自然语言处理[18-21]、时间序列分析[22-24]、多模态转换[25-27]等领域以及诸多实际应用[28-31]中展示出了显著优势。
图像处理逆问题主要源于航天侦察、遥感监测、医学成像、安全监控、智能驾驶等应用领域,包括图像去噪、图像超分辨、图像修复、图像解模糊、图像去雨、图像去雾、图像去马赛克等具体方向[32-37]。事实上,相位恢复、计算成像、光谱解混、压缩感知等问题也可视为广义图像处理逆问题[38-41],其都是从观测到的(图像)数据反演推断原始场景信息,都需要有效克服逆问题的病态性才有望获得稳定唯一解。解决图像处理逆问题的传统方法主要有以小波分析为代表的计算调和分析法[42]、偏微分方程方法[43]、基于统计的方法[44]和变分推断方法[45]。这些传统方法主要依赖模型驱动的先验信息,表征能力有限,深度学习为提取数据驱动的先验信息提供了方法途径。扩散模型作为深度学习中新型的生成模型,在解决图像处理逆问题时极具应用潜力[46]。扩散模型能够充分学习挖掘训练图像中的深度生成先验,可为解决图像处理逆问题提供更加有效的先验约束,进而克服图像处理逆问题的病态性、显著提升图像处理质量。
目前,国内外只有较少的综述[47-51]总结了扩散模型的起源进展,尚未检索到专门面向图像处理逆问题的扩散模型综述。因此,本文从扩散模型的基本原理出发,系统梳理总结了扩散模型的发展历程和最新进展,详细探讨了利用扩散模型解决图像处理逆问题的主要技术途径,并介绍了本团队基于扩散模型解决几类典型图像处理逆问题的基本思路和具体成果,最后探讨了扩散模型在图像处理逆问题领域中亟须解决的问题和未来研究方向。
1 扩散模型
1.1 扩散模型的基本原理
尽管早在2015年已经提出了扩散模型的理论构想,但目前学术界普遍将2020年Ho等提出的去噪扩散概率模型[52](denoising diffusion probabilistic models,DDPM)视为扩散模型的起点,其灵感来自非平衡热力学[7],核心思想是模拟热力学中的扩散过程,将结构化的数据逐步转换成无结构的噪声数据,从而学习数据分布特性,然后通过逆向推理将噪声数据再转化生成为服从原数据分布的新数据。扩散模型最早是以离散形式提出来的,后由Song等[53]推广到了连续形式,这些都是无条件生成扩散模型,难以对生成内容进行控制,学者们随即提出了用于可控生成的条件扩散模型。下面针对上述几类典型形式的扩散模型分别进行阐述。
1.1.1 离散形式扩散模型
扩散模型的离散形式同样包括正向扩散与反向去噪两个过程。正向扩散过程首先产生一系列服从高斯分布的噪声数据,并将其逐步地添加到图像数据中,进而得到一个马尔可夫链:

(1)
式中:εt~(0,I)为服从标准高斯分布的噪声数据;αt∈(0,1)为添加噪声强度相关的超参数,满足0<αT<αT-1<···<α1<1;x0为初始图像数据;T为正向过程总步数。据此可知,
(2)
表明任意t时刻的图像数据xt只依赖于t-1时刻的图像数据xt-1。进一步利用重参数化技巧[54]可以将式(1)与式(2)分别重写为:

(3)
(4)
其中,。由上式可知,当t→T时,,即正向加噪过程将图像数据逐步退化成噪声数据。
反向去噪过程从服从高斯分布的噪声数据xT~(0,I)出发,通过
(5)
逐步实现对图像数据的去噪。其中,对的估计采用深度神经网络
(6)
实现,θ为网络参数,其训练过程采用的损失函数是Sohl-Dickstein等[55]基于变分推断得到的证据下界(evidence lower bound,ELBO),等价于优化
(7)
其中,KL(·)表示Kullback-Leibler散度(KL散度)。损失函数的直观解释是在每个t时刻,要使尽可能地接近正向过程中的真实后验概率。考虑到的方差是一个仅与正向扩散过程参数有关的常数,因此的协方差Σθ(xt,t)也可设置为与正向扩散过程参数有关的常数。此时损失函数可转化为关于均值的函数,而由贝叶斯公式可知,均值可进一步表示成
(8)
因此,训练损失函数进一步转化为关于噪声网络的函数,即
(9)
式中,为期望算子,(0,1)为均匀分布,噪声网络经常选择U-Net[56]网络。网络参数经上述损失函数训练好后,可由式(6)迭代生成新数据。
1.1.2 连续形式扩散模型
DDPM的正向扩散与反向去噪过程都设定成具有固定步数的离散过程,事实上其可以视为连续过程的离散采样,连续过程可用随机微分方程(stochastic differential equation,SDE)来描述[53],其正向扩散过程可以表示为
(10)
式中,随机微分方程的飘移系数f(x,t)和扩散系数g(t)分别决定了确定性变化过程与不确定性变化过程,w表示标准的布朗运动,dw可以视为无穷小的高斯白噪声。与式(10)相对应的反向去噪过程为
(11)
式中:dt为负无穷小的时间步长,表示时间反向的布朗运动;为评分函数,可由一个神经网络进行估计,训练的损失函数为
(12)
λ(t)为加权函数,t服从0到T的均匀分布。
类似地,在正向扩散过程中通过优化式(12)中的损失函数,可以训练的网络参数;在反向去噪过程中,通过估计评分函数,进而利用式(10)生成新数据。连续形式扩散模型的意义在于为扩散模型提供了一个数学上的统一视角,可以借助SDE相关的数学工具分析扩散模型性质,据此可进一步对扩散模型进行改进和优化。
1.1.3 条件扩散模型
扩散模型无论是离散形式还是连续形式,在生成图片时都是从高斯噪声数据出发,利用反向去噪过程逐步生成与训练图像数据统计分布一致的新图片数据。由于初始噪声数据具有随机性,且反向去噪过程中每步都施加随机噪声,因此扩散模型每次生成的图像内容大概率是不同的,即生成的图像具有高多样性。该特性适用于数据增强等实际任务,但解决图像处理逆问题需要生成的图像逼近原始图像,显然扩散模型的不可控生成难以胜任该任务。
针对扩散模型的可控生成,专家学者提出了条件扩散模型。假设引入条件y来控制扩散模型的生成过程,则反向去噪过程的迭代估计依赖条件概率分布。Dhariwal等[57]证明了增加条件y对正向扩散过程没有影响,即条件扩散模型的正向扩散过程与(无条件)扩散模型的正向去噪过程完全一样,引入条件只影响反向去噪过程。据此,Dhariwal等提出了一种利用图片类别标签引导图像生成的方法,即 Classifier-Guidance,这大幅度提升了扩散模型生成相应类别图像的质量,并在评价生成图像质量的启发式分数[58](inception score,IS)和弗雷歇距离[59](Fréchet inception distance,FID)两个指标上优于传统生成模型。具体而言,上述方法从连续形式扩散模型出发,引入条件y后,反向去噪过程(11)中评分函数变为条件评分函数,而后者依据贝叶斯公式可写为
(13)
式中,第一项称为先验评分函数,就是无条件扩散模型本身的评分函数;第二项称为似然评分函数,其中可代表一个分类器,x与y分别是分类器的输入与类别标签。分类器经独立训练后,在可控生成时对的估计可表示为
(14)
即条件扩散模型可视为由无条件扩散模型经过分类器引导修正后得到。
相比Classifier-Guidance方法需要独立训练分类器实现条件引导,谷歌团队在2022年提出了基于Classifier-Free[60]的条件扩散模型,其特点是避免使用分类器,而是直接训练来估计条件评分函数。Classifier-Free方法对于生成结果的控制更精确,生成质量更好,但对于任给的不同条件都需要重新训练神经网络,故训练成本太高。
上述条件扩散模型是探索条件引导下的可控扩散模型的先驱,为后续应用扩散模型解决图像处理逆问题提供了参考借鉴。
1.2 扩散模型的优化提升
尽管扩散模型一经提出便引起了广泛关注,但在实际应用中仍面临着瓶颈问题,例如经典扩散模型DDPM是基于马尔可夫链的,正反过程都需要大量迭代,训练成本和推理复杂度高,同时生成质量以及适用条件距离实际应用还有一定差距,因此需要在生成质量与生成效率两个方面探索扩散模型的优化提升方法。目前图像质量评价主流指标有:IS[58]、FID[59]、Recall(召回率)[61]、负对数似然(negative log likelihood,NLL)、核心初始距离[62](kernel inception distance,KID),以及用于表征正确分类的对抗样本数量与对抗样本总数的Robust指标等。
1.2.1 噪声优化
高斯噪声是扩散模型涉及的主要噪声类型,优化噪声可以提升扩散模型效能,使得生成结果质量提升。针对DDPM,Nichol等[63]在正向扩散过程中添加余弦噪声,获得了更好的对数似然性,并且通过为反向去噪过程添加可学习的方差实现了对生成步骤的优化。而Kingma等[64]在预测噪声时使用了傅里叶特征,并通过分析扩散模型的变分下限发现扩散损失只受信噪比函数极值的影响。San-Roman等[65]使用 VGG-11卷积神经网络实现对噪声参数的动态调整,生成最优的噪声参数,可生成具有更低FID的图像样本。此外,Wang等提出的提纯导向扩散模型[66](guided diffusion model for purification,GDMP)将提纯过程嵌入反向去噪过程,通过选择合适的扩散时间步长,使高斯噪声在抵消对抗性扰动的同时能够保留图像的主要内容。
上述噪声优化方法的主要性能评估如表1所示,噪声优化方法主要目的在于降低生成图像的FID指标,同时有助于提升后续目标检测分类等任务,例如GDMP方法重点在于保证模型在面对对抗样本时仍然能够做出正确的预测。
1.2.2 马尔可夫链优化
去噪扩散隐式模型[67](denoising diffusion implicit models,DDIM)是一种基于非马尔可夫过程的扩散模型,能够在保持训练损失函数不变的前提下实现生成推理的加速。DDIM可以使用具有任意步骤的正向扩散过程来训练神经网络,但在反向去噪过程中只从其中某些步骤进行迭代推理(采样),这便通过减少采样步数加速了扩散模型的反向去噪过程,且通过对采样步骤和方差的控制优化显著降低了对生成图像质量的影响。基于DDIM,Zhang等提出了广义去噪扩散隐式模型[68](generalized denoising diffusion implicit models,gDDIM),其从数值计算的角度出发,在求解随机微分方程时使用评分函数的特定近似值来获得DDIM,并证明了使用确定性的采样方案相比随机采样方案会更快地实现生成推理。
表1噪声优化性能评估
Tab.1 Performance evaluation of noise optimization

上述马尔可夫链优化方法的主要性能评估如表2所示,其中Steps指标表示采样步数。马尔可夫链优化主要目的是在有效缩减采样步数的同时,保持甚至提高图像生成质量。
表2马尔可夫链优化性能评估
Tab.2 Performance evaluation of Markov chain optimization

1.2.3 采样算法优化
采样算法优化可以提升扩散模型的生成质量以及效率。在提升生成质量方面,Song等[69]通过使用依赖噪声生成尺度的采样策略,提高了扩散模型在高分辨率图像生成的稳定性;Jolicoeur-Martineau等[13]提出了一致性采样方案,结合由评分函数和对抗式目标函数组成的混合目标函数,提升了扩散模型的生成图像质量;Liu等[70]从求解流形中的微分方程视角出发,通过计算发现使用伪数值方法生成的样本质量高于常规数值方法。在提升生成效率方面,Jolicoeur-Martineau等提出了一种具有自适应步长的高效SDE求解器[71],其仅需要进行两次评分函数的评估,不依赖于负样本,比传统Euler-Maruyama求解器快2~10倍;Bortoli等[72]通过解决路径空间上的熵正则化最优传输问题,提高扩散模型的生成效率。Dockhorn等将扩散模型与统计力学相关联,提出了一种临界阻尼Langevin扩散模型 [73](critically-damped Langevin diffusion,CLD),其在模型中添加一个需要学习的速度变量,进而从训练数据中学习以该速度为条件的条件评分函数,相较于直接学习训练数据的评分函数,在降低学习成本的同时提升了扩散模型生成高分辨率图像的能力。
上述采样算法优化方法的主要性能评估如表3所示。采样算法优化使得扩散模型的求解效率有所提高,同时较为显著地提升了图像的生成质量。
表3采样算法优化性能评估
Tab.3 Performance evaluation of sampling algorithm optimization

1.2.4 多模型结合
在扩散模型与传统生成模型结合方面,Sinha等[74]提出了具备对比表征的扩散解码模型,通过学习扩散先验分布来改进生成质量,再使用对比自监督学习来提高表征质量,最终实现少快拍条件图像生成;Peebles等[75]结合Transformers模型[76]将反向去噪过程中的神经网络由传统的U-Net网络替换为Transformers网络,并发现当提高网络深度广度或者增加字符时,可以获得更好的训练效果;Wang等将GAN模型与扩散模型相结合[77],提高了生成样本的稳定性。此外,Zhang等[78]在微分方程的基础上,将标准化流[6]与SDE相结合,通过联合训练正向与反向神经网络,最小化关于二者差异的共同成本函数,生成效果得到显著提升;Kim等[79]也采用了类似的思路,在SDE模型基础上提出了一种非线性扩散模型,融合了可训练的标准化流与扩散过程,通过流网络在隐空间中进行线性扩散来学习噪声分布,再回到原空间实现非线性扩散。
上述多模型结合方法的主要性能评估如表4所示,可以看出,多模型结合方法通过扩散模型与传统生成模型的结合,实现了在多种数据集上的生成图像视觉质量的提升。
表4多模型结合性能评估
Tab.4 Performance evaluation of multi-model combination

1.2.5 其他方面优化
Watson等[80]在反向去噪过程中融入了动态规划算法,将ELBO分解为单独的KL散度项,通过最小化KL散度来最大化ELBO,优化传统的推理路径,提高了推理效率。Xiao等[81]在反向去噪过程中利用GAN区分真实样本和生成样本,从而提高了最小化KL散度的推理效率。Bao等[82]使用对角和完全协方差来优化时间步长,提高了DDPM的生成效率。Chung等[83]认为从高斯噪声开始反向去噪完全没有必要,其使用随机差分方程的收缩理论优化了反向去噪过程中的初始化图像,显著减少了反向去噪过程中的步数,提高了生成效率。针对高维数据,Deasy等[84]提出将广义高斯噪声引入扩散模型,以提升评分函数估计精度、可控生成的收敛性以及在不平衡数据集上的生成性能,从而改进传统扩散模型在高维数据生成上的表现。Karras等[85] 认为基于扩散模型的理论和实践目前过于复杂,提出了一个清晰分离具体设计选择的设计空间来解决这个问题,据此改进了训练过程和采样过程中网络架构、训练求解器、参数选择等,实现了生成性能的显著提升。
上述其他方面优化方法的主要性能评估如表5所示,可以看出其他方面的优化方法同样实现了扩散模型在各类数据集上的生成质量提升,但是大部分方法在高维数据生成上并未展示出实际效果。
表5其他方面优化性能评估
Tab.5 Performance evaluation of other optimization

最后梳理总结扩散模型的优化提升方法。首先,上述优化提升方法不论是去噪过程、采样算法,还是改变神经网络构型、优化损失函数,都是在扩散模型基本框架下实施的,都未突破扩散模型的基本原理,这便于在保持扩散模型固有优势前提下提升模型性能。其次,上述优化改进确实能够提升模型性能,主要表现于生成质量与生成效率两个方面。生成质量的提升主要表现在IS、FID等指标及视觉效果上,生成效率的提升表现在采样过程的步数更精简、用时更少。目前,改进的扩散模型已在多种实际应用中取得实效,例如DDIM已经被广泛应用于加速模型生成过程。上述优化提升方法的主要创新点、优势及不足在表6中列出,可供读者参考。
表6扩散模型优化提升典型方法综述
Tab.6 Review on typical methods for optimization and improvement of diffusion model

2 基于扩散模型求解图像处理逆问题的主要技术路线
图像处理逆问题一般都对应明确的正过程模型,用于描述原始图像与观测图像之间的关系,该正过程模型可表示为
(15)
其中y为观测图像, f(·)为图像退化函数,x为原始图像,n为观测噪声。当退化函数为线性函数f(x)=Ax时,式(14)可重写为
(16)
后续若无特殊说明,主要考虑线性模型(16)。求解图像处理逆问题即从观测图像中恢复重构原始图像,目前应用扩散模型求解该逆问题的主流技术路线有空间分解、后验采样、隐式扩散模型和知识蒸馏等,其中空间分解与后验采样主要考虑如何以观测图像为条件实现对扩散模型的可控生成,隐式扩散模型和知识蒸馏主要考虑如何加快可控生成的速度。
除1.2节中所涉及的评价图像生成质量的指标外,针对图像处理逆问题的主流评价指标还有:峰值信噪比[86](peak signal-to-noise ratio,PSNR)、结构相似度[87](structural similarity,SSIM)、学习感知图像块相似度[88](learned perceptual image patch similarity,LPIPS)、融合视觉信息保真度[89](visual information fidelity for fusion,VIFF)、互信息量[90](mutual information,MI)和交叉熵[91](cross entropy,CE)[91]等。
2.1 空间分解
空间分解(又称空间投影)是第一个利用扩散模型解决图像处理线性逆问题的重要思路[92-96],其从几何的视角审查了扩散模型与图像处理逆问题的关系,其中较为典型的模型有去噪扩散零空间模型[93](denoising diffusion null-space model,DDNM)、去噪扩散复原模型[94](denoising diffusion restoration models,DDRM)与流形约束梯度[95](manifold constrained gradient,MCG)等。
2.1.1 DDNM
DDNM的基本原理是利用线性代数中的零域值域分解(range-null space decomposition,RNSD)将图像空间分解为零域与值域两部分,其中值域部分可以通过退化算子和观测图像直接得到,而零域部分则是通过训练好的扩散模型来重建,即
(17)
式中,A为图像退化算子,为其伪逆,为扩散模型对原始图像的估计。DDNM基本原理如图1所示。DDNM确保了重构图像与原始图像的数据一致性,同时通过扩散模型的去噪能力,有效地处理了图像中的噪声问题。

此外该方法还具有以下两个优势:一是该方法只需要一个训练好的扩散模型,通过数学上的零域值域分解,就能够实现多种图像处理任务,因此在内存和时间消耗上与原扩散模型基本相同;二是该方法无须针对特定任务进行训练或优化,极大地简化了解决图像处理逆问题的过程,例如其能够处理从2倍到256倍的超分辨率任务、采样率从100%到0.1%的压缩感知问题,以及任意形状的图像修复任务。
2.1.2 DDRM
DDRM利用扩散模型和流形约束,以无监督的方式高效地解决多种线性逆问题,基本原理如图2所示。DDRM的基本思想是将逆问题建模为从观测图像的后验分布中进行采样的问题,继而采用了一种不同于变分推断的方法来学习该后验分布。此外,DDRM引入了由数据逼近项的梯度构成的校正项,通过投影到数据流形的切空间实现流形约束。这样可以有效平衡逆问题的数据逼近项与先验约束项,从而提高图像重构的准确性和稳定性。

DDRM 的优势在于以下几点:①可以用于解决多种线性逆问题,而不需要针对特定问题进行额外训练;②可以无监督地学习后验分布,无须使用额外的训练数据;③流形约束可以提高重建的准确性和稳定性,减少噪声的影响。DDRM的主要不足在于迭代过程需要进行奇异值分解(singular value decomposition,SVD),对算力要求较高。
2.1.3 MCG
传统扩散模型在解决图像处理逆问题时,通常采用递归迭代的方式进行反向去噪和投影,容易导致样本路径偏离数据流形,从而累积重构误差,影响重构质量。为解决该问题,Chung等[95]从几何视角解释了扩散模型和数据流形之间的关系,提出了基于MCG的图像处理逆问题求解方法,显著提高了图像重构的准确性和稳定性。MCG的核心思想是通过引入流形约束来引导扩散过程,使其更接近数据流形,从而提高图像重构性能。MCG用于图像修复的流程如图3所示,实验结果表明,MCG在图像修复、图像着色和计算机断层扫描重构等任务中取得了优异性能。

2.2 后验采样
后验采样是利用扩散模型解决图像处理逆问题的另一重要思路,其从统计的视角出发,通过估计条件评分函数实现条件扩散模型的反向去噪生成。依据不同的估计方法,后验采样又包括多种具体实现形式,例如扩散后验采样[97](diffusion posterior sampling,DPS)、变分扩散采样[98](variational diffusion sampling,VDS)及其多种改进[97-101]。
2.2.1 DPS
DPS由Chung等于2023年提出,该工作从条件扩散模型出发,通过观测图像的控制,引导反向去噪过程朝着符合数据一致性的方向演化,其基本原理如图4所示。具体而言,条件扩散模型的条件引导主要依赖于式(13),其中先验评分函数可以由无条件扩散模型获得,而似然评分函数依赖对pt(y|x)的估计。利用Tweedie公式,由反向去噪过程中的噪声图像可以估计原始图像的后验均值,即
(18)
因此近似成立;再结合正过程模型(15)便可求得的解析表达式。可以发现,似然评分函数融合了扩散模型与逆问题的正过程模型,实现了先验信息与观测数据的有机结合。

DPS针对逆问题的正过程模型中的高斯噪声与泊松噪声,都给出了具体的似然评分函数形式,拓展了扩散模型在不同噪声类型下的线性图像处理逆问题中的应用;同时DPS还可以处理非线性逆问题,只要其退化函数能够通过自动微分获得梯度,DPS就可以在同一框架下有效求解非线性图像处理逆问题。此外, DPS避免了DDRM涉及的奇异值分解,计算复杂度相对较低,一定程度上提高了计算效率。
2.2.2 VDS
DPS在似然评分函数计算中需要利用后验均值实现对原始图像的估计,这导致在反向去噪过程中容易累计估计误差。为了解决该问题,Mardani等提出了VDS,其基本原理如图5所示。该方法由扩散模型引出原始图像的先验分布,并将观测图像表示为原始图像的似然函数,进而使用变分推理来估计给定观测图像后原始图像的后验分布。具体实现上,VDS通过极小化KL散度实现对原始图像后验分布的估计,进而在变分分布的方差接近于零的条件下,将KL散度极小化转化为优化问题:
(19)
式中,μ为待估原始图像,λ(t)为关于时间的系数函数,εθ为噪声估计网络。可以看出,相比DPS从后验近似角度的优化步骤,VDS使用变分优化,不再受扩散模型需要按时间倒序反向去噪的约束,能够加速推理生成。

VDS在扩散模型的框架下为解决图像处理逆问题提供了一个新的变分视角,将迭代采样过程转化为随机优化模型,便于应用轻量级迭代实现逆问题解算,在多种线性和非线性图像处理逆问题上的实验结果验证了VDS的优越性。
空间分解及后验采样方法性能评估如表7所示,该两类技术路线着重于提升扩散模型求解图像处理逆问题的求解质量,在多种评估指标上都有较为显著的提升,但是在求解速度方面难以满足实际需求,部分限制了其实际应用价值。后续要介绍的两类技术路线,即隐式扩散模型和知识蒸馏,则着重于在保证求解质量的前提下,提高扩散模型的计算效率,实现更快速的求解,以提升其实际的应用价值。
2.3 隐式扩散模型
传统的扩散模型大多是直接在图像域上进行正向扩散和反向去噪的,在迭代步骤不变的前提下,若图像域维度较大,则每一步的迭代时间会显著变长,直接降低图像生成的效率。为此,2022年4 月Rombach等提出了隐式扩散模型[11](latent diffusion model,LDM),其通过编码解码网络建立了图像域与隐空间之间的映射,进而在隐空间实现扩散模型的正向扩散与反向去噪过程,模型结构如图6所示。由于隐空间的维度一般远小于图像域的维度,则隐空间上的扩散模型相比在图像域具有更低的计算复杂度。
表7空间分解及后验采样方法性能评估
Tab.7 Performance evaluation of spatial decomposition and posterior sampling methods


具体实现上,LDM使用了预训练的感知压缩模型作为编码解码器,在预训练过程中损失函数不仅使用了感知损失和基于片的对抗损失,还为了进一步提高编码解码重构精度考虑了两种正则化,即KL正则化与矢量量化(vector quantization,VQ)正则化。实验结果表明LDM在多个无条件任务(例如图像合成、修复、随机超分辨率等)和数据集上具有优异性能,并为处理百万级维度图像提供了计算思路和条件。针对有条件任务,LDM在神经网络中引入交叉注意机制来融合多模态条件,并增强底层U-Net主干网络,可实现文生图、图生图等有条件任务。LDM是扩散模型发展历史上里程碑式节点,在很多有影响力的软件中得到广泛使用,如图像生成软件Stable Diffusion、Dalle2、Imagen等。
由于编码解码器的非线性映射,利用扩散模型解决图像处理逆问题的传统方法并不能简单直接地推广到LDM。Rout等[102]第一个提出了利用预训练的LDM解决线性逆问题的框架,即基于隐式扩散模型的后验采样(posterior sampling with latent diffusion models,PSLD),在随机遮挡修复、去噪、解模糊等领域显著加快了处理速度。He 等[103]针对从稀疏测量重建CT图像的问题,提出了隐式扩散迭代重建(iterative reconstruction based on latent diffusion,LDIR),它是一种零样本学习方法,通过预训练的LDM提取深度生成先验辅助迭代重建。Song等[104]提出了基于预训练的隐式扩散模型的一般逆问题求解算法ReSample,通过解决反向采样过程中的优化问题来实现硬数据一致性(hard data consistency),进而提出了新的重采样方案,将数据一致的样本映射到噪声数据流形上,并从理论上证明了其优势。
2.4 知识蒸馏
知识蒸馏是加速扩散模型采样的一种深度学习技术,最早由Hinton等[105]在2015年提出,其核心思想是将一个大型、复杂的模型(通常称为教师模型)的知识转移到一个小型、更简单的模型(称为学生模型)。知识蒸馏的主要目的是提高学生模型的效率和可部署性,同时保持或接近教师模型的性能。知识蒸馏引入了软标签的概念,区别于传统的硬标签(即类别标签),软标签包含了对每个类别的概率分布信息,通常由教师模型的输出构成。学生模型的训练损失函数通常包括针对硬标签的传统损失(如交叉熵损失)与针对软标签的损失(如KL散度)。
知识蒸馏应用于扩散模型有多种方式。Salimans等[106]在2022年提出的渐进式蒸馏扩散模型(模型结构如图7所示)以及Song等[107]在2023年提出的一致蒸馏,其学生模型训练结束后仍然是无条件引导的,生成结果不可控。

Meng等[108]在2023年提出了一种将无分类器引导扩散模型蒸馏成快速采样模型的方法,即给定一个预训练的无分类器引导模型,首先学习一个单一模型来匹配组合条件和无条件模型的输出,然后逐步将该模型提炼成需要更少采样步骤的扩散模型。Li等[109]通过引入高效的网络结构和改进渐进蒸馏的方式提出了一种高效的文生图扩散模型SnapFusion,其通过识别原始模型的冗余和数据蒸馏减少图像解码器的计算,并通过新的训练策略和引入无分类器引导的正则化来增强渐进蒸馏。Gu等[110]提出了BOOT新技术,通过无数据蒸馏算法克服了现有蒸馏方法对大量训练数据的依赖。Sauer等[111]提出了一种对抗扩散蒸馏(adversarial diffusion distillation, ADD),用于解决渐进式蒸馏在少步推理中产生模糊结果的问题。Lin等[112]也提出了一种将渐进式蒸馏和对抗式蒸馏相结合的方法SDXL-Lightning。此外,Feng等[113-114]专门针对计算成像问题设计了基于评分先验的训练损失函数,同时提升了成像速度与质量。Mammadov等[115]与Lee等[116]在分期变分推理(amortized variational inference)框架下提出了新的扩散模型知识蒸馏损失函数,用于提升知识蒸馏的稳健性,两者的不同在于前者学生模型使用的是流模型,而后者参考了一致模型,使用的是扩散模型本身的U-Net。
隐式扩散模型及知识蒸馏典型方法性能评估如表8所示,可以发现,根据逆问题种类和数据集分辨率的不同,传统的基于扩散模型的方法求解逆问题通常需要几分钟至十几分钟不等,而隐式扩散模型与知识蒸馏两类技术路线大大提升了求解速度,已将求解速度提升到了秒级,同时保证了求解质量与传统方法相近。在扩散模型处理图像逆问题展现了较强的优势后,研究者们就致力于实现处理质量和计算效率的平衡,随着对网络结构、采样过程等步骤的不断优化调整,能够实现在更低的FLOPS下生成质量相近甚至更优的处理结果。上述各类方法的主要创新点、优势及不足在表9中列出,可供读者参考。
表8隐式扩散模型及知识蒸馏典型方法性能评估
Tab.8 Performance evaluation of typical implicit diffusion model and knowledge distillation methods

表9扩散模型求解图像处理逆问题典型方法综述
Tab.9 Review on typical methods of diffusion modeling for solving inverse problems in image processing

3 基于扩散模型求解图像处理逆问题的典型应用案例
针对图像处理逆问题,本团队对扩散模型进行了较为深入的研究与探索,在图像解模糊、图像乘性噪声(相干斑)抑制、图像融合与图像去雨等方面取得了系列成果,在此一并进行介绍。
3.1 图像解模糊
图像解模糊旨在从模糊图像中恢复清晰的原始图像。本团队针对带模糊核误差的图像解模糊问题,在扩散模型框架下提出了一种基于即插即用的图像解模糊方法,其基本原理是利用分离变量技术将优化问题分解为逼近项子问题和去噪子问题进行交替迭代,进而可以将任何学习到的去噪器作为先验插入上述迭代中。我们尝试将扩散模型作为生成去噪器集成到传统的即插即用方法中,充分发挥扩散模型对深度生成先验的表征能力,使恢复的图像具有更好的视觉效果。
具体实现上,首先建立带核误差约束项的优化模型:
(20)
式中,K与h分别为已知的模糊核与未知的核误差;Φ(x)为图像x的先验约束项,即去噪器;、λ与νh分别为决定优化模型权重系数的相关参数。然后借助半二次分裂方法将扩散模型作为去噪器引入到即插即用方法,再结合扩散模型的采样步骤实现对模型的迭代求解,迭代步骤如式(21)所示,其中,第一个与第四个迭代更新涉及扩散模型的反向去噪过程,而第二个与三个迭代更新主要针对核误差与观测图像的引导修正,所提方法如图8所示。
(21)
其中,γ与z分别为算法引入的拉格朗日乘子与增广变量。

图8图像解模糊示意图
Fig.8Diagram of image deblurring
实验结果如图9和表10所示。从视觉效果上看,所提方法视觉质量最好;从定量评价上看,所提方法在SSIM与LPIPS上与对比方法的最优结果相当,但在PSNR上优于对比方法。正是由于扩散模型能够挖掘图像的深度生成先验,才使得所提方法能够在重构质量上取得较大优势。

图9图像解模糊重构结果(运动模糊)
Fig.9Restoration results of image deblurring(motion blur)
表10图像解模糊定量化评估
Tab.10 Quantitative evaluation of image deblurring

3.2 相干斑抑制
合成孔径雷达(synthetic aperture radar,SAR)的相干成像机理导致SAR图像总会伴随相干斑噪声,这是一种乘性噪声,满足
(22)
式中:x和y分别为干净SAR图像和散斑SAR图像;n为相干斑噪声,通常可假设其满足伽马分布;⊙为向量逐元素相乘。相干斑抑制可视为图像处理逆问题,对此本团队提出了一种基于扩散后验采样的相干斑抑制方法,即SAR-DPS[117],如图10所示。具体而言,该方法在式(22)提供的正过程模型基础上,对扩散模型中的似然得分函数进行了重新估计:
(23)
式中,的定义同式(18),。式(23)中的两项导数可通过下式计算得到:

(24)
其中,I表示单位矩阵,
(·)表示对向量函数求雅可比矩阵,L为SAR图像视数。进一步将式(24)代入式(23)可得似然得分函数的估计式。


图10SAR图像的相干斑抑制示意图
Fig.10Despeckling diagram of synthetical SAR images
SAR-DPS在合成SAR图像上的实验结果如图11与表11所示,表明SAR-DPS在视觉效果和定量评价方面都取得了较好性能。SAR-DPS可以作为基于扩散模型的SAR相干斑抑制的一般框架,可以探索网络结构优化、改进采样方法等多种技术,进一步提高其性能。
3.3 图像融合
与传统图像处理逆问题不同,图像融合没有原始图像真值可参考,故难以建立其正过程模型。针对这一问题,本团队针对光学与雷达图像融合问题,从传统优化模型出发,利用扩散模型挖掘的图像深度生成先验,提升图像融合质量。基本思路如下:首先建立结合稀疏先验和总变分先验设计图像融合的优化模型,该模型可转化为对融合图像拉普拉斯分布的极大似然估计问题,进而在扩散后验采样框架下推导出由光学图像与雷达图像引导的扩散模型反向去噪过程,并设计了基于扩散后验采样的图像融合算法[118]。

图11合成SAR图像的相干斑抑制结果
Fig.11Despeckling results of synthetical SAR images
表11合成SAR图像的相干斑抑制定量评价
Tab.11 Quantitative evaluation of despeckling for synthetical SAR images

具体而言,将光学图、雷达图像和融合图像分别记为 和,以融合图像f为扩散目标,扩散模型的反向去噪过程可以写作:
(25)
其中,扩散模型的漂移系数和扩散系数分别为-β(t)/2与。
对条件评分函数的估计,可转化为对估计量的引导修正,在此利用结合稀疏约束与总变分约束的优化模型实现引导修正,即
(26)
式中,为依据式(18)利用ft对融合图像的估计,a、b、c、d为非负正则化参数。已经证明,式(26)中最小化范数等价于对拉普拉斯分布的极大似然估计,进而式(26)等价于对融合图像的后验分布估计。具体图像融合流程如图12所示。

图12图像融合示意图
Fig.12Diagram of image fusion
在实测数据上对上述方法进行验证,实验结果如图13与表12所示。表12展示的定量评价结果表明本团队方法在MI、CE、PSNR和SSIM指标上达到了最优,在VIFF指标上达到了次优,总体表现较好,与图13所示的视觉效果一致。

图13图像融合结果
Fig.13Results of image fusion
表12图像融合定量评价
Tab.12 Quantitative evaluation of image fusion

3.4 图像去雨
图像去雨面向的问题是成像时因降雨环境导致的图像中成像场景与雨条纹的混合现象,图像去雨旨在解耦图像中的成像场景与雨条纹,恢复清晰图像。Özdenizci等[119]在2023年尝试利用扩散模型实现图像去雨,采用无分类器方案,即直接将清晰图像与对应的雨合成图像成对输入扩散模型进行训练,训练成本较高,且训练好的模型难以适用其他数据集,因此方法应用具有较大局限性。
本团队基于后验采样的扩散模型提出了一种针对传统去雨方法的精炼模型[120],实现了去雨效果的增强,同时仅需使用预训练模型而无需额外的训练。该方法从传统去雨结果出发,重点解决雨条纹的残留问题,基本思路是将残留雨条纹的图像视为待修复的图像,残留雨条纹的位置即为图像需要修复的像素,因此可将其转化为图像修复问题,具体流程如图14所示。该方法的关键在于检测定位残留雨条纹,用于生成图像修复问题的掩码,这里考虑使用传统去雨模型输出雨条纹R的估计掩码K,即

(27)
其中,下标表示像素位置,T为阈值参数。上式表示在雨条纹强度较大的位置容易出现雨残留,因此需要在该位置修复图像。进一步利用掩码对传统去雨模型输出的残留雨条纹图像进行挖取(即点乘),得到图像修复的观测图像,进而在图像处理逆问题框架下利用扩散模型实现清晰图像的高质量重构。

图14图像去雨流程
Fig.14Flowchart of image deraining
图像去雨实验结果如图15与表13所示,表明所提方法有效去除了对比方法无法去除的雨条纹(红框中所示),并恢复了背景图像。从指标上看,所提方法总体与对比方法相当,但FID指标提升明显。

图15图像去雨实验结果
Fig.15Experiment results of image deraining
表13图像去雨定量评价
Tab.13 Quantitative evaluation of image deraining

4 总结与展望
扩散模型在图像处理逆问题领域展现出了显著优势,能够为多种图像处理逆问题提供全新的解决视角和思路。然而,由于图像处理逆问题本身的复杂性(非线性、强噪声、高病态等),以及扩散模型相关理论与方法尚在发展之中,目前面向图像处理逆问题的扩散模型还面临以下几个问题:
1)计算复杂度高。由于扩散模型的反向去噪过程需要逐步进行推理,每次推理需要执行一次深度学习网络前向传播过程,因此计算复杂度较高。尽管研究者们提出了很多加速策略,如隐式扩散模型、知识蒸馏等,相较于传统神经网络的一次前向传播,扩散模型仍然耗时较长,这限制了扩散模型在实时解决图像处理逆问题中的应用。
2)扩散模型提供的深度生成先验与观测图像提供的测量数据间的平衡问题。利用扩散模型解决图像处理逆问题时,扩散模型提供了深度生成先验,而测量图像时提供测量数据用来实现条件引导,两者的权重如何平衡尚缺少理论依据。若先验权重过大,容易生成虚假内容,与观测图像不一致;若测量数据权重过大,则缺少先验约束从而难以克服逆问题的病态性。
3)非线性图像处理逆问题的扩散模型稳健求解问题。图像处理逆问题包括相位恢复、非线性混合条件下的图像去雨、带空变模糊核的图像解模糊等非线性问题,利用扩散模型解决此类问题尽管可采用类似处理线性模型的方法,但考虑到非线性逆问题通常存在多个局部最优解,因此扩散模型求解的收敛性以及唯一性难以保证。
4)扩散模型解决极端条件下图像处理逆问题的性能问题。随着扩散模型在图像处理逆问题中的应用越来越广,其面临的处理条件越来越复杂,包括训练样本数量少、观测图像质量差、噪声类型多样等,需要进一步提升扩散模型在解决极端条件下的图像处理逆问题的性能。
5)图像处理逆问题的扩散模型多模态信息联合引导问题。智能时代产生了大量除图像外的文本、音频、视频等多模态信息,利用多模态信息可以提升扩散模型对图像处理逆问题的求解能力,增强鲁棒性和可靠性。如何更有效地理解、融合和利用这些多模态信息、实现扩散模型的联合引导,将成为解决图像处理逆问题值得关注的研究方向。
综上所述,扩散模型是生成式人工智能的最具潜力的发展方向,已经成为解决图像处理逆问题的有效途径,未来迫切需要针对上述方向开展深入研究,并积极探索扩散模型在图像处理逆问题领域中的应用方式与应用场景,显著提升其处理效能。