IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE

摘要:

​  图像超分辨率(SR)是在计算机视觉中提高图像和视频分辨率的一类重要的图像处理技术。近年来,利用深度学习技术实现的图像超分辨率取得了显著进展。本文旨在对利用深度学习方法的图像超分辨率的最新进展进行一个全面的调查。一般的来说,我们可以将现有的SR技术的研究大致分为三大类:有监督SR、无监督SR和领域特异性SR。此外,我们还讨论了一些重要的问题,如公开可用的基准数据集和性能评估指标。最后,我们通过强调几个未来的方向和社区应该进一步解决的问题来结束这项调查。

介绍

​  图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中的一类重要的图像处理技术。它享有广泛的现实世界的应用,如医学成像[1],[2],[3],监视和安全[4],[5])等。除了提高图像感知质量外,它还有助于改善其他计算机视觉任务[6]、[7]、[8]、[9]。一般来说,这个问题是非常具有挑战性的,并且具有固有的不适定性,因为总是有多个HR图像对应于单个LR图像。在文献中,已经提出了各种经典的SR方法,包括基于预测的方法[10],[11],[12],基于边缘的方法[13],[14],统计方法[15],[16],基于补丁的方法[13],[17],[18],[19]和稀疏表示方法[20],[21],等。

​  近年来深度学习技术的快速发展,基于深度学习的SR模型已经积极探索,经常实现最先进的性能的各种基准的各种深度学习方法被应用于解决SR任务,从早期基于卷积神经网络(CNN)的方法(例如,SRCNN[22][23])最近有前途的SR方法使用生成对抗网(GAN)[24](如SRGAN [25])。一般来说,使用深度学习技术的SR算法家族在以下主要方面有所不同:不同类型的网络架构[26]、[27]、[28]、不同类型的损失函数[8]、[29]、[30]、不同类型的学习原则和策略[8]、[31]、[32]等。

​  在本文中,我们全面概述了图像超分辨率的最新进展。虽然有一些现有的SR调查文献,我们的工作不同,我们专注在深度学习SR技术,而大多数早期作品[33],[34],[35],[36]旨在调查传统SR算法或一些研究主要集中在提供定量评估基于全参考指标或人类视觉感知[37],[38]。与现有的调查不同,本调查采用了一个独特的基于深度学习的视角,以系统和全面的方式回顾了SR技术的最新进展。

​  这次调查的主要贡献有三方面:
> 1. 我们对基于深度学习的图像超分辨率技术进行了全面的回顾,包括问题设置、基准数据集、性能指标、具有深度学习的SR方法家族、特定领域的SR应用等。
> 1. 我们以层次化和结构化的方式系统地概述了基于深度学习的SR技术的最新进展,并总结了每个组件对于一个有效的SR解决方案的优点和局限性。
> 1. 我们讨论挑战和开放的问题,并确定新的趋势和未来的方向,为社区提供深刻的指导。

​  在下面的章节中,我们将介绍在深度学习中图像超分辨率的最新进展的各个方面。图1显示了本次调查中将以层次结构的方式覆盖的图像SR的分类。第2节给出了问题的定义,并回顾了主流数据集和评估指标。第3节模块化地分析了监督SR的主要成分。第4节简要介绍无监督的SR方法。第5节介绍了一些流行的特定于领域的SR应用程序,第6节还讨论了未来的发展方向和开放的问题。

问题设置和术语

问题定义

​  图像超分辨率的目的是从LR图像中恢复相应的HR图像。通常,LR图像Ix被建模为以下退化的输出: \[I_x=\mathcal D(I_y;\delta),\] ​  式中,D为退化映射函数,Iy为对应的HR图像, $ $ 为退化过程的参数(如缩放因子或噪声)。

​  一般来说,退化过程(即D和 $ $ )是未知的,只提供LR图像。在这种情况下,也称为盲SR,需要研究人员通过从LR图像Ix中恢复地面真实HR图像^的HR近似,如下: \[\hat{I}_y=\mathcal{F}(I_x;\theta),\] ​  其中,F为超分辨率模型, $ $ 为F的参数。

​  虽然退化过程是未知的,并且可能受到各种因素的影响(如压缩伪影、各向异性退化、传感器噪声和散斑噪声),但研究人员正试图对退化映射进行建模。大多数工作都直接将退化建模为一个单一的降采样操作,如下所示: \[\mathcal{D}(I_y;\delta)=(I_y)\downarrow_s,\{s\}\subset\delta,\] ​  其中, $ s $ 是一个具有缩放因子s的降采样操作。事实上,大多数通用SR的数据集都是基于这种模式构建的,而最常用的降采样操作是带有抗锯齿的双边插值。然而,[39]还有其他一些工作,将退化建模为几种操作的组合: \[\mathcal{D}(I_y;\delta)=(I_y\otimes\kappa)\downarrow_s+n_\varsigma,\{\kappa,s,\varsigma\}\subset\delta,\] ​  其中 $ I_y$ 表示模糊核与HR图像Iy之间的卷积, $ n$ 是带有标准差 $ $ 的加性高斯白噪声。与等式的朴素定义相比3、等式的组合降解模式4更接近真实世界的情况,并已被证明对SR [39]更有利。为此目的,SR的目标如下: \[\hat{\theta}=\arg\min_\theta\mathcal{L}(\hat{I}_y,I_y)+\lambda\Phi(\theta),\] ​  其中, $ (_y,I_y) $ 表示生成的HR图像 $ _y $ 与地面真实图像Iy之间的损失函数,$ () $为正则化项,为权衡参数。虽然SR最流行的损失函数是像素级均方误差(即像素损失),但更强大的模型倾向于使用多个损失函数的组合,这将在第3.4.1节中介绍。

图像质量评估

​  图像质量是指图像的视觉属性,侧重于对观众的感知评估。一般来说,图像质量评估(IQA)方法包括基于人类感知的主观方法(即图像看起来的真实程度)和客观的计算方法。前者更符合我们的需求,但往往是耗时和昂贵的,因此后者是目前的主流。然而,这些方法之间不一定一致,因为客观方法往往不能非常准确地捕捉人类的视觉感知,这可能导致IQA结果[25],[58]的很大差异。

​  此外,客观IQA方法进一步分为三种类型的[58]:使用参考图像进行评估的全参考方法,基于提取特征比较的简化参考方法,以及无任何参考图像的无参考方法(即盲IQA)。接下来,我们将介绍几种最常用的IQA方法,包括主观方法和客观方法。

峰值信噪比

​  峰值信噪比(PSNR, Peak Signal-to-Noise Ratio)是有损变换(如图像压缩、图像嵌入绘制)中最常用的重建质量测量方法之一。对于图像的超分辨率,PSNR是通过图像之间的最大像素值(记为L)和均方误差(MSE)来定义的。给定N个像素的groundtruth图像I和重建I,PSNR定义如下: \[\mathrm{PSNR}=10\cdot\log_{10}\left(\frac{L^2}{\frac{1}{N}\sum_{i=1}^N\left(I(i)-\hat{I}(i)\right)^2}\right),\] ​  其中,L等于255,在一般情况下使用8位表示。由于PSNR只与像素级MSE相关,只关注对应像素之间的差异而不是视觉感知,这往往导致在真实场景中表示重建质量的表现不佳,而我们通常更关注人类的感知。然而,由于需要与文献作品进行比较,且缺乏完全准确的感知指标,PSNR仍然是目前SR模型中使用最广泛的评价标准。

操作通道

​  除了常用的RGB颜色空间外,YCbCr颜色空间也被广泛用于SR。在这个空间中,图像分别用Y、Cb、Cr通道表示,分别表示亮度、蓝差和红差的色度分量。虽然目前还没有公认的最佳实践来执行或评估超分辨率,但早期的模型倾向于在YCbCr空间[26]、[43]、[78]、[79]的Y通道上运行,而最近的模型倾向于在RGB通道[28]、[31]、[57]、[70]上运行。值得注意的是,在不同颜色的空间或通道上进行操作(培训或评估)可以使评估结果差异很大(高达4 dB)[23]。

超分辨率挑战

​  在本节中,我们将简要介绍图像SR的两个最流行的挑战,NTIRE [80]和PIRM [47],[81]。

NTIRE的挑战

​  图像恢复和增强(NTIRE, The New Trends in Image Restorationand Enhancement)的新趋势挑战[80]与CVPR相结合,包括多个任务,如SR,去噪和着色。对于图像SR,NTIRE挑战是建立在DIV2K [42]数据集上,由双边降缩放轨迹和具有现实未知退化的盲轨迹组成。这些轨道在降解和比例因子上有所不同,旨在促进在理想条件和现实世界的不利情况下的SR研究。

PIRM挑战

​  感知图像恢复和操作(PIRM, The Perceptual Image Restoration and Manipulation)挑战与ECCV相结合,还包括多个任务。与NTIRE相比,PIRM的一个子挑战[47]侧重于生成准确性和感知质量之间的权衡,而另一个[81]侧重于智能手机上的SR。正如众所周知的[77]一样,针对失真的模型经常产生视觉上不愉快的结果,而针对感知质量的模型在信息上表现较差保真度。具体来说,PIRM根据均方根误差(RMSE)的阈值将感知扭曲平面划分为三个区域。在每个区域,获胜的算法是获得最佳感知质量的[77],由NIQE [76]和Ma [66]评估。而在另一个子挑战[81],智能手机上的SR,参与者被要求使用有限的智能手机硬件(包括CPU、GPU、RAM等)执行SR,评价指标包括PSNR、MS-SSIM和MOS测试。通过这种方式,PIRM鼓励对感知-失真的权衡进行高级研究,并在智能手机上驱动轻量级和高效的图像增强。

监督超分辨率

​  目前,研究人员已经提出了各种具有深度学习的超分辨率模型。这些模型侧重于有监督的SR,即同时用LR图像和相应的HR图像进行训练。虽然这些模型之间的差异非常大,但它们本质上是一组组件的一些组合,如模型框架、上采样方法、网络设计和学习策略。从这个角度来看,研究人员结合这些组件来建立一个集成的SR模型,以拟合特定的目的。在本节中,我们将集中精力模块化地分析基本组件(如图1所示),而不是孤立地介绍每个模型,并总结它们的优点和局限性。

超分辨率框架

​  由于图像超分辨率是一个不适定问题,如何进行上采样(即从LR输入生成HR输出)是关键问题。尽管现有模型的架构差异很大,但基于所采用的上采样操作及其在模型中的位置,它们可以归因于四个模型框架(如图2所示)。

预上采样超分辨率

​  由于直接学习从低维空间到高维空间的映射的困难,利用传统的上采样算法获得高分辨率的图像,然后利用深度神经网络进行细化是一个简单的解决方案。因此,Dong等人[22],[23]首先采用预上采样SR框架(如图2a所示),并提出SRCNN来学习从插值的LR图像到HR图像的端到端映射。具体来说,使用传统方法(如双边插值)将LR图像上采样到具有所需大小的粗糙HR图像,然后在这些图像上应用深度cnn来重建高质量的细节。由于最困难的上采样操作已经完成,cnn只需要对粗糙的图像进行细化,这大大降低了学习难度。此外,这些模型可以以任意大小和缩放因子的插值图像作为输入,并给出与单尺度SR模型[26]性能相当的细化结果。因此,它逐渐成为[55]、[56]、[82]、[83]中最流行的框架之一,这些模型之间的主要区别是后验模型设计(第3.3节)和学习策略(第3.4节)。然而,预定义的上采样往往会引入副作用(如噪声放大和模糊),由于大多数操作是在高维空间进行的,时间和空间的成本比其他框架[43],[84]高得多。

后上采样超分辨率

​  为了提高计算效率,充分利用深度学习技术自动提高分辨率,研究人员提出在低维空间中用端到端可学习层替换预定义的计算。在该框架的先驱作品[43],[84]中,即如图2b所示的上采样后SR,LR输入图像在不提高分辨率的情况下输入深度cnn,在网络末端应用端到端可学习的上采样层。

​  由于计算成本较大的特征提取过程只发生在低维空间中,而分辨率最终只会提高,因此大大降低了计算复杂度和空间复杂度。因此,这种框架也已成为最主流的框架之一,[25],[31],[79],[85]。这些模型的不同主要在于可学习的上采样层(第3.2节)、前CNN结构(第3.3节)和学习策略(第3.4节)等。

逐步上采样超分辨率

​  虽然上采样后的SR框架极大地降低了计算成本,但它仍存在一些缺点。一方面,上采样只进行了一步,这大大增加了对大尺度因子(如4,8)的学习差异。另一方面,每个比例因子都需要训练一个单独的SR模型,这无法应对多尺度SR的需要。为了解决这些缺点,拉普拉斯金字塔SR网络(LapSRN)[27]采用了渐进式上采样框架,如图2c所示。具体来说,该框架下的模型是基于cnn的级联,并逐步重建更高分辨率的图像。在每个阶段,图像被上采样到更高的分辨率,并通过cnn进行细化。

​  其他的工作,如MS-LapSRN [65]和渐进式SR(ProSR)[32]也采用了这个框架,并实现了相对较高的性能。与LapSRN和MSLapSRN使用中间重建图像作为后续模块的“基础图像”相比,ProSR保留主要信息流,并通过单个头部重建中间分辨率图像。

​  该框架下的模型将困难任务分解为简单任务,大大降低了学习难度,特别是在因素较大的情况下,并在不引入过多空间和时间成本的情况下应对多尺度SR。此外,一些具体的学习策略,如课程学习(第3.4.3节)和多监督(第3.4.4节),进一步降低学习难度,提高最终成绩。然而,这些模型也遇到了一些问题,如多阶段模型设计复杂和训练稳定性高,需要更多的建模指导和更先进的训练策略。

迭代上下采样超分辨率

​  为了更好地捕捉LR-HR图像对的相互依赖关系,在SR [44]中加入了一种有效的反投影[12]迭代过程。该SR框架,即迭代上下采样SR(如图2d所示),尝试迭代应用反投影细化,即计算重建误差,然后将其重新融合,调整HR图像强度。具体来说,Haris等人[57]利用迭代上下采样层提出DBPN,将上采样和下采样层交替连接,并使用所有中间重建重建最终的HR结果。类似地,SRFBN [86]采用了一个迭代的上下采样反馈块,具有更密集的跳跃连接,并学习更好的表示。而用于视频超分辨率的RBPN [87]从连续的视频帧中提取上下文,并将这些上下文结合起来,通过一个反向投影模块产生循环输出帧。

​  该框架下的模型可以更好地挖掘LR-HR图像对之间的深层关系,从而提供更高质量的重建结果。然而,反投影模块的设计标准仍然不清楚。

​  由于该机制刚刚被引入到基于深度学习的SR中,因此该框架具有巨大的潜力,需要进一步的探索。

上采样方法

​  除了模型中的上采样位置外,如何进行上采样也非常重要。虽然有各种传统的上采样方法[20]、[21]、[88]、[89],但利用cnn学习端到端上采样已逐渐成为一种趋势。在本节中,我们将介绍一些传统的基于插值的算法和基于深度学习的上采样层。

基于插值的上采样

​  图像插值,a.k.a.图像缩放,是指调整数字图像的大小,并被广泛应用于与图像相关的应用程序中。传统的插值方法包括最近邻插值、双线性和双边插值、Sinc和兰氏重采样等。由于这些方法易于解释和易于实现,其中一些方法仍被广泛应用于基于cnn的SR模型中。

最近邻插值

最近邻插值是一种简单、直观的算法。它为每个要被插值的位置选择最近的像素的值,而不考虑任何其他像素。因此,这种方法速度非常快,但通常会产生低质量的块状结果。

双线性插值

双线性插值(BLI)首先在图像的一个轴上进行线性插值,然后在另一个轴上进行,如图3所示。由于它导致了一个接受场大小为2 2的二次插值,因此在保持相对较快的速度的同时,它显示出了比近邻域插值更好的性能。

二进制插值

同样,双边插值(BCI)[10]在两个轴上分别进行三次插值,如图3所示。与BLI相比,BCI考虑了4 4 个像素,并导致更流畅的结果,更少的伪影,但速度更低。事实上,具有抗锯齿的BCI是构建SR数据集的主流方法(即将HR图像降解为LR图像),也广泛应用于预上采样SR框架(第3.1.1节)。

​  事实上,基于插值的上采样方法仅基于其自身的图像信号来提高图像的分辨率,而没有带来更多的信息。相反,它们经常会引入一些副作用,如计算复杂性、噪声放大、模糊的结果。因此,目前的趋势是用可学习的上采样层取代基于插值的方法。

基于学习的上采样

​  为了克服基于插值的方法的不足,以端到端学习上采样,在SR场中引入了转置卷积层和亚像素层。

转置卷积层

转置卷积层,a.k.a.反卷积层[90],[91],试图执行与正常卷积相反的变换,即,基于类似于卷积输出大小的特征图来预测可能的输入。具体来说,它通过插入零和进行卷积来展开图像来提高图像的分辨率。以3 3 核的2 SR为例(如图4所示),首先将输入的大小扩展原来的两倍,其中添加的像素值设置为0(图4b)。然后对核大小为3 3、步幅1和填充1进行卷积(图4c)。通过这种方式,输入被上采样了2倍,在这种情况下,接受域最多为2 2倍。由于转置卷积在保持与普通卷积兼容的连接模式的同时,使图像大小以端到端方式放大,因此在SR模型[57]、[78]、[79]、[85]中被广泛用作上采样层。然而,这一层很容易在每个轴[92]上造成“不均匀的重叠”,并且在两个轴上相乘的结果进一步创建了一个不同大小的棋盘状模式,从而损害了SR性能。

亚像素层

亚像素层[84]是另一个端到可学习的上采样层,通过卷积生成多个信道,然后进行上采样,如图5所示。在这一层中,首先应用卷积来产生具有s2倍通道的输出,其中s是比例因子(图5b)。假设输入大小为h w c,输出大小将为h w s2c。之后,进行整形操作(a.k.a.执行shuffle [84])来产生大小为sh sw c的输出(图5c)。在这种情况下,接受野最高可达3 3。由于端到端上采样方式,该层也被广泛应用于SR模型[25]、[28]、[39]、[93]。与转置卷积层相比,亚像素层具有更大的接受域,提供了更多的上下文信息,帮助生成更真实的细节。然而,由于感受野的分布是不均匀的,块状区域实际上共享相同的感受野,它可能会在不同块的边界附近产生一些伪影。另一方面,独立预测块状区域中的相邻像素可能会导致输出不平滑输出。因此,Gao等人[94]提出了PixelTCL,它将独立预测替换为相互依赖的序列预测,并产生更平滑、更一致的结果。

Meta上采样模块

以往的方法需要对缩放因子进行预细化,即针对不同的因子训练不同的上采样模块,但效率低,不符合实际需求。因此,Hu等人[95]提出了Meta上采样模块(如图6所示),首先基于元学习解决了任意比例因子的SR。具体来说,对于HR图像上的每个目标位置,该模块将其投影到LR特征图上的一个小补丁(即k k cin),根据投影偏移和比例因子预测卷积权值(即k k cin cout),并进行卷积。这样,Meta上采样模块就可以通过单一模型的任意因素连续放大。由于大量的训练数据(同时训练多个因素),该模块在固定因素上可以表现出类似甚至更好的性能。虽然该模块在推理过程中需要预测权重,但上采样模块的执行时间只占特征提取[95]时间的1%左右。然而,该方法基于独立于图像内容的几个值来预测每个目标像素的大量卷积权值,因此在面对较大的放大倍数下,预测结果可能不稳定,效率较低。

​  目前,这些基于学习的层已经成为应用最广泛的上采样方法。特别是在上采样后框架(第3.1.2节)中,这些层通常在最终上采样阶段使用,基于低维空间提取的高级表示重建HR图像,从而在避免高维空间中压倒性操作的同时实现端到端SR。

网络设计

​  网络设计是深度学习的重要组成部分之一。在超分辨率领域,研究人员在四种SR框架之上(第3.1节)应用各种网络设计策略来构建最终的网络。在本节中,我们将这些网络分解为网络设计的基本原则或策略,介绍它们,并逐一分析其优点和局限性。

残差学习

​  在He等人[96]提出ResNet来学习残差而不是进行彻底的映射之前,残差学习已被SR模型[48]、[88]、[97]广泛使用,如图7a所示。其中,剩余学习策略大致可分为全局残差学习和局部残差学习。

全局残差余学习

由于图像SR是一种图像-图像转换任务,输入图像与目标图像高度相关,研究者尝试只学习它们之间的残差,即全局残差学习。在这种情况下,它避免了学习从一个完整图像到另一个完整图像的复杂转换,而是只需要学习一个残差映射来恢复缺失的高频细节。由于大多数区域的残差接近于零,模型的复杂性和学习差异大大降低。因此,它被广泛应用于SR模型[26]、[55]、[56]、[98]。

局部残差学习

局部残差学习类似于ResNet [96]中的残差学习,用于缓解由于网络深度不断增加而导致的[96]退化问题,降低训练难度,提高学习能力。它也被广泛用于SR [70]、[78]、[85]、[99]。

​  在实际应用中,上述方法都是通过快捷连接(通常按一个小常量缩放)和元素加法实现的,不同之处在于前者直接连接输入和输出图像,而后者通常在网络内部不同深度的层之间添加多个快捷方式。

递归学习

​  为了在不引入压倒性参数的情况下学习更高层次的特征,我们在SR字段中引入了递归学习,即以递归的方式多次应用相同的模块,如图7所示。

​  其中,16递归DRCN [82]采用单一卷积层作为递归单元,达到41 41,远远大于SRCNN [22]的13 13,没有过多参数。DRRN [56]使用一个ResBlock [96]作为25次递归的递归单元,并且获得了比17-ResBlock基线更好的性能。后来Tai等人[55]提出了基于内存块的MemNet,该块由6个递归的重新块组成,每个递归的输出被连接起来,并经过额外的1 1 个卷积进行记忆和遗忘。级联剩余网络(CARN)[28]也采用了类似的递归单元,包括几个重新块。最近,Li等人[86]采用了迭代上下采样SR框架,提出了一种基于递归学习的反馈网络,其中整个网络的权值在所有递归中共享。

​  此外,研究人员还在不同的部分使用了不同的递归模块。具体来说,Han等人[85]提出了双状态递归网络(DSRN)来在LR和HR状态之间交换信号。在每个时间步长(即递归),每个分支的表示都被更新和交换,以更好地探索LR-HR关系。

​  类似地,Laiet al. [65]使用嵌入和上采样模块作为递归单元,因此以性能损失很小为代价,大大减少了模型的大小。

​  一般来说,递归学习确实可以学习更高级的表示,而不引入过多的参数,但仍然不能避免高昂的计算成本。它本质上带来了消失或爆炸的梯度问题,因此一些技术,如残差学习(第3.3.1节)和多监督(第3.4.4节)经常与递归学习集成,以缓解这些问题[55],[56],[82],[85]。

多路径学习

​  多路径学习是指将特征通过多条路径,这些路径执行不同的操作,并将它们融合回来以提供更好的建模能力。具体来说,它可以分为全局、局部和特定规模的多路径学习,如下所述。

全局多路径学习

全局多路径学习是指利用多条路径来提取图像的不同方面的特征。这些路径在传播过程中可以相互交叉,从而大大提高了学习能力。具体来说,LapSRN [27]包括一个以粗到细的方式预测子带残差的特征提取路径和另一个基于来自两条路径的信号重建HR图像的路径。同样,DSRN [85]利用两条路径分别在低维和高维空间中提取信息,并不断交换信息以进一步改进学习能力。像素递归超分辨率[64]采用条件反射路径来捕获图像的全局结构,并采用先验路径来捕获生成的像素的串行依赖性。相比之下,Ren等人[100]在模型的末端采用多条具有不平衡结构的路径进行上采样和融合。

局部多路径学习

在初始模块[101]的激励下,MSRN [99]采用了一个新的块来进行多尺度特征提取,如图7e所示。在这个块中,采用两个核大小为3 3 和5 5 的卷积层同时提取特征,然后将输出连接并再次进行相同的操作,最后应用额外的1 1 个卷积。快捷方式通过元素添加连接输入和输出。通过这种局部多路径学习,SR模型可以更好地从多个尺度中提取图像特征,进一步提高性能。

特定尺寸的多路径学习

考虑到不同尺度的SR模型需要进行相似的特征提取,Lim等人[31]提出了特定尺度的多路径学习来应对单一网络的多尺度SR。具体地说,它们共享模型的主成分(即特征提取的中间层),并分别在网络的开始和结束时附加了特定尺度的预处理路径和上采样路径(如图7f所示)。在训练期间,只启用和更新与所选比例对应的路径。通过这种方式,所提出的MDSR [31]通过共享不同尺度的大部分参数,大大减少了模型的大小,并表现出与单尺度模型相当的性能。CARN [28]和ProSR [32]也采用了类似的尺度特异性多路径学习。

密集连接

​  由于Huang等人[102]提出了基于密集块的DenseNet,密集连接在视觉任务中越来越流行。对于密集块中的每一层,前面所有层的特征图都被用作输入,其自己的特征图被用作所有后续层的输入,从而导致l层密集块中的(l*(l-1)/2)的连接。密集连接不仅有助于缓解梯度消失,增强信号传播,鼓励特征重用,而且还通过使用小增长率(即密集块中的通道数量)和连接所有输入特征图后压缩通道,大大减少模型大小。

​  为了融合低层次和高层次的特征,为重构高质量的细节提供更丰富的信息,在SR域中引入了密集的连接,如图7d所示。唐等[79]不仅采用密集块构造一个69层SRDenseNet,还插入密集连接不同密集块,也就是说,对于每一个密集块,所有之前的特征映射块被用作输入,和自己的特性映射被用作输入到所有后续块。MemNet [55]、CARN [28]、RDN [93]和ESRGAN [103]也采用了这些层级和块级的密集连接。DBPN [57]也广泛地采用了密集连接,但它们的密集连接位于所有的上采样单元之间,下采样单元也是如此。

注意力机制

通道注意力

考虑到不同通道之间特征表示的相互依赖和相互作用,Hu等人[104]提出了一个“挤压和激励”块,通过明确建模通道相互依赖来提高学习能力,如图7c所示。在这个块中,使用全局平均池化(GAP)将每个输入信道压缩到一个信道描述符(即一个常数)中,然后将这些描述符输入到两个密集的层中,为输入信道生成信道缩放因子。最近,Zhang等人[70]将通道注意机制与SR结合起来,提出了RCAN,显著提高了模型的表示能力和SR性能。为了更好地学习特征相关性,Dai等人的[105]进一步提出了一个二阶信道注意(SOCA)模块。SOCA通过使用二阶特征统计而不是GAP自适应地调整信道特征,并能够提取更多信息性和区别性的表示。

非本地注意力

大多数现有的SR模型的局部接受域非常有限。然而,一些遥远的对象或纹理可能对局部补丁的生成非常重要。因此,Zhang等人[106]提出了局部和非局部注意块来提取捕获像素之间的长期依赖关系的特征。具体地说,他们提出了一个用于提取特征的主干分支,以及一个(非)局部掩码分支,用于自适应地重新调整主干分支的特征。其中,局部分支采用编码器-解码器结构来学习局部注意,而非局部分支采用嵌入式高斯函数来评估特征图中每两个位置指标之间的成对关系,以预测尺度权值。通过这种机制,该方法很好地捕捉了空间注意力,并进一步提高了表示能力。同样,Dai等人[105]也采用了非局部注意机制来捕获长距离空间背景信息。

先进的卷积

​  由于卷积操作是深度神经网络的基础,研究人员也试图改进卷积操作,以提高性能或提高效率。

膨胀卷积

众所周知,上下文信息有助于生成SR生成现实细节。因此,Zhang等人[107]在SR模型中用扩张卷积来取代常见的卷积,增加了两次以上,获得了更好的性能。

集团卷积

受轻量级CNNs的最新进展的推动,[108],[109],Hui等人[98]和Ahn等人[28]分别提出了IDN和CARN-M,用组卷积代替香草卷积。正如之前的一些工作所证明的那样,组卷积大大减少了参数和操作的数量,而牺牲了一点性能损失[28],[98]。

深度可分离卷积

自从Howard等人[110]提出深度可分离卷积以实现有效的卷积以来,它已经被扩展到各个领域。具体地说,它由一个因子分解的深度卷积和一个点态卷积(即1 1 个卷积)组成,因此只在很小的情况下减少了大量的参数和操作降低精度的[110]。最近,Nie等人的[81]采用了深度可分离卷积,并大大加速了SR体系结构。

区域递归学习

金字塔池化

小波变换

Desubpixel

xUnit

学习策略

损失函数

Pixel Loss

像素损失测量两个图像之间的像素级差异,主要包括L1损失(即平均绝对误差)和L2损失(即均方误差): \[\mathcal{L}_{\mathrm{pixel}\perp1}(\hat{I},I)=\frac{1}{hwc}\sum_{i,j,k}|\hat{I}_{i,j,k}-I_{i,j,k}|\\\mathcal{L}_{\mathrm{pixel}\perp2}(\hat{I},I)=\frac{1}{hwc}\sum_{i,j,k}(\hat{I}_{i,j,k}-I_{i,j,k})^{2},\]

Content Loss

为了评价图像的感知质量,将内容损失引入SR [29],[127]。具体来说,它使用预先训练好的图像分类网络来测量图像之间的语义差异。将该网络表示为f,提取的第1层高级表示表示为fðlÞðIÞ,内容损失表示为两幅图像的高级表示之间的欧氏距离,如下: \[\mathcal{L}_{\mathrm{content}}(\hat{I},I;\phi,l)=\frac{1}{h_lw_lc_l}\sqrt{\sum_{i,j,k}(\phi_{i,j,k}^{(l)}(\hat{I})-\phi_{i,j,k}^{(l)}(I))^2},\]

批量规范化

课程学习

多重监督

其他改进

上下文网络融合

数据增强

多任务学习

网络插值

自我整合

最先进的超分辨率模型

​  近年来,基于深度学习的图像超分辨率模型受到了越来越多的关注,并取得了最先进的性能。在前面的章节中,我们将SR模型分解为特定的组件,包括模型框架(第3.1节)、上采样方法(第3.2节)、网络设计(第3.3节)和学习策略(第3.4节),对这些组件进行分层分析,并确定它们的优点和局限性。事实上,今天大多数最先进的SR模型基本上都可以归因于我们在上面总结的多种策略的组合。例如,RCAN [70]最大的贡献来自于通道注意机制(第3.3.5节),它还采用了其他策略,如亚像素上采样(第3.3.2.2节)、残差学习(第3.3.1节)、像素L1损失(第3.4.1节)和自集成(第3.5.5节)。以类似的方式,我们总结了一些具有代表性的模型及其关键策略,如表2所示。

image-20240619184059043

在上面,“Fw", "Rec.", "Res","Dense", "Att."分别表示SR框架、上采样方法、递归学习、残差学习、密集连接、注意机制

​  除了SR精度外,效率是另一个非常重要的方面,不同的策略对效率有或多或少的影响。因此,在前面几节中,我们不仅分析了所提出策略的准确性,而且还指出了对效率影响较大的策略的具体影响,如后上采样(3.1.2节)、递归学习(3.3.3.2节)、密集连接(3.3.3.4节)、xUnit(3.3.11节)。我们还对一些具有代表性的SR模型的SR精度(即PSNR)、模型大小(即参数数)和计算成本(即多加数)等方面的SR模型进行了基准测试,如图8所示。精度是通过在4个基准数据集(即Set5 [48],Set14 [49],B100 [40]和Urban100 [50])上的PSNR的平均值来测量的。模型大小和计算成本用PyTorch-光学传感器[157]计算,其中输出分辨率为720p(即1080 720)。所有的统计数据都是根据原始论文或根据官方模型计算得出的,比例因子为2。为了更好地查看和比较,我们还提供了一个交互式的在线版本1。