Explicit Visual Prompting for Universal Foreground Segmentations

Weihuang Liu , Xi Shen , Chi-Man Pun , Senior Member, IEEE, and Xiaodong Cun

摘要

​  前景分割是计算机视觉领域的基础性问题,涵盖显著目标检测、伪造检测、失焦模糊检测、阴影检测及伪装目标检测等场景。现有研究通常依赖领域特定方案来解决这些应用中的精度与鲁棒性问题。本文提出了一种统一框架,可解决多种前景分割任务而无需任务特定设计。我们借鉴自然语言处理领域广泛采用的预训练-提示调优方案,提出名为显式视觉提示(EVP)的新型视觉提示模型。与传统视觉提示通常采用数据集级隐式嵌入不同,我们的核心创新在于通过冻结图像中的显式视觉内容(即冻结块嵌入和高频成分特征)来约束可调参数。该方法通过冻结预训练模型,仅需少量额外参数即可学习任务特定知识。尽管引入的可调参数较少, EVP 仍展现出优于全参数微调及其他参数高效微调方法的性能优势。在五个任务的十四组数据集实验中,该方法不仅性能超越其他任务特定方法,且实现方式更为简洁。实验结果表明,该方法在不同架构、预训练权重及任务类型中均展现出良好的可扩展性。

​  索引术语:前景分割、通用模型、视觉提示、高效调优。

1.引言

​  前景分割是场景理解的基础研究课题之一,它根据图像中前景和背景的类内相似性和类间差异性,将图像分割为两个不重叠的子区域。前景分割包含多个子任务,包括检测显著物体[1] [2] [3]、分割操作区域[4] [5] [6]、识别离焦像素[7] [8] [9]、分离阴影区域[10] [11] [12]以及发现隐藏物体[13] [14] [15]等。相较于图像分类和目标检测,这些任务能提供更精确的几何描述,因此对自动对焦[16]、图像重定向[17]和目标追踪[18]等众多计算机视觉任务具有重要价值。
​  当前,这类任务通常采用领域专用解决方案,这些方案通过精心设计的独特网络架构来学习任务相关特征。由于上述任务具有相同的输入/输出格式和分割前景的共同目标,因此采用了相似的编码器-解码器模型。这意味着专为特定目标设计的模型同样适用于其他场景。然而,目前尚未形成统一的框架来解决这类相似问题。
​  我们提出了一种创新的前景分割方法,该方法通过统一框架根据任务特定知识对不同特征的前景进行分割。这一思路借鉴了近期在提示式学习[19] [20] [21]领域的突破性进展,该概念最初源自自然语言处理(NLP)[22]。其核心思想是通过最小化额外可训练参数,高效适配冻结的大规模基础模型以应对多种下游任务。由于基础模型已通过大规模数据集完成训练,提示式学习通常能显著提升模型在下游任务上的泛化能力[22]。同时,由于仅需存储共享的基础模型和任务感知提示,该方法还能大幅节省模型存储空间。值得注意的是,当前计算机视觉下游任务的进展往往依赖于对预训练模型进行微调,以利用其从大规模数据集中习得的场景理解能力。基于这些观察,我们开发了一种通用框架:通过学习少量任务特定提示来实现前景分割。该模型在大规模数据集上训练以捕捉通用视觉知识,同时学习任务特定提示以获取各任务相关特征。这种设计使模型能够通过通用框架适配多种前景分割任务,从而减少对任务特定架构的需求。我们采用在大规模数据集上预训练的模型并冻结其参数。为适应各项任务,我们通过额外的若干参数学习提示词。
​  另一个重要发现来自手工设计的图像特征的有效性,例如SIFT[23]、光照[24]和噪声[25]。这些特征在传统方法的前景分割中扮演着关键角色[23] [26] [27]。此外,基于深度学习的最新方法[4] [28] [29]通过将这些手工设计的特征与学习特征相结合,显著提升了性能。基于这一观察,我们提出了显式视觉提示(EVP,explicit visual prompting)方法,该方法能从每张图像的特征中学习特定任务的知识。特别值得注意的是,通过重新调制图像特征,调优性能可获得大幅提升。需注意的是,这与 VPT [19]学习隐式提示的方法不同。具体而言,我们针对任务设计了两种特征:首先是来自冻结块嵌入的特征,这对原始模型的分布迁移至关重要;其次是高频特征,因其在前景分割中起关键作用,而深度神经网络往往难以捕捉[30] [31] [32]。
​  我们先前的会议研究成果[EVPv1](参考文献33)验证了显式视觉提示的有效性。该方法首先通过线性层对冻结块嵌入特征进行调优,随后对输入图像应用快速傅里叶变换(FFT,Fast Fourier Transform),并使用固定掩码对频谱进行处理以提取高频成分(HFC,high-frequency components),同时学习HFC的额外嵌入特征。最终,提示器通过整合图像嵌入特征与HFC特征,在所有层级高效完成自适应调整。在不同任务中,EVPv1展现出优于其他参数高效微调方法及任务特定方法的性能优势。
​  尽管取得了这些进展,EVPv1仍需通过手动提取高频成分并设置合适参数。本研究基于显式视觉提示理念,提出端到端解决方案EVPv2。我们创新性地引入傅里叶 MLP 技术,该技术直接从图像嵌入中学习高频特征。具体而言,傅里叶 MLP 首先对图像嵌入进行 FFT ,随后生成频谱自适应掩码并重构高频特征。这些图像嵌入与高频特征被输入提示器生成提示,并与对应的Transformer层结合使用。此外,本文还针对目标任务、预训练模型及提示理解等方面进行了深入探讨并提供了更多研究成果。
​  为验证所提方法的有效性,我们开展了全面实验。在涵盖前景分割五大核心任务的14个不同数据集上进行评估,这些任务包括显著目标检测、伪造检测、阴影检测、失焦模糊检测以及伪装目标检测。通过与特定任务解决方案的对比,我们的统一框架展现出显著优势。实验结果还表明,该方法在参数效率优化微调和全参数微调方面均优于其他同类方案。
​  综上所述,本研究提出的方法为前景分割提供了一个统一框架,为减少任务特定架构需求及提升框架在相关任务中的可复用性提供了新视角。该方法展现出优异性能,优于其他参数高效微调方法及全微调方法。
​  这一简单方法展现出与其他复杂任务特定模型相当甚至更优的性能。研究结果有力证明了其解决广泛问题的潜力。我们相信,这种简洁高效的框架将在各类前景分割任务中得到广泛应用,并为其他计算机视觉任务的统一框架开发发挥重要作用。

​  综上所述,我们的主要贡献如下:

  • 据我们所知,我们首次为多个前景分割任务设计了一种统一方法,包括显著目标检测、伪造检测、失焦模糊检测、阴影检测以及伪装目标检测。
  • 我们提出了显式视觉提示(EVP)方法,该方法以冻结的块嵌入和高频特征作为提示。该方法优于其他参数高效调优方法和任务特定方法。
  • 所提出的方法在不同架构、预训练模型和前景分割任务中均展现出可扩展性。

3.方法

​  我们提出显式视觉提示(EVP)方法,用于将预训练的视觉Transformer适配至前景分割任务。 EVP 保持主干网络冻结,仅包含少量可调参数,通过图像特征学习任务特异性知识。模型架构如图1所示。具体而言,第三章A节首先介绍视觉Transformer与视觉提示技术,第三章B节阐述显式视觉提示方法,并在B1和B2小节详细说明两种变体方案。

image-20260114161633923

图1.所提出的显式视觉提示(EVP)用于通用前景分割的概述。
> EVP 适用于普通视觉Transformer(a)和分层视觉Transformer(b)。
> EVP 为每张图像学习显式提示,并以提示方式将提示附加到Transformer模块中。

A. 预备知识

​  1)Vision Transformer:
​  Vision Transformer最初由[50]提出。一个标准的Vision Transformer由一个补丁嵌入层和若干Transformer模块组成。输入图像\(I\in\mathbb{R}^{H\times W\times3}\)首先被分割为若干块\(p\in\mathbb{R}^{N\times h\times w\times3}\),其中H和W分别表示输入图像的高度和宽度,h和w为块的高度和宽度,\(N={\frac{H\times W}{h\times w}}\)表示块的数量。随后,这些补丁被展平,并通过补丁嵌入层投影为d维标记 \(x\in\mathbb{R}^{N\times d}\)。一个额外的可学习分类标记[ CLS ]和位置编码与嵌入标记结合后输入到Transformer模块。每个Transformer模块由多头自注意力(MSA)模块和多层感知机(MLP)模块组成。在MSA模块中,标记通过线性变换映射为Q、K、V三个向量,随后通过计算每个标记的缩放点积注意力来实现自注意力机制: \[x={\mathrm{Attention}}(Q,K,V)=\mathrm{Softmax}\left(Q K^{T/}\sqrt{d}\right)V.\] ​  输出标记x随后被送入由两个线性层和一个 GELU 激活函数[75]组成的 MLP 模块,其数学表达式可表述为: \[x=\mathrm{MLP}(\mathrm{LN}(x))+x,\] 其中LN代表LayerNorm[76]。
  经过多个transformer模块后,最终视觉识别采用 CLS 。

​  SegFormer[77]是一种基于分层Transformer的结构,其语义分割解码器更为简洁。与传统CNN主干架构类似,SegFormer通过多阶段捕获多尺度特征。不同之处在于,每个阶段均通过特征嵌入层和视觉Transformer模块[50]构建。解码器则利用编码器和 MLP 层输出的多尺度特征,进行具体类别的解码。

(SegFormer在ViT[50]中对补丁嵌入采用了不同的定义。该方法利用重叠补丁嵌入来提取更密集的特征,并在每个阶段开始时将嵌入融合至更小的空间尺寸。)

​  2) 视觉提示:
​  提示调优法[22]作为一种强大的微调方法,无需修改原始模型权重即可将大规模数据集预训练的模型应用于下游任务。该方法通过引入指令集引导预训练模型执行特定任务。近年来,视觉提示[19] [21] [36]作为一种新颖方法崭露头角,通过向输入空间添加额外输入,在计算机视觉领域引发广泛关注。这些补充输入可以是标记、图像或其他形式的媒体,为需要额外信息的下游任务提供上下文支持。该创新方法因其能在保持模型性能的同时减少微调所需的计算资源,已引起学界极大关注。

B. 前景分割的显性视觉提示

​  通常,一组K个不同的前景分割任务可通过K种任务特定方法解决: \[M_{p r e d}^{k}=\phi^{k}(I^{k}),~~k=1,2,....,K\] ​  其中 \(\phi\) 表示任务特定架构,Mpred为预测结果。各模型在每个任务中均经过完全微调以适应任务需求。
​  我们提出显式视觉提示(EVP)用于前景分割。 EVP 是一个通用框架,无需特定任务设计即可处理多种前景分割任务。形式上,该显式视觉提示框架可表述为: \[M_{p r e d}^{k}=\phi_{d e}^{k}\left(\phi_{p t}(I^{k})+\phi_{v p}^{k}(I^{k})\right),\;\;\;k=1,2,\ldots,K\] ​  其中 \(\phi_{p t}\) 表示冻结的预训练主干网络, \(\phi_{v p}\)\(\phi_{d e}\) 分别为视觉提示和解码器的可调参数集。 EVP 通过使用通用冻结主干网络,利用有限数量的可调参数为每张图像学习显式提示,从而处理多种任务。
​  我们的核心洞见是从图像嵌入和频域中学习显式提示。我们学习前者以将分布从预训练数据集转移到目标数据集。学习后者的动机在于高频特征对前景分割至关重要,但深度神经网络难以有效提取。在每个Transformer模块中,我们根据输入图像生成提示词,并将其与Transformer特征结合进行后续处理。如图1所示,该方法可扩展应用于不同视觉Transformer架构。对于单阶段视觉Transformer架构,我们使用补丁嵌入层生成提示词;而对于多阶段视觉Transformer架构,各阶段的提示词由对应阶段的补丁嵌入层生成。
​  下文介绍两种变体。
​  第一种是显式视觉提示与提示器(Explicit Visual Prompting with Prompter):该方法通过手动分离输入图像中的高频成分(HFC),学习HFC的额外补丁嵌入层,再利用轻量级提示器高效生成提示。
​  第二种是显式视觉提示与自适应提示器(Explicit Visual Prompting with Adaptive Prompter):该方法采用提出的傅里叶 MLP 自动从图像嵌入中提取高频特征,进而生成提示。

​  1)显式视觉提示与提示器:
​  本节提出一种基于提示器的显式视觉提示方法,如图2所示。

image-20260114163629368

图2. 高频分量生成流程(上图)。我们通过对输入图像频谱应用固定掩模来获取高频分量。所提出的显式视觉提示与提示器架构(下图)。我们采用嵌入调谐和高频分量调谐来优化提取特征。该提示器旨在高效整合这些特征。

​  该方法包含三个核心模块:补丁嵌入调优、高频成分调优及提示器。其中,补丁嵌入调优和高频成分调优负责为提示器初始化嵌入向量,而提示器则用于高效生成不同Transformer层的提示词。