Explicit Visual Prompting for Universal Foreground Segmentations
约 2712 字大约 9 分钟
2026-01-14
Explicit Visual Prompting for Universal Foreground Segmentations
Weihuang Liu , Xi Shen , Chi-Man Pun , Senior Member, IEEE, and Xiaodong Cun
摘要
前景分割是计算机视觉领域的基础性问题,涵盖显著目标检测、伪造检测、失焦模糊检测、阴影检测及伪装目标检测等场景。现有研究通常依赖领域特定方案来解决这些应用中的精度与鲁棒性问题。本文提出了一种统一框架,可解决多种前景分割任务而无需任务特定设计。我们借鉴自然语言处理领域广泛采用的预训练-提示调优方案,提出名为显式视觉提示(EVP)的新型视觉提示模型。与传统视觉提示通常采用数据集级隐式嵌入不同,我们的核心创新在于通过冻结图像中的显式视觉内容(即冻结块嵌入和高频成分特征)来约束可调参数。该方法通过冻结预训练模型,仅需少量额外参数即可学习任务特定知识。尽管引入的可调参数较少, EVP 仍展现出优于全参数微调及其他参数高效微调方法的性能优势。在五个任务的十四组数据集实验中,该方法不仅性能超越其他任务特定方法,且实现方式更为简洁。实验结果表明,该方法在不同架构、预训练权重及任务类型中均展现出良好的可扩展性。
索引术语:前景分割、通用模型、视觉提示、高效调优。
1.引言
前景分割是场景理解的基础研究课题之一,它根据图像中前景和背景的类内相似性和类间差异性,将图像分割为两个不重叠的子区域。前景分割包含多个子任务,包括检测显著物体[1] [2] [3]、分割操作区域[4] [5] [6]、识别离焦像素[7] [8] [9]、分离阴影区域[10] [11] [12]以及发现隐藏物体[13] [14] [15]等。相较于图像分类和目标检测,这些任务能提供更精确的几何描述,因此对自动对焦[16]、图像重定向[17]和目标追踪[18]等众多计算机视觉任务具有重要价值。
当前,这类任务通常采用领域专用解决方案,这些方案通过精心设计的独特网络架构来学习任务相关特征。由于上述任务具有相同的输入/输出格式和分割前景的共同目标,因此采用了相似的编码器-解码器模型。这意味着专为特定目标设计的模型同样适用于其他场景。然而,目前尚未形成统一的框架来解决这类相似问题。
我们提出了一种创新的前景分割方法,该方法通过统一框架根据任务特定知识对不同特征的前景进行分割。这一思路借鉴了近期在提示式学习[19] [20] [21]领域的突破性进展,该概念最初源自自然语言处理(NLP)[22]。其核心思想是通过最小化额外可训练参数,高效适配冻结的大规模基础模型以应对多种下游任务。由于基础模型已通过大规模数据集完成训练,提示式学习通常能显著提升模型在下游任务上的泛化能力[22]。同时,由于仅需存储共享的基础模型和任务感知提示,该方法还能大幅节省模型存储空间。值得注意的是,当前计算机视觉下游任务的进展往往依赖于对预训练模型进行微调,以利用其从大规模数据集中习得的场景理解能力。基于这些观察,我们开发了一种通用框架:通过学习少量任务特定提示来实现前景分割。该模型在大规模数据集上训练以捕捉通用视觉知识,同时学习任务特定提示以获取各任务相关特征。这种设计使模型能够通过通用框架适配多种前景分割任务,从而减少对任务特定架构的需求。我们采用在大规模数据集上预训练的模型并冻结其参数。为适应各项任务,我们通过额外的若干参数学习提示词。
另一个重要发现来自手工设计的图像特征的有效性,例如SIFT[23]、光照[24]和噪声[25]。这些特征在传统方法的前景分割中扮演着关键角色[23] [26] [27]。此外,基于深度学习的最新方法[4] [28] [29]通过将这些手工设计的特征与学习特征相结合,显著提升了性能。基于这一观察,我们提出了显式视觉提示(EVP,explicit visual prompting)方法,该方法能从每张图像的特征中学习特定任务的知识。特别值得注意的是,通过重新调制图像特征,调优性能可获得大幅提升。需注意的是,这与 VPT [19]学习隐式提示的方法不同。具体而言,我们针对任务设计了两种特征:首先是来自冻结块嵌入的特征,这对原始模型的分布迁移至关重要;其次是高频特征,因其在前景分割中起关键作用,而深度神经网络往往难以捕捉[30] [31] [32]。
我们先前的会议研究成果[EVPv1](参考文献33)验证了显式视觉提示的有效性。该方法首先通过线性层对冻结块嵌入特征进行调优,随后对输入图像应用快速傅里叶变换(FFT,Fast Fourier Transform),并使用固定掩码对频谱进行处理以提取高频成分(HFC,high-frequency components),同时学习HFC的额外嵌入特征。最终,提示器通过整合图像嵌入特征与HFC特征,在所有层级高效完成自适应调整。在不同任务中,EVPv1展现出优于其他参数高效微调方法及任务特定方法的性能优势。
尽管取得了这些进展,EVPv1仍需通过手动提取高频成分并设置合适参数。本研究基于显式视觉提示理念,提出端到端解决方案EVPv2。我们创新性地引入傅里叶 MLP 技术,该技术直接从图像嵌入中学习高频特征。具体而言,傅里叶 MLP 首先对图像嵌入进行 FFT ,随后生成频谱自适应掩码并重构高频特征。这些图像嵌入与高频特征被输入提示器生成提示,并与对应的Transformer层结合使用。此外,本文还针对目标任务、预训练模型及提示理解等方面进行了深入探讨并提供了更多研究成果。
为验证所提方法的有效性,我们开展了全面实验。在涵盖前景分割五大核心任务的14个不同数据集上进行评估,这些任务包括显著目标检测、伪造检测、阴影检测、失焦模糊检测以及伪装目标检测。通过与特定任务解决方案的对比,我们的统一框架展现出显著优势。实验结果还表明,该方法在参数效率优化微调和全参数微调方面均优于其他同类方案。
综上所述,本研究提出的方法为前景分割提供了一个统一框架,为减少任务特定架构需求及提升框架在相关任务中的可复用性提供了新视角。该方法展现出优异性能,优于其他参数高效微调方法及全微调方法。
这一简单方法展现出与其他复杂任务特定模型相当甚至更优的性能。研究结果有力证明了其解决广泛问题的潜力。我们相信,这种简洁高效的框架将在各类前景分割任务中得到广泛应用,并为其他计算机视觉任务的统一框架开发发挥重要作用。
综上所述,我们的主要贡献如下:
- 据我们所知,我们首次为多个前景分割任务设计了一种统一方法,包括显著目标检测、伪造检测、失焦模糊检测、阴影检测以及伪装目标检测。
- 我们提出了显式视觉提示(EVP)方法,该方法以冻结的块嵌入和高频特征作为提示。该方法优于其他参数高效调优方法和任务特定方法。
- 所提出的方法在不同架构、预训练模型和前景分割任务中均展现出可扩展性。
3.方法
我们提出显式视觉提示(EVP)方法,用于将预训练的视觉Transformer适配至前景分割任务。 EVP 保持主干网络冻结,仅包含少量可调参数,通过图像特征学习任务特异性知识。模型架构如图1所示。具体而言,第三章A节首先介绍视觉Transformer与视觉提示技术,第三章B节阐述显式视觉提示方法,并在B1和B2小节详细说明两种变体方案。

图1.所提出的显式视觉提示(EVP)用于通用前景分割的概述。
EVP 适用于普通视觉Transformer(a)和分层视觉Transformer(b)。
EVP 为每张图像学习显式提示,并以提示方式将提示附加到Transformer模块中。
