Noise-Assisted Prompt Learning for Image Forgery Detection and Localization
Noise-Assisted Prompt Learning for Image Forgery Detection and Localization
Dong Li, Jiaying Zhu, Xueyang Fu(B), Xun Guo, Yidi Liu, Gang Yang,
Jiawei Liu, and Zheng-Jun
Zha
中国科学技术大学信息科学与技术学院与教育部脑启发智能感知与认知重点实验室,中国合肥
230026
摘要
我们提出CLIP- IFDL 模型,这是一种新型图像伪造检测与定位(IFDL)模型,其核心在于利用对比语言图像预训练(CLIP)的强大能力。然而,直接将CLIP应用于伪造检测存在挑战,因其缺乏特定提示和伪造意识。为克服这些挑战,我们通过噪声辅助提示学习框架对CLIP模型进行定制化改造。该框架包含实例感知双流提示学习和伪造增强型噪声适配器。我们首先创建一对可学习的提示作为负样本与正样本,替代离散提示,随后根据每张图像的特征和类别对这些提示进行微调。此外,我们通过约束提示与其对应图像之间的文本-图像相似性来更新提示。同时,我们设计了伪造增强型噪声适配器,通过多域融合和零线性层提升图像编码器的伪造感知能力。通过这种方式,我们的方法不仅提取了相关特征,还受益于开放世界CLIP先验的泛化能力。全面测试表明,我们的方法在准确性和泛化能力方面优于现有方法,同时有效降低了误报率。
补充信息 在线版本包含补充材料,可通过以下获取https://doi.org/10.1007/978-3-031-73247-8
1.引言
媒体技术与编辑工具的飞速发展,使得图像篡改现象日益普遍。这些被篡改图像带来的风险横跨多个领域,包括版权水印移除、虚假新闻制造以及法庭诉讼中的证据伪造[35,66,67]。因此,图像伪造检测与定位(IFDL)领域备受关注,其核心目标是判断图像是否被篡改并识别篡改区域。然而,随着扩散模型等图像伪造技术的快速进步[21,40,45,48,49],
IFDL
领域始终面临着应对新型伪造手段的持续挑战。与此同时,真实图像上的误报也可能扰乱媒体传播,导致负面后果。因此,开发精准且通用的
IFDL
方法至关重要。
深度学习技术显著推动了图像伪造检测与定位(IFDL)的发展。例如,RGB-N[73]通过隐写分析丰富的模型滤波层获取噪声特征,检测真实区域与篡改区域之间的差异;
MVSS
-Net[7]利用噪声视图和边界伪影学习多视角特征;而ObjectFormer[55]则通过高频图像区域识别细微篡改痕迹。然而这些方法在实际应用中往往表现欠佳。尽管优于传统方法,基于学习的方法在处理分布外检测时仍存在困难,即难以应对与训练集存在差异的篡改图像。此外,多数先进方法优先进行伪造定位,将检测视为后续任务[10,19,74],其全局完整性评分源自伪造定位预测[24,47,62](如图1所示)。这种做法常导致检测精度低下且误报率居高不下[19]。在现实场景中,伪造图像相对罕见[19],而真实图像的高误报率可能引发比算法解决的更多问题。因此,亟需开发既能精准检测定位伪造图像又可降低误报率的方法。
本研究探讨对比语言-图像预训练(CLIP)[43]在增强
IFDL
方面的潜力。CLIP在零样本图像识别[43,71]和抽象概念感知[54]方面已展现出显著能力。此外,我们发现CLIP具有区分真实图像与伪造图像的潜力(详见补充材料)。我们旨在利用CLIP模型中封装的丰富视觉语言先验知识,用于伪造检测与定位,最终目标是提升泛化能力并减少误报。然而,直接将CLIP应用于
IFDL
存在挑战:首先,像“假”和“真”这类抽象语义提示难以与每张图像精准对应,导致难以找到能处理各类伪造的通用提示;其次,CLIP先验源自4亿张图像-文本对(主要由真实图像构成),且对局部物体区域不敏感[27],这导致其图像编码器在伪造检测中缺乏足够的局部感知能力。
为应对将CLIP应用于
IFDL 的挑战,我们提出了一种名为CLIP- IFDL
的新型噪声辅助提示学习框架。该框架通过实例感知双流提示学习(IDPL)和伪造增强型噪声适配器(FENA)来解决相关问题。针对提示查找问题,
IDPL
首先建立正负样本对作为可学习提示的替代方案,随后根据图像类别和视觉特征以双重可学习方式调整提示。在此基础上,我们通过约束提示对与CLIP潜在空间中对应图像的文本-图像相似度,更新提示并进行伪造检测。为解决局部伪造感知问题,我们设计了
FENA
,通过多域融合、零线性层和记忆机制增强CLIP对局部伪造的感知能力。通过相互增强,CLIP-
IFDL
实现了准确且通用的图像伪造检测与定位,有效降低了真实图像的误报率。
我们的贡献如下:
- 我们提出了一种基于CLIP感知能力的图像伪造检测与定位新方法——CLIP- IFDL 。
- 该方法通过实例感知的双流提示学习,根据图像类别和视觉特征生成准确的伪造特征描述提示。
- 同时开发了伪造增强型噪声适配器,既能提升网络对局部伪造的感知能力,又可避免因过度微调导致的CLIP先验知识灾难性遗忘。
多项代表性基准测试的广泛实验表明,我们的方法在准确性、泛化能力和误报缓解方面均优于现有最先进方法。
2.相关工作
2.1 图像伪造检测与定位
大多数早期研究提出检测特定类型的伪造行为,包括拼接[2,4,9,11,24,28,38,59,69]、复制-移动[8,15,25,57,60,61]以及移除[1,58,64,75]。尽管这些方法在检测特定类型的伪造图像方面表现良好,但由于未知且多样化的伪造类型普遍存在,它们在实际应用中仍存在局限性。因此,近期研究强调需要一种能够用单一模型应对多种伪造类型的方法。RGB-N[73]提出了一种双流网络架构:一个流提取RGB特征以捕捉视觉伪影,另一个流利用噪声特征来建模篡改区域与未篡改区域之间的差异,从而实现图像伪造定位。ManTra-net[62]采用端到端网络架构,通过提取图像篡改痕迹特征并评估局部特征与参考特征的差异来识别异常区域。SPAN[23]尝试通过局部自注意力模块和金字塔传播来建模空间相关性。 MVSS -Net[7]设计了边缘监督分支,利用边缘残差块以浅层到深层的方式捕捉精细边界细节。ObjectFormer[55]从图像高频部分提取伪造痕迹,试图在频域中实现图像伪造定位。TruFor[19]输出可靠性图以减少误报并支持大规模分析,这对取证应用至关重要。 ERMPC [31]提出了一种粗到细的两步框架,通过边缘信息显式建模伪造区域与真实区域之间的差异。在本研究中,我们利用CLIP的感知能力与提示学习,探索视觉语言先验在图像伪造检测与定位中的潜在应用,从而提升性能。
2.2 CLIP扩展和提示
CLIP[43]凭借从4亿组精心整理的图像-文本对中学习到的知识,在零样本分类任务中展现出卓越性能。该模型衍生出多个子领域研究成果,包括目标检测[29,65]、图像分割[37,46,70]、图像增强[34]和图像编辑[42]。最新研究[54]表明,CLIP所蕴含的丰富视觉语言先验知识不仅能评估图像质量,还能通过零样本方式实现抽象感知。这些发现启发我们将其应用于图像伪造检测与定位。随着GPT系列模型的成功[5,44],提示工程逐渐普及。在自然语言处理领域,近期涌现出多种提示设计方法,其中一种通过挖掘或生成合适的离散提示来优化提示工程[16,26,50]。此外,连续提示突破了预训练语言模型的限制,已被广泛应用于NLP任务[17,30,33]。在视觉领域,CLIP发现提示设计对下游任务至关重要,因此通过在物体名称前添加“一张照片”的前缀来提升视觉分类性能。基于CLIP,CoOp[71]提出了上下文优化方法,专门针对CLIP类视觉语言模型进行适配,以提升下游图像识别性能。相比之下,我们的方法通过针对每张图像的自适应提示学习,准确提取抽象的真实-虚假图像表征,而非CLIP中的高层次语义信息。
3.方法论
3.1 总览
现有方法普遍存在泛化能力差、误报率高的问题。CLIP在区分真实与伪造图像属性方面展现出卓越的零样本感知能力,有望解决上述问题。为此,我们基于CLIP提出了CLIP- IFDL 框架。图2展示了该框架的总体架构。
图2.所提框架CLIP- IFDL 的概述。输入为可疑图像(H×W×3),输出为预测掩码(H×W×1),用于定位伪造区域。我们通过计算提示对与CLIP潜在空间中对应图像的文本-图像相似度来进行伪造检测。特征分支包含类别标记和视觉标记。实例感知双流提示学习如图3所示。
我们通过冻结CLIP的图像和文本编码器来保持先验信息。在此基础上,我们设计了实例感知双流提示学习(IDPL,Instance-aware
Dual-stream Prompt
Learning)和伪造增强噪声适配器(FENA,Forgery-enhanced Noise
Adapter),以充分发挥CLIP在 IFDL 领域的潜力。 IDPL
根据图像类别和视觉特征自适应地为每张图像寻找合适提示,解决了用提示准确描述抽象伪造概念的挑战。
FENA
旨在缓解CLIP对局部伪造的感知不足,通过有机整合适配器、跨域注意力机制和记忆机制,将包含伪造信息的噪声融入冻结的CLIP中,从而提升伪造定位能力。
从形式上讲,输入图像表示为\(X\in\mathbb{R}^{H\times
W\times3}\),其中H和W分别代表图像的高度和宽度。实际应用中,该CLIP图像编码器采用ViT-base[13]架构,共包含12个层级。编码器各层级的输出特征分别为\(\{G_{r}^{1},G_{r}^{2},\cdot\cdot\cdot,G_{r}^{12}\}\),其中\(G_{r}^{0}\)表示基础层。图像编码器最后一层的输出与文本编码器的输出共同输入
IDPL 进行伪造检测,同时实现对真伪属性的语义表征。该 FENA
通过噪声特征提取器和噪声适配器,将伪造信息引入图像编码器的第k层,以增强图像特征(记为
\({\hat{G}}_{r}^{k}\))。在我们的工作中,\(k\in\{0,3,6,9,12\}\)。最终,经过增强的图像特征
\({\hat{G}}_{r}^{k}\)与 IDPL
输出的文本嵌入向量共同输入经典解码器,输出预测伪造定位图\(G_{o u t}\in\mathbb{R}^{H\times
W\times1}\)。
3.2 基于实例感知的双流提示学习
与语义分割和目标检测不同,真伪属性并非高级语义信息,而是一个相对抽象的概念。这使得像CLIP[43]这样的离散提示无法为 IFDL 获得准确结果。此外,每张图像的伪造痕迹可能各不相同,因此我们提出了如图3所示的实例感知双流提示学习(IDPL)。
首先,我们在连续空间中使用可学习向量作为提示来表示真伪属性。给定一张真实图像\(X_a\in\mathbb{R}^{H\times
W\times3}\)和一张伪造图像\(X_f\in\mathbb{R}^{H\times
W\times3}\),我们分别设置两个可学习向量\(V_a\in\mathbb{R}^{N\times 512}\)和\(V_f\in\mathbb{R}^{N\times
512}\)。N表示每个提示中嵌入的标记数量。值得注意的是,这两个可学习向量并非随机初始化,而是使用词语作为初始化向量——即\(V_a\)和\(V_f\)分别通过“真实”和“伪造”这两个词的嵌入向量进行初始化。通过精心设计的离散提示集启动该过程,简化了在连续语义空间中寻找精确向量以评估抽象概念的挑战。
随后,我们采用双流学习方法将提示从粗到细进行调整。该方法包含提示调整网络(PANet,prompt
adjustment network)和嵌入调整网络(EANet,embedding adjustment
network)。PANet根据图像类别对初始提示进行调整,其表达式为: \[P_{i}=V_{i}+\mathrm{PAN}(C_{x}),\]
其中\(C_{x}\)是基于CLIP的编码器最后一层对输入X输出的特征
\({\hat{G}}_{r}^{12}\)的 CLS
标记,\(P_{i}=\{P_{a},P_{f}\}\)是初始调整后的提示,PAN表示PANet。在本研究中,PANet采用双层结构(线性-ReLU-线性),其中隐藏层将输入维度缩减16倍。随后,将\(P_{i}\)输入冻结文本编码器以获取包含CLIP先验的文本嵌入
Ψtext(Pi)。接着,使用EANet调整文本嵌入。具体而言,我们将文本嵌入 \(\Psi_{t e x
t}(P_{i})\)作为查询输入,与图像特征 \({\hat{G}}_{r}^{12}\)一同输入由Transformer解码器组成的EANet,以搜索与真实-伪造属性相关的视觉线索。最后通过残差连接获得\(T_i\)。该过程的计算方式为 \[T_{i}=\Psi_{t e x
t}(P_{i})+\alpha\mathrm{EAN}\left(\Psi_{t e x
t}(P_{i}),\hat{G}_{r}^{12}\right),\] 其中 \(\Psi_{t e x t}\)为冻结文本编码器, \(\alpha\)为可学习参数,EAN即EANet。实际应用中,该模型采用Transformer解码器[53]。在
\(\alpha\)
训练阶段,我们采用极小初始值(如10−3)来防止图像特征在训练初期掩盖提示信息,避免直接丢失提示内容。简而言之,
IDPL
不仅能优化类别内每张图像的提示,还能通过图像特征中的相关线索进一步调整提示。同时,这种设计在图像编码器与提示生成之间架起桥梁,对整个框架的优化具有显著优势。
在获得\(T_{i}=\{T_{a},T_{f}\}\)后,我们计算CLIP内容空间中的图像-文本相似度
\(\rho\) ,如图2所示: \[\rho=\frac{\exp(\cos(C_{x},T_{a}))}{\sum_{i\in\{a,f\}}\exp(\cos(C_{x},T_{i}))},\]
其中\(\cos\left(\cdot,\cdot\right)\)表示余弦相似度。基于此,我们随后采用二元交叉熵损失函数\({\mathcal
L}_{cls}\)来区分真实图像与伪造图像,以优化提示词的可学习参数。该过程可表述为:
\[\mathcal{L}_{c l s}=-(y\cdot l o
g(\rho))+(1-y)\cdot l o g(1-\rho),\]
其中y为当前图像的标签。我们将标签‘1’分配给真实图像,标签‘0’分配给伪造图像。此举旨在确保通过网络优化,真实图像\(X_a\)与提示图像\(T_a\)之间的距离逐渐缩小。
4.伪造增强噪声适配器
为保持开放世界CLIP先验,我们冻结了CLIP的参数。然而,CLIP的知识库来源于4亿张图像-文本对,其中主要由自然图像构成。此外,CLIP对局部物体区域的感知能力似乎较弱[27]。这些因素导致CLIP图像编码器对局部伪造的感知不足,从而造成像素级定位能力的欠缺。利用噪声信息可发现RGB域中几乎不可见的篡改痕迹,从而实现强大的伪造检测性能[3,7,31,56,62,73]。然而,由于噪声与RGB之间的信息鸿沟,直接将噪声信息引入CLIP编码器并不合适。因此,我们提出伪造增强噪声适配器(FENA,Forgery-Enhanced Noise Adapter),该适配器由噪声特征提取器和定制噪声适配器组成,如图2所示。
首先,我们参照文献[7]的方法,采用BayarConv[62]生成噪声特征Gn。为提升参数效率并与CLIP图像特征保持一致,我们选用ViT-small[52]作为噪声特征提取器的主干网络。该网络包含12个层,各层输出特征依次命名为\(\{G_{n}^{1},G_{n}^{2},\cdot\cdot\cdot,G_{n}^{12}\}\)。特别地,我们使用\(G_{n}^{0}\)来表示输入第一层前的特征,即主干层的特征。
为降低计算成本,我们未将噪声信息直接输入图像编码器的每一层。参照文献[63],我们选取了{0,3,6,9,12}层结构。随后通过噪声适配器将噪声特征整合至图像编码器中。需要特别说明的是,我们并未直接对冻结主干网络施加条件,这与传统适配器[39,68]的处理方式不同。相反,我们采用融合策略在探索伪造信息时,架起噪声与RGB之间的桥梁。具体实现中,我们利用交叉注意力机制对两种信息进行融合,最终获得\(G_{f}^{k}\): \[G_{f}^{k}=\mathrm{softmax}\bigl((W_{q}G_{r}^{k})(W_{k}G_{n}^{k})^{T}\bigr)W_{v}G_{n}^{k},\]
其中\(k\in\{0,3,6,9,12\}\)。\(W_q\)、\(W_k\)和\(W_v\)均为权重矩阵,softmax为softmax函数。我们探究了适配器融合策略的作用,发现用复杂融合模块替代该策略可能获得更优性能。此外,为促进信号在迭代阶段间的流动,我们还引入了简单的持久记忆机制[6,72],通过利用融合空间中的记忆来增强信息表征。该过程可表示为
\[G_{m}^{k}=\left\{\begin{array}{l
l}{G_{f}^{k}}&{k=0}\\\psi(\mathrm{Cat}(G_{f}^{k},G_{m}^{k-3}))&{k\in\{3,6,9,12\}}\end{array}\right.\]
其中 \(\psi\)
表示线性层,Cat表示拼接。随后,受文献[68]启发,我们通过零线性层 \(\varphi^{k}\) 连接 \(G_{m}^{k}\) 和 \(G_{r}^{k}\)
,该层的权重和偏置均初始化为0。其计算方式为: \[\hat{G}_{r}^{k}=G_{r}^{k}+\varphi^{k}\left(G_{m}^{k}\right),k\in\{0,3,6,9,12\}\]
其中 \(\hat{G}_{r}^{k}\)
是经过适配器处理的图像编码器的K层特征。 \(\varphi^{k}\)
通过消除初始训练阶段用作梯度的随机噪声来保护主干网络。我们探索了适配器、跨域注意力机制和记忆机制的有机整合以设计
FENA
。该方法在有效增强CLIP对局部伪造的敏感性的同时,避免了破坏CLIP的先验知识。因此,
FENA
代表了一种有效利用CLIP在图像伪造定位领域潜力的方法,为学术界做出了重要贡献。
4.1 伪造定位译码器
参考文献[36,37]的方法,我们采用U-Net结构的解码器进行伪造检测。如图2所示,图像特征 \(\hat{G}_{r}^{k},k\in\{0,3,6,9,12\}\) 在每个Transformer模块前输入解码器。为提升网络效率,我们采用文献[37]提出的精简解码器方案,仅需1.12M参数。此外,为充分利用文本信息增强伪造检测性能,我们引入特征线性调制(FiLM,Feature-wise Linear Modulation)[14]技术将文本特征Ti输入解码器。FiLM通过特征线性变换对输入进行处理,使图像特征能够被文本特征有效调制,其数学表达式可表示为 \[\mathrm{FiLM}(\hat{G}_{r}^{12})=\gamma(T_{i})\odot\hat{G}_{r}^{12}+\beta(T_{i}),\] 其中 \(\gamma\) 和 \(\beta\) 均为线性层,\(\odot\) 表示哈达玛积。 \({G}_{r}^{12}\)为图像特征,\(T_{i}\)为提示学习后的文本特征。最终,解码器借助多层级图像特征与文本特征,可生成预测伪造定位图\(G_{out}\in\mathbb{R}^{H\times W\times1}\)。
4.2 优化
如图2所示,本方法的损失函数包含两个组成部分:检测损失和定位损失。我们通过计算伪造检测损失Lcls来实现,该损失基于图像与CLIP内容空间中学习到的文本嵌入之间的相似度(详见第3.2节)。这与大多数先前方法不同,后者将像素级定位预测转换为二元检测结果,从而在真实图像上引入更高的误报风险[7]。本方法的定位损失源自最终预测\(G_{out}\)和真实掩码 $ Y^{HW}\(。整体损失函数可表示为:\)\({\mathbf L}=\lambda_{1}{\mathcal L}_{l o c}\left(Y,G_{o u t}\right)+\lambda_{2}{\mathcal L}_{c l s}\)$ 其中\({\mathcal L}_{l o c}\)表示Dice损失, \(\lambda_{1},\lambda_{2}\) 是用于平衡损失函数中两个项的参数。值得注意的是,本方法的检测损失与定位损失具有相对独立性,二者之间不存在固定顺序关系,这有助于减少对真实图像的误报。然而,二者均有助于优化伪造特征的提取,确保彼此相互促进。
5.实验
5.1 实验设置
预训练数据
我们创建了一个规模可观的图像篡改数据集,并利用该数据集对模型进行预训练。该数据集包含三个类别:1)
剪接,2) 拷贝-移动,3) 删除。详细信息可参见补充材料。
测试数据集
参照文献[36,55],我们在 CASIA
[12]、Coverage[57]、Columbia[22]、NIST16[18]和IMD20[41]等数据集上评估模型性能。特别说明,IMD20数据集包含从互联网获取的真实场景图像。为确保公平性,我们采用与文献[23,55]相同的训练/测试数据划分方案对模型进行微调。
5.2 图像伪造定位
参照SPAN[23]和ObjectFormer[55]的研究方法,本研究在两种场景下将我们的模型与其他前沿方法进行对比:
1)在合成数据集上训练并在完整测试数据集上评估;
2)在测试数据集的训练分组上对预训练模型进行微调,并在测试分组上进行评估。
值得注意的是,在这两个阶段中,主要的CLIP模型始终保持冻结状态。
预训练模型
表1a展示了不同方法在五个数据集上基于像素级AUC的定位性能。在评估预训练模型时,我们将其CLIP-
IFDL
与MantraNet[62]、SPAN[23]、PSCCNet[36]、ObjectFormer[55]、HiFi-Net[20]和
SAFL -Net[51]进行对比。
经过预训练的CLIP- IFDL 在Coverage、 CASIA
、NIST16和IMD20数据集上表现最佳,在Columbia数据集上排名第三。特别是,CLIP-
IFDL
在包含真实图像的IMD20数据集上达到了97.8%的准确率。这表明我们的方法不仅具备卓越的篡改痕迹捕捉能力,还能很好地适应现实场景。
我们在Columbia数据集上未能取得最佳性能,落后于HiFi-Net
0.7%,且AUC值低于后者。我们认为,这可能是因为他们合成的训练数据分布与Columbia数据集高度相似。表1b的结果进一步支持了这一观点,数据显示CLIP-
IFDL 在AUC和F1分数上均优于HiFi-Net。
微调模型
利用预训练模型的网络权重,分别在Coverage、
CASIA
和NIST16数据集的训练集上启动微调模型。表1b展示了不同方法的微调模型评估结果。在AUC和F1指标上,我们的模型实现了显著性能提升。这验证了我们的方法能够通过实例感知的双流提示学习和伪造增强型噪声适配器,精准捕捉各类细微的篡改痕迹。
5.3 图像伪造检测
为验证网络在图像层面的判别能力,我们还进行了伪造检测任务的实验。参照ObjectFormer[55]的研究方法,我们在[36]提出的 CASIA -D数据集上展开实验对比。如表1c所示,我们的方法展现出优异的检测性能。为进一步评估漏检率和误报率,我们在表2中对Coverage[57]和IMD20[41]等更具挑战性的数据集进行了补充对比。
其中Spe表示特异性,数值越高意味着对真实图像的误报越少;Sen代表灵敏度,表示漏检伪造图像的几率越低。我们的方法再次跻身顶尖行列,在保持F1值的同时获得高特异性,这表明CLIP- IFDL 通过结合相对独立的检测范式与CLIP先验知识,有效降低了误报率。该方法在AUC指标上同样表现优异,充分证明其准确区分伪造与真实图像的能力。
5.4 稳健性评价
为评估模型在图像伪造检测中的鲁棒性,我们采用文献[55]中的失真处理方案对NIST16数据集的原始伪造图像进行降质处理。具体包括:调整图像比例(Resize)、应用核大小k的高斯模糊(GaussianBlur)、添加标准差 σ 的高斯噪声(GaussianNoise),以及执行质量因子q的JPEG压缩(JPEGCompress)。我们通过对比模型与SPAN、ObjectFormer在这些失真数据上的伪造检测性能(AUC分数),并将结果汇总于表3。
实验表明,我们的模型在应对各类失真技术时展现出更强的鲁棒性。值得注意的是,JPEG压缩是社交媒体上传图片时的常见处理方式,而我们的模型在压缩图像上的表现尤为突出。
5.5 消融研究
本节通过实验验证方法的有效性。实例感知双流提示学习(IDPL)旨在精准识别图像的真实与伪造特征,从而有效利用CLIP先验知识。该方法由提示调整网络(PANet)和嵌入调整网络(EANet)构成。PANet根据每张图像的类别自适应调整提示,而EANet则通过图像特征中的真实-伪造属性相关线索来调整提示的嵌入。伪造增强噪声适配器(FENA)旨在增强CLIP对伪造的感知能力。
为评估PANet、EANet和 FENA 的有效性,我们将其单独移除后进行伪造检测性能评估(如表4所示)。基线模型仅采用CLIP和伪造检测解码器,并使用两个可学习向量作为提示词。结果显示:当移除PANet时, CASIA 数据集的AUC分数下降8.70%,NIST16数据集下降15.43%;移除EANet时, CASIA 数据集AUC下降7.77%,NIST16数据集下降10.92%。此外,表4还显示移除 FENA 会导致性能下降——NIST16数据集的AUC下降4.91%,F1分数下降6.83%。相较于移除 FENA ,移除PANet或EANet导致的性能下降更为显著,这表明实例感知提示学习对促进检测任务具有重要作用。
在表5中,我们通过对比三种数据集上不同解冻策略的效果,验证了冻结CLIP模型带来的先验知识对泛化性能的贡献。“Ours”代表预训练的CLIP- IFDL 模型,用于评估泛化能力。其中“a”表示解冻全部CLIP参数,“b”表示解冻图像编码器,“c”表示解冻文本编码器。可以观察到,解冻全部参数会导致遗忘CLIP的先验知识,从而导致泛化能力下降。此外,无论是解冻图像编码器还是解冻文本编码器,都会使网络在真实数据集IMD20上的表现变差。这表明冻结CLIP的先验知识对网络在现实场景中的泛化能力具有重要贡献。
5.6 可视化结果
定性结果
如图4所示,我们展示了多种方法的预测掩码。由于ObjectFormer[55]和
SAFL
-Net[51]的源代码不可获取,因此无法提供它们的预测结果。结果表明,该方法不仅能更准确地定位篡改区域,而且能生成清晰的边界,这得益于模型在CLIP先验和噪声适配器的辅助下,能够有效区分篡改区域和非篡改区域。
IDPL
可视化
为验证实例感知双流提示学习(IDPL)的效果,我们在图5中展示了有无提示学习时特征的变化。可以看出
IDPL 能显著提升伪造物定位的准确率。未使用 IDPL
的网络会对与伪造物相似的物体做出错误判断。
FENA
可视化
图5展示了有无伪造增强噪声适配器(FENA)时特征的变化。显然
FENA 有助于伪造特征的学习,并能获得更精确的伪造区域轮廓。
其他挑战数据集的可视化
为验证方法的强泛化能力,我们还在两个具有挑战性的分布外数据集上进行了可视化对比。这两个数据集分别是人脸篡改图像Faceshifter[32]和基于扩散的篡改图像CocoGlide[19],其伪造类型与训练集存在显著差异。如图6所示,我们的方法仍能取得最佳可视化效果。这充分证明了该方法在检测未见过伪造物时的强泛化能力。
6.结论
本文提出了一种基于CLIP潜力的图像伪造检测与定位新范式CLIP- IFDL 。该方法不仅利用开放世界CLIP先验知识区分伪造与真实图像,还能精准识别伪造区域,从而提升泛化能力并降低误报率。我们首先构建可学习的提示对,通过在CLIP潜在空间中对齐文本与图像的相似度进行更新。此外,我们设计了伪造增强型噪声适配器,显著提升了图像编码器对伪造特征的感知能力。据我们所知,这是首次尝试将提示学习与CLIP先验知识应用于图像伪造检测 IFDL 。在多个代表性基准测试中,大量实验表明我们的方法在准确率、泛化能力及误报抑制方面均优于现有方法。