ForensicsSAM:Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack

约 10141 字大约 34 分钟

2025-09-11

ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack

Rongxuan Peng, Student Member, IEEE, ，Shunquan Tan, Senior Member, IEEE, ，Chenqi Kong, Member, IEEE, ， Anwei Luo， Alex C. Kot, Life Fellow, IEEE， Jiwu Huang, Fellow, IEEE

摘要

参数优化微调（PEFT，Parameter-efficient fine-tuning）已成为将大型视觉基础模型（如任意分割模型SAM和LLaVA）适配至图像伪造检测与定位（IFDL）等下游任务的主流策略。然而，现有基于PEFT的方法存在对抗攻击易受攻击的缺陷。本文研究表明，仅需上游模型即可生成高度可迁移的对抗样本，无需访问下游模型或训练数据，这会显著降低IFDL性能。为此，我们提出集成对抗鲁棒性的统一IFDL框架——ForensicsSAM。该设计基于三大核心理念：

(1)为弥补冻结图像编码器在防伪知识方面的不足，我们在每个变换器模块中注入防伪专家，以增强其捕捉伪造特征的能力。这些防伪专家始终处于激活状态，并在所有输入图像之间共享。
(2)为检测对抗性图像，我们设计了一种轻量级对抗检测器，该模型通过学习捕捉RGB域中结构化、任务特定的伪影特征，能够可靠识别各类攻击手段。
(3)为抵御对抗性攻击，我们在全局注意力层和MLP模块中注入对抗专家网络，逐步修正由对抗噪声引发的特征偏移。

对抗检测器会动态激活这些对抗性专家模型，从而避免对干净图像造成不必要的干扰。通过在多个基准测试中的大量实验表明，ForensicsSAM不仅展现出对各类对抗攻击方法的卓越抵御能力，在图像级伪造检测和像素级伪造定位方面也达到了业界领先水平。
该代码可在https://github.com/siriusPRX/ForensicsSAM获取。

1.引言

图像伪造检测与定位（IFDL）[1]旨在识别图像是否被篡改，并准确定位伪造区域。该技术在数字取证和媒体真实性验证中发挥着关键作用。最近，深度学习已经成为IFDL任务的主要范式。基于这一范式，已有大量研究[2]–[12]提出利用卷积神经网络或transformer架构来有效捕捉图像中的细微伪造痕迹。在此基础上，近期研究[13]–[16]开始转向采用大规模视觉基础模型，例如SAM（任意分割模型）[17]和LLaVA [18]，用于图像伪造检测任务。这些方法不仅从通用模型中迁移丰富的视觉先验知识，还整合文本信息辅助伪造检测与定位，从而提升模型的泛化能力和可解释性。这些方法主要采用参数优化微调PEFT技术——如LoRA [19]或适配器——仅更新少量参数子集，即可对大规模视觉基础模型进行微调以完成图像伪造检测任务。
然而，最新研究[20]指出，现有图像伪造检测方法（IFDL）仍存在严重对抗性攻击漏洞，在安全敏感型应用中构成重大安全隐患。受PATA++ [21]和UMI-GRAT [22]的启发，本研究进一步揭示：基于大规模视觉基础模型的IFDL方法同样存在此类缺陷——仅通过上游模型生成的对抗样本（不涉及下游模型参数或训练数据），就能显著削弱其伪造检测与定位性能。

图1.对抗攻击概述与抗干扰能力对比。攻击者利用上游模型生成可迁移的对抗性噪声，导致伪造图像特征偏移，从而削弱下游变体的性能表现。相比之下，我们的方法能精准识别对抗图像，并在对抗攻击下实现图像伪造检测与定位的鲁棒性。

本文提出了一种名为ForensicsSAM的创新性统一图像伪造检测框架（IFDL），该框架内置对抗鲁棒性机制，如图1所示。为实现这一目标，我们明确了两大核心挑战：(1)现有模型难以有效捕捉在真实图像、伪造图像和对抗性图像中保持稳定的通用伪造相关知识；(2)基于上游模型生成的对抗性噪声可能引发下游模型特征显著偏移，导致错误预测。
针对这些挑战，我们相应地开发了解决方案。首先，为了充分利用SAM丰富的图像语义知识并弥补其缺乏伪造相关知识的不足，我们在图像编码器的每个transformer模块中注入伪造专家。这些伪造专家始终处于激活状态，并在任何输入图像中共享。其次，针对潜在的对抗性攻击，我们提供多粒度抗性防护。在图像层面，与随机噪声不同，对抗性噪声会在RGB域中引入结构化、任务特定的伪影，这些伪影会偏离自然图像统计特征。为此，我们引入了一个轻量级对抗检测器，该检测器能够识别此类模式并输出对抗分数。在特征层面，我们进一步将对抗专家注入SAM图像编码器的全局注意力层和MLP（多层感知机）模块中。这些专家根据对抗分数自适应激活，旨在逐步校正特征偏移。这种设计确保了受损特征的修复，同时避免对干净图像产生不必要的干扰。最后，我们引入了伪造检测器和掩码解码器，利用精心设计的图像编码器生成的鲁棒特征，分别实现图像级伪造检测和像素级伪造定位。
我们的主要贡献可总结如下:

我们提出了一种鲁棒且统一的IFDL框架ForensicsSAM，它可以同时对真实、伪造和对抗图像进行图像级检测，同时也能实现伪造和对抗图像的像素级伪造定位。
我们提出了一种三阶段训练策略，分别针对干净图像和对抗图像设置专属目标。这种设计有效解耦了ForensicsSAM在干净图像与对抗图像上的学习过程，使得两个目标能够独立优化同时协同工作。
综合实验结果表明，提出的ForensicsSAM在各种对抗攻击方法下具有优越的对抗鲁棒性，与现有方法相比实现了最先进的IFDL性能。

本文结构安排如下：第二部分系统阐述图像伪造检测与定位领域的相关研究，以及针对基于PEFT的SAM变体提出的对抗性攻击方法；第三部分详细阐述我们提出的IFDL方法；第四部分通过多种数据集和对抗性攻击算法，具体展示实验设置与全面的实验结果；第五部分总结全文并展望未来研究方向。

2.相关工作

A.图像伪造检测与定位

图像伪造往往会产生可被检测和定位的细微痕迹。早期的图像伪造检测方法通常依赖统计先验知识，例如颜色滤波阵列（CFA）伪影[23][24]、压缩不一致性[25]-[27]、PRNU模式[28][29]或边缘伪影[30]，但这些方法在处理日益复杂且经过后期处理的场景时，普遍存在泛化能力不足的问题。
近年来，基于卷积神经网络和transformer架构[1]的最新学习方法，通过有效捕捉细微伪造痕迹显著提升了IFDL性能。例如，MVSS-Net++ [5]引入多视角特征学习与多尺度监督机制，通过联合利用RGB、噪声和边缘视图捕捉语义无关的伪造痕迹；CAT-Net v2 [7]从DCT系数分布中学习压缩伪影特征，并将其用于定位伪造区域；IF-OSN [8]通过建模在线社交网络引入的可预测与不可见的传输失真，增强了对现实世界传输畸变的鲁棒性；TruFor [9]结合RGB信息与学习到的噪声敏感指纹，提升模型泛化能力；CoDE [11]将图像伪造定位建模为马尔可夫决策过程，运用强化学习迭代优化像素级伪造掩码，显著增强抗干扰能力。
然而，Peng et. al. [20]的研究表明，现有的对抗性联邦深度学习（IFDL）方法极易受到攻击。为解决这一难题，我们提出了一种统一框架，该框架不仅在IFDL任务中取得了业界领先的表现，还展现出对各类对抗性攻击方法的卓越抗性。

B.基于PEFT的SAM变体的对抗性攻击

参数高效微调（PEFT）[31]已成为将SAM [17]等大型模型适配下游解释性对抗学习（IFDL）任务的实用方法。早期研究如AutoSAM [13]和SAFIRE [16]通过在SAM图像编码器中集成适配器，显著提升了其捕捉伪造痕迹的能力。FakeShield [14]和SIDA [15]则采用低秩自适应技术[19]对LLaVa [18]进行微调，同时保持SAM图像编码器固定，仅针对IFDL任务调整掩码解码器。然而这些基于PEFT的SAM变体主要针对干净图像优化，却忽视了其在对抗攻击中的脆弱性。
近年来，SAM及其变体的对抗性弱点引发广泛关注：PATA++ [21]通过仅扰动图像编码器实现对SAM的提示无关定向攻击，并借助特征支配正则化提升迁移能力；DarkSAM [32]提出一种通用无提示攻击方法，既能破坏空间语义又能干扰频域特征，导致SAM在不同提示下均无法正常工作。UMI-GRAT [22]通过元初始化技术提取SAM的内在漏洞，构建可迁移对抗图像，显著提升了该攻击方法在医学图像分割、阴影分割及伪装物体分割等领域的泛化能力。

3.方法论

A.问题陈述

给定输入图像 $X\in{\mathbb R}^{C\times H\times W}$ ，图像伪造检测与定位的目标有两个方面：(1)将X分类为真实图像或伪造图像；(2)定位伪造区域。从形式上讲，这需要学习一个映射关系：

{\mathcal F}:X\mapsto(S_{f},M_{f})

其中 $S_{f}\in(0,1)$ 表示图像级别的伪造分数。 $M_{f}\in(0,1)^{H\times W}$ 表示像素级别的伪造掩码。H和W分别表示输入图像的高度和宽度。 $S_{f}$ 和 $M_f$ 均使用0.5作为伪造阈值。
然而，通过实证分析我们发现，现有基于PEFT技术构建的大规模预训练模型的干扰对抗学习（IFDL）方法，往往容易受到可迁移对抗攻击的威胁。具体而言，攻击者仅需调用上游模型即可生成有效的对抗样本，无需访问下游模型或相关训练数据。

X_{a}=A(X)=\operatorname*{arg max}_{X^{\prime}:\,\|X^{\prime}-X\|_{p}\leq\epsilon}d\left(E_{\theta}(X^{\prime}),E_{\theta}(X)\right)

其中 $A(\cdot)$ 表示任意对抗攻击方法， $d(\cdot,\cdot)$ 表示任意距离度量， $E_{\theta}(\cdot)$ 表示上游模型的图像编码器。在PEFT中， $E_{\theta}(\cdot)$ 通常保持固定不变。当输入 $X_a$ 时，下游任务专用模块会接收并处理由 $E_{\theta}(X_a)$ 生成的失真特征，最终导致伪造检测和定位的预测结果均出现错误。为确保模型在面对此类威胁时保持鲁棒性，一个强大的IFDL模型必须满足以下两个附加特性：(1)将X分类为干净图像或对抗性图像；(2)校正由对抗性噪声引起的特征偏移。

B.概述

本节将详细介绍我们提出的ForensicsSAM模型。该模型基于SAM [17]框架，并通过整合LoRA [19]技术实现对抗性图像生成任务的自适应优化。如图2所示，ForensicsSAM首先将共享伪造专家注入图像编码器，以增强其捕捉真实、伪造及对抗性图像中通用伪造特征的能力。为缓解对抗性噪声引发的特征偏移问题，系统会动态激活自适应对抗专家来修正受损特征。这些优化后的特征随后被传递至伪造检测器和掩码解码器，分别执行图像级真实-伪造检测和像素级伪造掩码生成。与此同时，对抗检测器会实时识别图像是否具有对抗性特征，并动态调控对抗专家的激活状态。下文将详细阐述我们针对上述四个目标提出的解决方案。

图2.构建的ForensicsSAM框架概述。当输入图像进入系统时，对抗检测器首先会判断该图像是否为干净样本或伪造样本。在图像编码模块中，共享伪造专家与自适应对抗专家协同工作，将中间特征逐步优化为具有鲁棒性的图像嵌入。随后，伪造检测器和掩码解码器利用这种鲁棒性嵌入生成图像级别的检测结果（真实/伪造）及像素级的伪造掩码。

C.共享伪造专家网络

虽然原始SAM图像编码器 $E_{\theta}$ 能够捕捉输入图像丰富的语义和结构信息，但其缺乏对伪造伪影的内在认知——而这些正是图像伪造检测与定位的关键要素。为解决这一问题，我们通过LoRA技术将伪造专家网络嵌入图像编码器，并对其进行微调以提取通用的伪造相关特征。此外，尽管真实图像、伪造图像与对抗性图像在外观上存在差异，但它们都包含通用的判别线索。因此，这些伪造专家网络始终会被激活并被任何输入图像共享。为便于理解，我们给出如下公式说明。具体来说，共享伪造专家网络被嵌入到每个注意力块的qkv投影层中，以引导注意力向伪造区域聚焦，并被引入多层感知机（MLP）模块的第一线性层，从而将令牌级处理适配于修改后的注意力模式。

\begin{aligned} q=W_{q}^{o r i}x_{a},\;\; k=W_{k}^{o r i}x_{a},\\ v=W_{v}^{o r i}x_{a},\;\; z=W_{z}^{o r i}x_{m},\\ \end{aligned}

这表示冻结的原始qkv（查询，键，值）投影和带有权重 $W_{\ast}^{o r i}\in{\cal R}^{D\times d}$ 的线性投影。而 $x_{a},x_{m}\;\;\in\;\;R^{N\times D}$ 分别表示输入的补丁嵌入。N、D和d分别是标记数、嵌入维度和隐藏维度。

\begin{aligned} q^{\prime}=q+W_{q^{\prime}}^{u}W_{q^{\prime}}^{d}x_{a},\;\; k^{\prime}=k+W_{k^{\prime}}^{u}W_{k^{\prime}}^{d}x_{a},\\ v^{\prime}=v+W_{v^{\prime}}^{u}W_{v^{\prime}}^{d}x_{a},\;\; z^{\prime}=z+W_{z^{\prime}}^{u}W_{z^{\prime}}^{d}x_{m},\\ \end{aligned}

这表示qkv投影和线性投影的低秩更新。 $W_{\ast}^{u}\in{\cal R}^{D\times r}$ 和 $W_{\ast}^{d}\in{\cal R}^{D\times r}$ 是LoRA上投影和下投影矩阵的权重。根据实证研究，我们在实现中将秩设为r = 8≪d。最终，我们将所有共享伪造专家的权重表示为 $\phi$ ，新的图像编码器表示为 $E_{\theta,\phi}$ 。

D.对抗痕迹检测器

与随机噪声不同，对抗性噪声是经过精心设计的，旨在诱导模型出现异常行为。因此，它会在RGB域中引入结构化、任务相关的伪影，这些伪影会偏离自然图像的统计特征。这类伪影可被利用作为可检测信号。为捕捉此类伪影，我们提出了一种轻量级对抗检测器 $D_a$ ，其主干网络采用ResNet-18 [33]，后接投影层和分类头。给定输入图像X时， $D_a$ 会生成对抗分数 $S_a\in(0,1)$ ，该分数表示X是对抗图像的可能性。

S_a=D_a(X)

为增强判别能力，我们采用BCE损失函数 ${\mathcal L}_{det}^a$ 与三元组对比学习损失 ${\mathcal L}_{tri}$ [34]的组合方案。其中 ${\mathcal L}_{bce}^a$ 监督对抗性评分 $S_a$ ，而 ${\mathcal L}_{tri}$ 则明确引导学习特征在潜在空间中按类型（干净或对抗）进行聚类。如图3所示，在优化前所有图像都处于混合且不可分割的状态。经过优化处理后，真实图像与伪造图像（蓝色标记的干净图像）被聚类到同一组中，而对抗性图像（红色标记）则形成独立的另一组。

图3.真实/伪造（蓝色）与对抗性（红色）图像在对抗检测器优化前后的特征分布对比

{\mathcal{L}}_{t r i}=\operatorname*{max}\left(0,\|f_{a}-f_{p}\|_{2}^{2}-\|f_{a}-f_{n}\|_{2}^{2}+\alpha\right)

其中， $f_a$ 、 $f_p$ 和 $f_n$ 分别表示投影层中锚点图像、正样本图像和负样本图像的特征。α是预定义的边界值。 $f_a$ 是给定输入图像的特征，fp取自同类型（例如，均为干净图像或均为对抗样本）的另一张图像，fn则取自相反类型的图像。最终的损失函数将这两个部分结合在一起，其中 ${\mathcal L}_{tri}$ 的权重设置为λ = 0.5。

{\mathcal{L}}_{1}={\mathcal{L}}_{b c e}^{a}+\lambda{\mathcal{L}}_{t r i}

E.适应性对抗痕迹专家网络

虽然对抗检测器能够全局性地、图像级地判断输入图像是否具有对抗性，但它并未解决在对抗攻击下实现伪造定位的鲁棒性问题。针对上游安全对抗模型（SAM）的攻击之所以有效，关键在于其能在图像编码器内部引发显著特征偏移 $E_\theta$ 。这种被篡改的特征随后会传播至 $E_{\theta,\phi}$ ，从而降低下游任务的性能。为此，我们提出在 $E_\theta$ 中引入自适应对抗专家， $\phi$ 通过修正由对抗引发的特征偏移，确保伪造定位的鲁棒性。

图4.清晰图像与对抗性图像之间的全局注意力图和图像嵌入对比。

由于对抗性噪声通常是为实现像素级的失真而精心设计的，因此它倾向于在整个图像中全局分布，从而影响广泛的空间上下文。如图4所示，与干净图像相比，对抗样本的全局注意力图明显丧失了清晰的对象边界和语义结构。此外，从对抗样本生成的图像嵌入在空间上变得杂乱无章且判别力下降，这证实了全局注意力流已被破坏。为此，我们提出将对抗专家注入全局transformer模块，具体作用于全局注意力层及其后续的多层感知机模块。更新过程如公式(4)所示。

\begin{aligned} q^{\prime\prime}=q^{\prime}+G_{a}W_{q^{\prime\prime}}^{u}W_{q^{\prime\prime}}^{d}x_{a},\;\;k^{\prime\prime}=k^{\prime}+G_{a}W_{k^{\prime\prime}}^{u}W_{k^{\prime\prime}}^{d}x_{a}\\ v^{\prime\prime}=v^{\prime}+G_{a}W_{v^{\prime\prime}}^{u}W_{v^{\prime\prime}}^{d}x_{a},\;\;z^{\prime\prime}=z^{\prime}+G_{a}W_{z^{\prime\prime}}^{u}W_{z^{\prime\prime}}^{d}x_{m} \end{aligned}

其中， $G_{a}\in\{0,1\}$ 是从对抗评分 $S_{a}\in(0,1)$ 导出的二元门信号，满足 $G_{a}=\mathbb{I}(S_{a}>0.5)$ 。 $\mathbb{I}(\cdot)$ 表示指示函数。 $G_{a}=0$ 禁用对抗专家网络，而 $G_{a}=1$ 则启用这些网络。接下来，我们将对抗专家的权重表示为 $\psi$ ，新的图像编码器表示为 $E_{\theta,\phi,\psi}$ 。
更新后，我们从嵌入对抗专家网络的全局变换器块中获取四个中间嵌入向量，并从最终层提取一个反映特征逐步校正的图像嵌入向量。将对抗样本对应的 $\{F_{i}^{a}\}_{i=1}^{5}$ 和干净样本对应的 $\{F_{i}^{c}\}_{i=1}^{5}$ 分别表示为两个特征向量。我们的目标是将每个 $F_i^a$ 与对应的 $F_i^c$ 进行对齐，从而逐步校正由对抗噪声引起的特征偏移。

\mathcal{L}_{2}=\sum_{i=1}^{5}\left(||F_{i}^{a}-F_{i}^{c}||_{2}^{2}+1-\cos(\hat{F_{i}^{a}},\hat{F_{i}^{c}})\right)

其中 $\mathcal{L}_{2}$ 包含一个 $\ell_{2}$ 损失项和一个余弦相似度损失项， $\hat F$ 表示 $\ell_{2}$ 归一化的特征向量。联合损失在纠正特征幅度的同时，还强制方向对齐。

F.伪造检测和定位模块

在通过共享伪造专家和自适应对抗专家网络重新定义图像编码器后，我们可以从 $E_{\theta,\phi,\psi}$ 中获得与伪造相关的特征（图像嵌入） $F_X$ 。

F_{X}=E_{\theta,\phi,\psi}(X,G_{a})

然后 $F_X$ 被用来执行图像级检测和像素级定位。
在检测环节，我们设计了一个轻量级伪造检测器 $D_f$ 。首先根据特征向量 $F_X$ 进行自适应平均池化处理，生成全局描述符。随后将该描述符输入两个带有ReLU激活函数的线性层进行处理，最终通过sigmoid函数计算出伪造分数 $S_f$ 。

S_f=D_f(F_X)

其中 $S_f$ 值越高表示伪造图像的可能性越大。检测损失 ${\mathcal L}_{bce}^f$ 是通过二元交叉熵（BCE，Binary Cross-Entropy）损失函数计算得出的。
在定位方面，我们对SAM的掩码解码器 $D_m$ 进行了全面微调，以根据给定的 $F_X$ 预测伪造掩码 $M_f$ 。

M_f=D_{m}(F_{X})

由于伪造定位过程无需用户交互，因此在训练和推理阶段均未使用SAM的提示编码器。这使得基于提示的攻击手段无法在我们的ForensicsSAM中奏效。定位损失函数由dice损失 ${\mathcal L}_{dice}^{loc}$ 与像素级BCE损失 ${\mathcal L}_{bce}^{loc}$ 的加权组合构成。最终，检测与定位任务采用联合训练策略，其损失函数设定如下：在本实施方案中，参数a、b、c分别设置为1.0、0.7和0.3。

{\mathcal L}_{3}=a\cdot{\mathcal L}_{b c e}^{f}+(b\cdot{\mathcal L}_{d i c e}^{l o c}+c\cdot{\mathcal L}_{b c e}^{l o c})

G.训练流程

本节给出ForensicsSAM的详细训练算法，该算法包含三个阶段，伪代码如算法1所示。

算法1训练算法的伪代码

输入：清洁数据集Dc和对抗数据集Da；图像编码器 $E_{\theta,\phi,\psi}$ ；对抗检测器Da；伪造检测器Df；掩码解码器Dm；训练迭代次数e1、e2和e3；
输出：训练有素的ForensicsSAM；

第一阶段：注入伪造专用知识
1：初始化 $E_{\theta,\phi,\psi}$ 、 $D_f$ 和 $D_m$
2：冻结 $\theta$ 、 $\psi$
3：for epoch in 1 to $e_1$ do
4： for $X_{c}\subset D_{c}$ do
5： $F_{X_{c}}=E_{\theta,\phi,\psi}(X_{c},0);$ Eq.(10)
6： ${\cal S}_{f}={\cal D}_{f}(X_{c});$ Eq.(11)
7： $M_{f}=M_{f}(X_{c});$ Eq.(12)
8：通过 ${\mathcal L}_{3}$ 更新 $E_{\theta,\phi,\psi}$ ， $D_f$ 和 $D_m$ Eq.(13)
9： end for
10：end for
11： $E_{\theta,\phi^{\prime},\psi}=E_{\theta,\phi,\psi};\;D_{f}^{\prime}=D_{f};\;D_{m}^{\prime}=D_{m};$
第二阶段：识别对抗图像
12：初始化 $D_a$ ;
13：for epoch in 1 to $e_2$ do
14： for $X_{c}\subset (D_{c},D_{a})$ do
15： $S_{a}=D_{a}(X);$ Eq.(5)
16：通过 ${\mathcal L}_{2}$ 更新 $D_a$ Eq.(7)
17： end for
18：end for
19： $D_{a}^{\prime}=D_{a};$
第三阶段：正确的特征偏移
20：冻结 $\theta$ 、 $\psi^{\prime}$ 、 $D_{a}^{\prime}$ 、 $D_{f}^{\prime}$ 和 $D_{m}^{\prime}$
21：for epoch in 1 to $e_3$ do
22： for $(X_{c},X_{a})\subset (D_{c},D_{a})$ do
23：从 $E_{\theta,\phi^{\prime},\psi}(X_{c},\mathbb{I}(D_{a_{\ast}}^{\prime}(X_{c})));$ 得到 $\{F_{i}^{c}\}_{i=1}^{5}$ Eq.(10)
24：从 $E_{\theta,\phi^{\prime},\psi}(X_{c},\mathbb{I}(D_{a_{\ast}}^{\prime}(X_{a})));$ 得到 $\{F_{i}^{a}\}_{i=1}^{5}$
25：通过 ${\mathcal L}_{1}$ 更新 $E_{\theta,\phi^{\prime},\psi}$ ， $D_f$ 和 $D_m$ Eq.(9)
26： end for
27：end for
28： $E_{\theta,\phi^{\prime},\psi^{\prime}}=E_{\theta,\phi^{\prime},\psi}$
29：返回 $E_{\theta,\phi^{\prime},\psi^{\prime}}$ 、 $D_{a}^{\prime}$ 、 $D_{f}^{\prime}$ 和 $D_{m}^{\prime}$

1）第一阶段：在此阶段，仅对共享伪造专家网络、伪造检测器和掩码解码器进行训练，以预测图像级伪造分数Sf和像素级伪造掩码Mf。这些可训练组件通过公式（13）进行优化。值得注意的是，此阶段不涉及对抗图像。
2）第二阶段：该阶段同时使用对抗样本图像及其对应的干净样本图像。对抗检测器经过训练生成图像级别的对抗分数Sa，其优化过程如公式(7)所示。
3）第三阶段：在此阶段仅激活自适应对抗专家模块，其他组件均保持冻结状态。将对抗样本与干净样本图像输入图像编码器，分别获取配对特征 $\{F_{i}^{a}\}_{i=1}^{5}$ 和 $\{F_{i}^{c}\}_{i=1}^{5}$ ，随后通过公式(9)进行特征对齐。需要特别说明的是，第二、第三阶段仅需使用第一阶段训练数据的小部分子集。此外，对抗样本完全采用MI-FGSM方法[35]生成，从而获得更优异的对抗鲁棒性。

H.推理流程

训练有素的ForensicsSAM系统由四个核心组件构成：图像编码器 $E_{\theta,\phi^{\prime},\psi^{\prime}}$ 、对抗检测器 $D_{a}^{\prime}$ 、伪造检测器 $D_{f}^{\prime}$ 以及掩码解码器 $D_{m}^{\prime}$ 。当输入图像X时， $D_{a}^{\prime}$ 首先预测对抗分数 $S_a$ ，随后通过0.5的阈值进行二值化处理，生成指示是否激活对抗专家的门控信号 $G_a$ 。接着， $E_{\theta,\phi^{\prime},\psi^{\prime}}$ 以X和 $G_a$ 为输入生成图像嵌入 $F_X$ 。最终， $F_X$ 同时输入 $D_{f}^{\prime}$ 和 $D_{m}^{\prime}$ ，分别生成图像级伪造分数 $S_f$ 和像素级伪造掩码 $M_f$ 。这两个结果同样通过0.5的阈值进行二值化处理，获得二元预测结果。

4.实验

A.实验设置

1）IFDL Baseline:
我们将提出的ForensicsSAM与最先进（state-of-the-art）方法进行比较，包括MVSS-Net++ [5]、IF-OSN [8]、CAT-Net v2 [7]、TruFor[9]、CoDE [11]、AutoSAM [13]、FakeShield [14]和SAFIRE [16]。为了公平起见，我们直接采用他们的官方预训练权重，并使用相同的指标评估性能。

2）对抗性攻击方法
我们使用近期的对抗攻击方法评估模型对对抗攻击的抵抗能力，包括基于梯度的MI-FGSM [35]和PGN [36]、基于输入增强的BSR [37]以及基于迁移的UMI-GRAT [22]。按照常规做法，对于所有攻击方法，我们设定了扰动边界 $\varphi\in\{8,12\}$ ，步长 $\alpha=2$ ，并设置了攻击更新迭代次数 $T=\varphi$ 。
需要说明的是，所有对抗样本图像均仅通过上游SAM的图像编码器生成，未调用基于PEFT的下游SAM变体。本次对抗鲁棒性对比测试的竞争对手包括基于PEFT的AutoSAM、FakeShield以及SAFIRE。

3）数据集：
表I展示了各数据集的真实图像与伪造图像数量及其篡改操作类型。我们遵循当前最先进的图像伪造检测方法标准，选用CASIAv2 [38]、FantasiticReality [39]、IMD20 [40]和TamperedCR [7]作为训练集。测试集则包含CASIAv1+ [5]、MISD [41]、Columbia [42]、DSO-1 [43]、Coverage [44]、NIST [45]、CocoGlide [9]、IPM15k [46]、ACDSee以及In-the-wild [47]等数据集。

4）评估指标：
遵循通用的评估方案[7]、[9]、[13]、[16]，我们采用图像级伪造检测的准确率（ACC）和像素级伪造定位的置换F1分数（以下简称F1)作为评价指标。ACC和F1值越高，说明整体性能越好。

5）实现细节：
本研究提出的ForensicsSAM基于PyTorch框架实现。所有输入图像在训练和推理阶段均被调整为1024×1024分辨率。我们采用SAM-H作为ForensicsSAM的主干网络，并在全部训练阶段使用AdamW [48]优化器。所有训练过程均在Tesla A100 GPU集群上进行，通过PyTorch分布式数据并行（DDP）技术实现多GPU加速。

在第一阶段训练中，我们选用CASIAv2、IMD20、FantasticReality和TamperedCR作为训练集，仅包含真实与伪造的干净图像。学习率和批量大小分别设置为1e-4和24。该阶段使用6块Tesla A100 GPU进行e1 = 5个训练周期，耗时约17小时。
在第二、第三阶段，我们仅使用CASIAv2和IMD20作为训练集。在此阶段中，对抗样本通过MI-FGSM方法生成，扰动范围 $\varphi\in\{2,4,8\}$ 。两个阶段的学习率均保持为1e-4，批量大小分别设置为64和24。第二阶段使用2块Tesla A100 GPU进行e2 = 10个周期的训练，耗时约2小时；第三阶段则使用6块Tesla A100 GPU进行e3 = 20个周期的训练，耗时约9小时。

B.比较结果

本节评估了我们的方法在非对抗性设置下的图像级伪造检测和像素级伪造定位的性能，并将其与现有的最先进的方法进行了比较。

1）伪造检测：
如表II所示，我们的方法在真实图像与伪造图像的检测中均取得最高平均性能。值得注意的是，现有方法大多以伪造图像为主进行优化，容易忽视真实图像的精准识别。这往往导致过度敏感现象——大量真实图像被误判为伪造，从而产生较高的误报率。相比之下，我们的方法在训练过程中明确纳入真实图像检测，从而学习到更平衡且具有区分度的决策边界。相较于次优方案，我们实现了平均ACC值0.058的提升，展现出更强的辨别能力和可靠性，能够有效区分真实与伪造图像。

图5展示了真实图像与伪造图像在图像级检测和像素级定位上的定性结果。要准确识别真实图像，预测掩膜应完全为零覆盖所有像素。但实际操作中发现，仅依赖预测掩膜难以实现这一目标——即使掩膜中出现微小的虚假激活信号，也可能触发误报，导致真实图像被错误判定为伪造。通过引入伪造检测器，图像级伪造评分的可靠性得到显著提升，有效抑制了误报现象。

2）伪造检测定位：如表III所示，我们的方法在所有评估数据集上均取得最佳或次优的检测定位性能。相较于次优方法，平均F1分数提升了0.094分，充分证明了该方法在不同图像源和伪造类型间具有更强的泛化能力。

图6进一步展示了定性对比分析，通过可视化不同图像检测方法对真实与伪造图像的预测掩码差异。现有技术普遍存在激活过度或无法准确定位伪造区域的问题，导致误报频发且预测结果不完整。相比之下，我们的方法产生了更清晰和更准确的定位结果，在真实图像上显著减少误报，并在伪造图像中更精细地描述伪造区域。
这些结果突出表明了我们的方法在捕捉细微的伪造痕迹和建立精确的像素级决策边界方面的有效性，这对于现实场景中可信的图像取证至关重要。

C.对抗攻击抵抗能力评估

在本节中，我们比较了我们的方法与现有的基于PERT的SAM变体在四种对抗攻击下的抗性，包括MIFGSM、PGN、BSR和UMI-GRAT。

1）对抗攻击检测
首先，我们评估了所提出的对抗检测器在图像级的检测性能。我们将真实图像和伪造图像均视为干净图像，而添加对抗性噪声的图像则视为对抗图像。

如表IV所示，该检测器在所有10个数据集上对干净图像（w/o攻击）实现了近乎完美的识别率，平均ACC值达到0.998，充分证明其具备避免误报的能力。当应用于四种不同攻击方法在两种扰动边界下生成的对抗图像时，检测器始终保持高精度。具体而言，在 $\varphi=8$ 条件下，所有攻击的平均ACC值均维持在0.998以上，且在多数数据集中可达1.000。当扰动强度增强至 $\varphi=12$ 时，检测器表现更佳，这可能是因为更强的对抗攻击会引入更显著的伪影特征，便于检测器捕捉。总体而言，该对抗检测器展现出卓越的图像级区分能力，能够有效实现对抗专家网络的可靠门控控制。

2）对抗攻击定位
其次，我们评估了针对对抗性攻击恢复像素级伪造定位性能的能力。

如表V所示，现有方法在四种对抗性攻击下的定位性能（以F1值衡量）显著下降。具体而言，AutoSAM在不同攻击场景下的平均F1分数至少下降0.378，最高降幅达0.400；SAFIRE的性能下降幅度介于0.291至0.337之间；FakeShield的最低降幅为0.292，最大降幅为0.336。相比之下，我们的方法展现出更强的鲁棒性，在所有攻击场景下F1分数仅下降0.095（最低）和0.123（最高）。这相当于保留了原始性能的84%至87%，明显优于其他方法。这相当于保留了原始性能的84%到87%，明显优于其他方法。值得注意的是，尽管我们的模型仅使用MI-FGSM进行训练，但它在面对各种对抗攻击方法时始终保持高度鲁棒性，突显出其强大的泛化能力。

我们在图7中进一步展示了可视化结果：尽管存在强烈的对抗性噪声，我们的方法仍能稳定且精准地定位伪造区域。相比之下，其他方法会产生碎片化或误导性的预测结果，暴露出其在对抗攻击面前的脆弱性。
值得注意的是，该对抗检测器同样基于开源模型开发。这引发了一个潜在隐患：攻击者可能采用类似策略来误导检测器，从而绕过对抗专家。为验证这一假设，我们通过攻击上游对抗检测器生成对抗噪声 $N_{ad}$ ，并将其同时添加到干净图像（ $X_c$ ）和对抗图像（ $X_a$ ）中，以评估 $N_{ad}$ 能否欺骗训练有素的检测器。

表VI展示了四种输入图像类型，其中仅 $X_c$ 被标记为非对抗图像。尽管存在 $N_{ad}$ 干扰，检测器仍能识别几乎所有对抗图像，准确率接近1.000。定位性能也保持稳健，F1值始终高于0.64，保留了超过85%的原始性能（F1 = 0.753）。这些结果表明，即使针对对抗检测器本身进行攻击，我们的框架依然具备可靠性。

D.消融研究

在本节中，我们提出了消融研究，以评估三个核心组件的贡献：伪造专家网络、对抗攻击检测器和对抗攻击专家网络。从baseline SAM模型（仅对掩码解码器进行微调）开始，我们逐步添加每个组件，以评估它们各自的贡献。

如表VII所示，首先，添加伪造专家网络显著提升了干净图像上的伪造定位性能，F1值从0.510提升至0.753。同时实现了有效的图像级伪造检测，达到ACC = 0.817。然而，在对抗性图像上的定位性能在此阶段仍较低（F1 = 0.246）。
其次，引入对抗攻击检测器并非直接提升伪造定位或检测性能，而是实现了高度可靠的对抗判别能力，其平均ACC值接近1.000。值得注意的是，对抗攻击检测器的强判别能力能够精准激活对抗攻击专家网络，确保干净图像不会被误导向对抗专家网络——从而保持原始性能。
最终，引入对抗专家网络显著提升了对抗图像定位效果，F1值从0.246提升至0.660。

如图8所示，采用对抗专家网络生成的特征图（下排）展现出更清晰的语义结构和更强的激活效果，能有效抑制伪造区域的干扰背景噪声。相比之下，未使用对抗专家生成的特征图（中排）显得杂乱无章，缺乏明显的前景背景分离，表明对抗扰动会严重扭曲原始特征空间。这些结果突显了对抗专家在恢复语义一致性、引导攻击环境下精准定位方面的重要作用。
这些结果验证了每个模块的互补作用：伪造专家网络增强了基础IFDL性能，对抗攻击检测器确保了对抗攻击识别的可靠性，而对抗攻击专家网络则能有效纠正由对抗性噪声引起的特征偏移。

E.在常见失真下的鲁棒性

F.基于失真的防御vs对抗攻击专家网络

5.结论

本文提出了一种统一框架，不仅能实现真实图像、伪造图像和对抗性图像的全局检测，还能在考虑潜在对抗攻击的情况下实现像素级伪造定位。我们提出的ForensicsSAM框架将共享伪造专家、对抗检测器和自适应对抗专家整合到SAM主干网络中。这些组件通过三阶段训练流程——针对干扰生成数据（IFDL）任务的干净监督、对抗检测以及伪造相关特征校正——进行联合优化，专门应对基于PERT的SAM变体面临的可迁移对抗攻击挑战。该设计确保了对抗鲁棒性的同时不牺牲对干净图像的处理性能。大量实验结果表明，我们的方法在保持内置对抗鲁棒性的前提下，达到了当前最先进的干扰生成数据检测（IFDL）性能水平。
除了IFDL任务之外，我们提出的框架和训练范式还能轻松扩展到其他下游任务，从而实现统一的对抗性鲁棒性。我们相信，在大型视觉基础模型时代，我们的研究为设计具有泛化能力和鲁棒性的系统提供了宝贵见解。