Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering

Haiwei Wu, Yiming Chen, Jiantao Zhou, Senior Member, IEEE, and Yuanman Li, Senior Member, IEEE

摘要

图像伪造检测的目标是识别并定位图像中的伪造区域。现有的大多数伪造检测算法通过分类问题来区分伪造像素和原始像素。然而，伪造像素与原始像素的定义仅在单个图像内部相对，例如，图像A中的伪造区域在其原始图像B中可能是原始的（拼接伪造）。这种相对定义被现有方法严重忽视，导致不同图像中的伪造（或原始）区域被不必要地归为同一类别。为了解决这一难题，我们提出了基于软对比学习和无监督聚类的新型、简单而有效的图像伪造检测方法——法医对比聚类（FOCAL，FOrensic ContrAstive cLustering）。具体来说，FOCAL
1)设计了一种软对比学习（SCL，soft contrastive learning），以图像为单位监督高级法医特征的提取，明确体现了上述相对定义；
2)采用即时无监督聚类算法（而非训练好的算法）将学习到的特征聚类为伪造和原始类别，进一步减少了训练数据对不同图像的影响；
3)通过简单的特征级连接来提升检测性能，无需重新训练。
广泛的实验结果表明，在六个公开测试数据集上，我们提出的FOCAL方法在多个方面显著优于现有最先进方法：在Coverage上高出+24.8%，在Columbia数据集上高出+18.9%，在FF++数据集上高出+17.3%，在MISD数据集上高出+15.3%，在CASIA数据集上高出+15.0%，在NIST数据集上高出+10.5%（见图1）。

FOCAL方法不仅为图像伪造检测任务提供了新的视角，还可能成为该领域的新型基准。代码可在https://github.com/HighwayWu/FOCAL上获取。

I.引言

随着图像编辑工具如Photoshop和美图的不断进步和普及，人们可以轻松地对数字图像进行处理，而无需具备专业知识。因此，图像的真实性问题最近受到了广泛关注，因为恶意篡改（伪造）的图像可能在谣言传播、经济欺诈、非法获利等多个领域造成严重的负面影响。
许多法医方法[1]–[6]，[13]–[23]（及其参考文献）已经开发出来，用于检测和定位图像中的伪造区域。其中，基于深度学习的方案比依赖手工特征的方法表现更佳。一些法医方法专门用于检测特定类型的伪造，如拼接[24]、复制-移动[25]和修复[26]，而更强大且实用的解决方案则用于检测复杂的混合类型伪造，即使这些伪造伴随传输退化和各种后处理操作[1]–[4]。
通常，现有的基于学习的图像伪造检测方法通过二分类问题来区分像素是伪造的还是原始的。需要注意的是，伪造和原始像素的定义仅在单个图像中相对。例如，在图2 (a)中，与两个人相关的像素被认为是原始的，而在图2 (b)中，这些相同的像素则被认为是伪造的，这可能导致标签冲突。

不幸的是，现有的基于分类的伪造检测方法严重忽视了这种相对定义，将不同图像中的伪造（原始）区域不必要地混为一类。实际上，图2中的α1、α2和α3区域虽然属于同一原始类别，但它们的法证特征并不一定相似（β1和β2也是如此）。因此，当看到同一组像素被错误地标记为伪造或原始时，分类器可能会受到误导，导致训练不稳定和检测性能下降。
重新审视伪造像素与原始像素的相对定义，促使我们对以往流行的分类问题进行重新定义，引入对比学习和无监督聚类的新范式。具体而言，本研究提出了一种名为‘法医对比聚类’（FOCAL）的方法，这是一种新颖、简单且高效的图像伪造检测方法。首先，FOCAL的核心在于通过像素级真实伪造掩码直接监督高级特征，明确利用了上述相对定义。考虑到像素级的真实标签可能在监督高级特征学习时引发所谓的标签模糊性，我们提出了一种用于FOCAL训练的软对比学习（SCL）方法。具体而言，SCL通过引入可优化的系数，能够细致地调整原始类别与伪造类别特征权重之间的关系。此外，我们设计的SCL（图像级学习）模型还具有一个独特特点，即逐图像监督，这能有效避免同一批次中不同图像特征之间的相互影响（即标签冲突）。进一步地，FOCAL采用了一种即时无监督聚类算法，将学习到的特征分类为伪造或原始类别，从而进一步减少了训练数据对跨图像的影响。值得注意的是，所采用的聚类模块不包含任何可训练参数，因此不会参与训练过程。此外，研究还表明，通过直接在特征级别进行融合，无需重新训练即可实现性能的进一步提升。
广泛的实验结果表明，在六个公开测试数据集上，我们提出的FOCAL算法在多个方面显著优于现有的最先进竞争算法[1]–[6]：对于IoU评价指标，在Columbia [7]上+24.8%，在Coverage[8]+上17.3%，在MISD [11]上+18.9%，在FF++ [12]上+15.0%，在CASIA [9]上+15.3%，以及在NIST [10]上+10.5%。FOCAL的范式不仅为图像伪造检测任务提供了新的视角，还可能成为该领域的新型基准。我们的主要贡献可以概括如下：

从伪造像素和原始像素的相对定义的角度出发，重新思考基于分类的图像伪造检测的固有限制。
我们设计了FOCAL，这是一种基于提出的SCL和无监督聚类的新型、简单而有效的图像伪造检测范式。
所提出的FOCAL在六个跨域数据集上显著优于几种最先进的图像伪造检测方法，平均增益在IoU上为20.2%，在F1上为10.8%。

本文其余部分安排如下：第二部分介绍图像伪造检测的相关工作；第三部分详细介绍我们提出的FOCAL框架；第四部分给出实验结果和分析；第五部分进行总结。

II.图像伪造检测相关工作

基于分类的图像伪造检测通过深度学习技术已经达到了最先进的性能[1]–[4]。CAT-Net [2]通过分类离散余弦变换（DCT）系数来定位伪造区域。PSCC-Net [3]利用多尺度特征进行伪造检测。Dong等人[1]引入了MVSSNet，通过多视角学习联合提取伪造特征。Wu等人[4]设计了一种基于对抗噪声建模的鲁棒训练框架，用于在线社交网络上的图像伪造检测。最近，Guillaro等人[5]提出了TruFor，该方法结合了RGB图像和学习到的噪声敏感指纹，以提取法医线索。鉴于广泛使用的交叉熵损失的局限性，一些近期的研究还引入了对比损失，以辅助网络训练，用于图像伪造检测[5]，[13]，[18]，[27]–[30]。
从聚类[17]、[31]至[37]的角度来看，检测伪造的方法只有少数几种，但其性能远不及基于分类的方法。这类方法主要通过简单的聚类算法，将图像块（像素）分为伪造和原始两类，采用了多种噪声特征，如图像噪声水平[35]、相机噪声[31]、[38]以及JPEG量化噪声[32]。
尽管上述图像伪造检测方法已经取得了相当不错的成果，但它们的设计原则与我们提出的FOCAL在以下几个方面存在显著差异：
1）基于分类的方法忽略了伪造像素与原始像素之间的相对定义，因此未能充分利用无监督聚类的优势；
2）涉及聚类的方法几乎都依赖于手工设计的特征，这些特征难以准确反映法医痕迹，并且在跨域测试中难以推广到未见过的伪造类型；
3）我们的框架构建了一个特征空间，该空间能够明确地建模每个图像中局部区域之间的细微关系，使检测器能够在没有预设伪影的情况下识别出细微的不一致。

III.图像伪造检测的FOCAL

在深入探讨FOCAL的具体细节之前，我们先介绍传统基于分类的图像伪造检测的一般框架。该框架由两个神经网络组成：提取器和分类器，如图3 (a)所示。

给定输入\(\mathbf{X}\in\mathbb{R}^{\hat{H}\times\hat{W}\times\hat{C}}\)，提取器首先提取出一个判别特征\(\mathbf{F}\in\mathbb{R}^{H\times W\times C}\)，然后分类器根据这个特征生成一个预测的二进制伪造掩码\(\mathbf{P}\in\{0,1\}^{H\times W}\)。为了优化网络，通常采用交叉熵损失\({\mathcal{L}}_{\mathrm{CE}}(\mathbf{P},\mathbf{Y})\)，其中\({\bf Y}\in\{0,1\}^{H\times W}\)是真实的伪造掩码（1表示伪造像素，0表示原始像素）。不同于传统的分类方法，我们构建了一个对比聚类框架FOCAL（见图3 (b))，用于图像伪造检测，该框架通过利用图像中伪造与原始像素之间的相对定义来实现。接下来，我们将详细说明FOCAL的训练过程，通过SCL监督，以及FOCAL的测试过程，通过无监督聚类。

A.通过软对比学习（SCL）进行FOCAL训练

FOCAL的训练过程如图3 (b)上部所示。从给定的输入X中提取高级特征F后，我们期望来自相同（伪造或原始）区域的特征相互吸引，而来自不同区域的特征相互排斥。一个自然的想法是使用像素级别的真实伪造掩码来划分这些特征所属的区域（类别），然后通过传统的对比学习方法（如NCE [39]、[40])监督特征的更新。然而，此时可能会出现标签模糊的问题，因为一些高层次的特征（例如，与伪造区域边界相关的特征）可能同时出现在伪造和原始像素中。为了解决这一标签模糊问题，我们提出了一种SCL算法，该算法通过可优化的权重系数来确定特征属于伪造或原始类别的程度。因此，我们能够构建出分别代表伪造区域和原始区域特征的平均特征。最后，基于优化后的系数和平均特征，实现了精心设计的软对比监督机制。
具体来说，我们使用了一个权重矩阵\(\mathbf{W}=[w_{i j}]\)，其中每个权重系数\(w_{i j}\)对应于位于扁平化坐标\(i(i\in\{1,...,HW\})\)的特征\(\mathbf{F}_{i}\in\mathbb{R}^{C}\)，表示\(\mathbf{F}_{i}\)与第j类（j∈{0,1}，j = 0表示原始数据，j = 1表示伪造数据）的相关程度。根据地面实测数据Y，如果某个特征的索引i位于原始区域，则将其初始值设为wi0 = 1；反之，则设为wi1 = 1。显然，这些系数在0到1之间进行了归一化处理，并且满足\(\textstyle\sum_{j}w_{i j}\,=\,1\)。需要注意的是，这些初始化的硬系数无法准确反映特征可能属于多个类别的软度。设\(\mathbf{M}=[\mathbf{M}_{j}]\)，其中\(\mathbf{M}_j\in\mathbb{R}^{C}\)表示第j类（无论是原始还是伪造）的特征中心。通过最小化\(\mathbf{F}_{i}\)与\(\mathbf{M}_{i}\)之间的距离，我们可以优化\(w_{i j}\)。为此，我们构建了以下约束优化问题：

\[\begin{array}{c c}\mathrm{minimize}&{J(\mathbf{W},\mathbf{M}),\mathrm{where}\ J=\sum_{i,j}w_{i j}^{\boldsymbol{\mu}}\|\mathbf{F}_{i}-\mathbf{M}_{j}\|^{\dagger}}\\ \mathrm{subject\;to}&{\sum_{j}\mathbf{W}.j=1,}\end{array}\]

其中∥·∥表示欧几里得范数，W·j代表矩阵W的第j列向量，而参数ρ用于控制超参数[41]，通常设定为2。在处理约束问题时，拉格朗日乘数法是一种常用的优化策略，其核心步骤是构建拉格朗日函数： \[{\cal L}({\bf W},{\bf M},\lambda)=\sum_{i,j}w_{i j}^{\rho}\|{\bf F}_{i}-{\bf M}_{j}\|^{2}+\lambda\cdot(\sum_{j}{\bf W}.j-1),\] 其中\(\lambda=[\lambda_{i}]\)是拉格朗日乘子向量。最小化\(J\)相当于找到L的驻点，即L关于W、M和λ的梯度均为零的点。通过令L关于wij的偏导数为零，我们得到： \[\begin{array}{l}{\frac{\partial L}{\partial w_{i j}}=\rho w_{i j}^{\rho-1}||\mathbf{F}_{i}-\mathbf{M}_{j}||^{2}+\lambda_{i}=0}\\ {\Rightarrow w_{i j}=\left({\frac{-\lambda_{i}}{\rho||\mathbf{F}_{i}-\mathbf{M}_{j}||^{2}}}\right)^{\frac{1}{\rho-1}}.}\end{array}\] 将(3)式与约束条件\(\frac{\partial L}{\partial\lambda_{i}}\,=\,\sum_{j}\,w_{i j}\,-\,1\,=\,0\)相结合，可得： \[\begin{array}{l}{\sum_{j}\left(\frac{-\lambda_{i}}{\rho\|\mathbf{F}_{i}-\mathbf{M}_{j}\|^{2}}\right)^{\frac{1}{\rho-1}}=1}\\ {\Rightarrow \left({\frac{-\lambda_{i}}{\rho}}\right)^{\frac{1}{\rho-1}}=({\sum_{j}\frac{-\lambda_{i}}{\|\mathbf{F}_{i}-\mathbf{M}_{j}\|^{2}}}})^{-\frac{1}{\rho-1}.}\end{array}\] 将(4)代入(3)以消除λi，从而可推导出wij： \[w_{i j}=\left(\frac{||{\bf F}_{i}-{\bf M}_{j}|^{2}}{||{\bf F}_{i}-{\bf M}_{0}||^{2}}+\frac{||{\bf F}_{i}-{\bf M}_{j}||^{2}}{||{\bf F}_{i}-{\bf M}_{1}||^{2}}\right)^{-\frac{1}{\rho-1}}.\] 另一方面，将L相对于Mj的梯度设为0可以得到： \[\nabla_{\mathrm{M}_{j}}L=\sum_{j}-2w_{i j}^{\rho}(\mathbf{F}_{i}-\mathbf{M}_{j})=0,\]

那么Mj可以写为：

\[\mathbf{M}_{j}={\frac{\sum_{i}w_{i j}^{\rho}\mathbf{F}_{i}}{\sum_{i}w_{i j}^{\rho}}}.\] 由于变量(5)和(7)相互交织，我们采用了交替迭代的方法，持续更新wij和Mj，直到目标函数J收敛。

图4直观地展示了wij的变化过程，其中(a)表示初始的wij值，而(b)则对应优化后的wij值。显然，wij反映了原始类别与伪造类别边界特征的标签模糊性。
在解决了标签模糊问题后，我们基于改进的NCE损失提出了SCL方法，以实现FOCAL框架中的软对比监督机制，旨在增强同类间的相似性，同时降低不同类间的相似度。通过将M0设为查询对象，\(\mathcal{L}_{\mathrm{pristine}}\)可定义为： \[\mathcal{L}_{\mathrm{pristine}}=-\log\frac{\frac{1}{H W}\sum_{i}\exp(\mathrm{M}_{0}\cdot w_{i0}\mathrm{F}_{i}/\tau)}{\mathrm{exp}(\mathrm{M}_{0}\cdot\mathrm{M}_{1}/\tau)},\] 其中，τ是温度超参数[42]。在公式(8)中，分子部分用于衡量原始特征间的相似度，而分母部分则描述了原始与伪造中心特征之间的相似性。同样，我们也可以通过将查询设置为M1，从锻造特征的角度获取\(\mathcal{L}_{\mathrm{forged}}\)： \[\mathcal{L}_{\mathrm{forged}}=-\log{\frac{\frac{1}{H W}\sum_{i}\exp({\bf M_{1}\cdot w_{i1}{\bf F}_{i}}/\tau)}{\exp({\bf M_{1}\cdot M_{0}}/\tau)}}.\] 总体的SCL训练损失公式变为\(\mathcal{L}_{\mathrm{SCL}}=\mathcal{L}_{\mathrm{pristine}}+\mathcal{L}_{\mathrm{forged}}\)。与传统的NCE损失相比，我们改进的LSCL方法在每次损失计算中都考虑了所有正向键，通过计算Mj与加权特征wijFi的点积期望值。这不仅有助于优化过程，也如图5中的损失曲线所示。正如第四节所述，这种新的LSCL损失方法显著提升了性能，超越了传统的NCE损失。
需要强调的是，训练阶段的监督是在真实伪造掩码Y和提取特征F之间隐式进行的，而没有生成预测的伪造掩码。此外，对于前向迷你批次中的每个图像，LSCL（局部软对比损失）是逐个计算的，而不是在整个批次中计算，然后将这些损失相加以计算总体损失。具体来说，给定一个迷你批次的特征\({\{\bf F}^{(1)},{\bf F}^{(2)},\cdot\cdot\cdot,{\bf F}^{(B)}\}\)，该迷你批次的总体软对比损失\({\mathcal{L}}_{\mathrm{SCL-IBI}}\)为： \[{\mathcal{L}}_{\mathrm{SCL-IBI}}={\frac{1}{B}}\sum_{b=1}^{B}{\mathcal{L}}_{\mathrm{SCL}}(\mathbf{F}^{(b)}).\] 请注意，在公式（10）中，小批量特征未合并以计算总体的LSCL，从而避免了训练数据对不同图像的影响。这种总损失是在伪造像素与原始像素相对定义的指导下设计的，与[5]、[18]、[39]、[43]等方法中的损失计算在批次级别进行有显著差异。为了进一步证明（10）的合理性，我们在图5中绘制了传统批次处理和我们逐图像处理的对比损失曲线。

可以看出，逐图像设计的损失函数（绿色线）不仅使优化过程更加稳定，还显著加快了收敛速度。特别是，蓝色和橙色线中检测到的高幅度脉冲表明，相关批次图像之间可能存在严重冲突，例如图2 (a)和(b)中出现的标签冲突情况。
最终，经过培训的提取器将用于FOCAL测试阶段。正如预期的那样，并将通过实验验证，我们提出的带有逐图像监督的SCL损失显著提高了图像伪造检测性能。

B.通过无监督聚类进行焦点测试

我们现在准备详细介绍FOCAL测试阶段的细节。关键在于如何将提取的特征映射到预测的伪造掩模中。与传统框架使用训练好的分类器（见图3 (a))相比，我们提出采用无监督在线学习算法（见图3(b)的下半部分）。如前所述，伪造像素与原始像素的定义仅在一个图像中相对，难以在不同图像间推广。这解释了为什么基于分类的方法未能提供令人满意的检测结果，因为从训练数据中训练出的分类器可能无法对未见过的数据进行有效推断。
因此，将不同图像的特征分别映射到最终的伪造掩模上，会是一个更为明智的解决方案。为此，我们采用了即时聚类算法。具体来说，我们使用了HDBSCAN [44]，最小聚类大小经验性地设定为200，对F进行聚类，并将元素最多的聚类标记为原始（否则为伪造），隐含假设伪造像素只占相对较小的比例。通过我们的SCL损失函数在逐图像监督下提取的特征F可能已经非常具有区分度，使得无监督算法足以处理聚类任务。不同聚类算法的性能比较将在实验结果中展示。
备注：一种可行的方法是将可训练的聚类（如可微分K-means[45])与对比损失结合，形成端到端的框架，从而实现中间特征F和聚类结果的联合优化。然而，实验发现这种方法不仅显著增加了训练时间，而且未能带来明显的性能提升。尽管如此，探索能够平衡端到端可区分性和聚类鲁棒性的混合框架仍然是未来研究的一个开放且有价值的方向。总之，由于性能提升不明显和额外的内存开销，端到端训练框架被放弃了。

C.特征融合策略

我们现在展示，通过简单而有效的特征融合策略，可以进一步提升独立FOCAL的性能。图6展示了一个将两个具有不同骨干网络（例如，HRNet [48]或ViT [49])的FOCAL α和FOCAL β融合的例子。

融合后的特征可以通过直接连接轻松获得，即， \[\hat{\mathbf{F}}=\mathrm{Concat}(\mathbf{F}^{\alpha},\mathbf{F}^{\beta}),\] 其中，\(\mathbf{F}^{\alpha}\)和\(\mathbf{F}^{\beta}\)分别是通过FOCAL α和FOCAL β提取的特征，需要调整到相同的分辨率。随后，通过聚类和映射生成预测结果。实验验证表明，这种特征级融合显著优于简单的结果级融合[50]。此外，这种特征融合策略可以轻松扩展到包含两个以上FOCAL网络的情况，且无需重新训练。

IV. 实验结果

在本节中，我们首先详细介绍了实验设置。接着，在六个公开测试数据集上报告了图像伪造检测/定位的结果，并与几种最先进算法的结果进行了对比。最后，进行了广泛的消融研究和进一步分析。

A.设置

1)训练数据集：
我们使用与[2]相同的训练数据集[5]来训练FOCAL。该数据集包含了超过80万张伪造图像，这些图像来自SP-COCO [2]、CM-COCO [2]、CM-RAISE [2]、CM-C-RAISE [2]、CASIA-v2 [46]和IMD2020 [47]。特别是，CASIA-v2是一个广泛采用的数据集，包含多种多源拼接和复制移动伪造图像；而IMD2020则收集了互联网上的真实世界操纵图像。鉴于这两个数据集中的图像数量不足，Kwon等人[2]利用拼接和复制移动方法，基于原始数据集COCO [51]和RAISE [52]生成了大量伪造图像。为了更好地模拟真实世界图像的分布，还进行了包括调整大小、旋转和压缩在内的多种后处理操作。

2)测试数据集：
根据[1]、[2]、[4]至[6]的分类，本研究采用了六个常用的测试数据集，具体包括：Columbia [7], Coverage [8], CASIA [9], NIST [10],MISD [11], and FF++ [12]。这些测试数据集包含大量高度复杂的伪造样本，例如MISD（多源伪造数据集）和FF++（通过生成对抗网络[53]合成的面部数据集）。值得注意的是，训练数据集与测试数据集之间没有重叠，旨在模拟实际应用环境，评估伪造检测算法的泛化能力。表I中详细列出了所有涉及的数据集的统计信息。

3）对比方法：
以下是最先进的基于学习的图像伪造检测算法：PSCC-Net [3]、MVSS-Net [1]、IF-OSN [4]、WSCL [6]、CAT-Net [2]和TruFor [5]，被选为对比方法。这些算法的官方代码链接分别为1 2 3 4 5 6。为了确保比较的公平性，我们不仅直接使用了它们发布的版本，还在CAT-Net的训练数据集上重新训练了PSCC-Net、MVSS-Net、IFOSN和WSCL。此外，我们还引入了两种著名的基于聚类的算法——Lyu-NOI [17]和PCA-NOI [35]作为对比方法。

4)评估指标：
遵循[1]、[2]、[4]至[6]的惯例，我们采用像素级别的F1分数和交并比（IoU）作为固定阈值指标（数值越高越好），默认阈值设为0.5。具体而言，宏平均F1分数定义为 \[\mathrm{F1}=\frac{1}{Y}\sum_{y=1}^{Y}\frac{2\times\mathrm{TP}_{y}}{2\times\mathrm{TP}_{y}+\mathrm{FP}_{y}+\mathrm{FN}_{y}},\] 其中TPy、FPy和FNy分别代表给定类别y（“原始”或“伪造”）的真阳性、假阳性和假阴性。
IoU的计算方法如下： \[\mathrm{IoU}={\frac{\mathrm{P}\cap\mathrm{Y}}{\mathrm{P}\cup\mathrm{Y}}},\] 其中P和Y分别代表预测掩码和真实掩码。对于不依赖阈值的度量，我们采用曲线下面积（AUC）作为标准，具体实现请参考我们的代码，该代码主要基于scikit-learn的[54]扩展包。

5)实现细节：
我们使用PyTorch深度学习框架实现了FOCAL。FOCAL提取器采用了HRNet [48]和ViT [49]作为特定的骨干网络。优化器选择了Adam [55]，初始学习率为1e-4。训练时，批量大小设为4，使用4个NVIDIA A100 GPU（40GB显存）进行训练。所有输入图像均被调整为1024×1024的尺寸，HRNet的特征空间为\(\mathbb{R}^{256\times256\times256}\)，而ViT的特征空间为\(\mathbb{R}^{128\times128\times512}\)。与现有竞争对手一样，训练过程中应用了包括随机压缩、缩放、模糊和加性噪声在内的数据增强技术，以模拟现实世界的变化并提高模型的鲁棒性。

B.定量比较

表II列出了不同图像伪造检测方法在像素级F1和IoU分数上的定量对比。

此外，我们还报告了使用CAT-Net训练集重新训练的PSCC-Net、MVSS-Net、IF-OSN和WSCL的结果。总体而言，重新训练的MVSS-Net和IF-OSN的性能与官方发布的版本相当，而重新训练的PSCC-Net和WSCL则表现显著提升，PSCC-Net的F1分数提高了+9.5%，IoU分数提高了+5.0%。这表明不同的训练数据集对最终性能有显著影响。为了便于比较，我们在后续分析中采用了原始版本和重新训练版本中的较高性能。
从表II可以看出，传统的聚类算法Lyu-NOI和PCA-NOI在F1值上表现不佳∼50%，在IoU值上表现不佳∼11%。这主要是因为这些算法的手工设计噪声特征在测试数据集的后处理过程中受到了严重破坏。相比之下，最新的基于分类的深度学习算法提供了显著提升的检测效果。在这些模型中，MVSS-Net和IF-OSN在Columbia数据集上的表现略胜一筹，IoU分别达到了78.4%和54.8%；而在CASIA数据集上，CAT-Net的表现更为出色，IoU达到了64.2%。最近发布的TruFor在其余三个数据集上也取得了优异的成绩。得益于训练框架中的SCL设计和测试时采用的无监督聚类方法，我们的FOCAL，无论是使用单个提取器（如HRNet或ViT)还是融合提取器（如HRNet+ViT），在所有测试数据集上均在F1和交并比标准上表现出色。特别是，FOCAL（Fusion）通过简单的特征级连接，无需重新训练，就能显著提升性能（例如，IoU在FF++和Coverage上分别提高了+10.6%和+4.8%）。
表III还列出了像素级AUC的定量比较，以全面评估原始和伪造像素之间的阈值无关可分离性。

FOCAL的AUC得分报告为91.4%，与先前的方法[1]、[3]、[5]（76.7%∼85.3%）相比，显示出更优的区分能力，验证了我们的方法在所有决策阈值下都能保持强大的法医区分能力，而不仅仅是在特定的操作点上表现突出。
鉴于上述评估均基于像素级别的指标，我们计算了图像级别的伪造检测得分，并在表IV中以AUC和准确率作为指标进行了报告。

具体而言，这一计算是通过分析我们的法医感知特征F的同质性来实现的，其中局部特征分布之间的归一化互信息作为全局真实性的指标。如表IV所示，FOCAL在AUC上比第二佳方法提高了5.3%，在准确率上提高了5.8%。这种能力自然地来源于我们的定位聚焦框架，因为伪造图像在被篡改区域和原始区域之间固有的特征异质性，使得无需修改架构即可同时优化像素级和图像级的检测。

C.定性比较

图7展示了在一些代表性测试图像上的伪造检测结果。

可以看出，传统的基于聚类的方法，如Lyu-NOI和PCA-NOI，由于使用了手工设计的噪声特征，表现不佳；许多伪造区域未能被检测到，且存在大量误报。基于分类的方法PSCC-Net在这些跨域测试数据上也表现不佳，大多数伪造区域未能被检测到。同样，CAT-Net和MVSS-Net也错过了许多伪造区域，导致检测结果不准确。TruFor和IF-OSN在某些情况下表现稍好；但许多伪造区域仍无法准确识别，同时许多未被篡改的区域也被错误地检测为伪造。相比之下，我们的FOCAL（融合）不仅能够准确检测伪造区域，而且在跨域测试中表现稳定。此外，误报显著减少。
FOCAL假设所有伪造区域在单个图像中具有相似的特征，尽管这些伪造可能采用不同的方法（如拼接和修复）。一个有趣的问题是，FOCAL是否能够同时检测多种类型的伪造。答案是肯定的。图7的最后两行展示了来自MISD数据集的例子，其中使用了多源拼接伪造。可以看出，FOCAL仍然能够产生令人满意的检测结果。在这一具有挑战性和实际应用的场景中，成功的原因可能是原始区域比伪造区域更多。数据量最大的聚类将直接被标记为原始，而数据量较少的聚类将被合并，并全部标记为伪造。
在图11至16中，分别展示了对测试数据集的更多比较结果，包括Coverage [8]、Columbia [7]、NIST [10]、CASIA [9]、MISD [11]和FF++ [12]。

D.消融研究

我们现就提取器骨干、损失函数和聚类算法这三个方面，分析每个组件如何为FOCAL框架做出贡献。

1）提取器主干：
我们从选择FOCAL提取器开始消融研究，重点在于如何挑选骨干网络。由于我们的目标不是设计全新的骨干网络，而是直接采用了近年来最常用的几种骨干网络，即HRNet [48]、ConvNeXt [56]、ViT [49]和MiT [57]，进行对比。表V展示了相应的检测结果，其中第一行列出了传统分类框架的性能作为对比。

可以看出，ViT在这些对比的骨干网络中表现出更优的检测性能。这可能是因为ViT的注意力机制能够通过全局建模长距离依赖关系，提取出更丰富的伪造特征。此外，当有更先进的架构可用时，FOCAL中的提取器骨干可以灵活地被替换。进一步，在图8中，我们比较了使用不同骨干网络和融合策略时预测的伪造掩码的视觉效果。可以看出，特征融合显著优于简单的结果级融合（如并集或交集融合）。

2）损失函数：
软对比学习模块在FOCAL中扮演着至关重要的角色。我们通过用现有的对比损失函数，如三元组[58]、DCL [59]、Circle [60]和原始的NCE [40]，替换LSCL，来评估FOCAL变体的性能。从表VI可以看出，并非所有这些损失函数都适用于伪造检测任务。

例如，三元组损失对每个查询正负对的距离得分施加了相同的惩罚强度[60]，这导致了模型的崩溃。通过在监督下重新加权每个距离得分，Circle提供了更加灵活的优化过程和明确的收敛目标，远超Triplet。尽管DCL和NCE采用了相同的监督机制，但DCL去除了正向约束，容易陷入局部最优解，导致其性能远逊于NCE。此外，通过引入可优化的系数wij来对特征进行加权，我们提出的LSCL能更好地处理标签模糊问题，与标准NCE相比，F1值提高了7.4%。请注意，当不使用wij提供的权重时，LSCL的监督效果退化为NCE，这突显了我们提出的SCL策略的重要性。最后，我们展示了在逐图像而非批量级别计算整体LSCL时的结果（表VI的最后两行）。正如预期，我们的逐图像整体损失设计显著优于批量级别的损失（F1值高出+5.5%）。这一显著的性能差距进一步表明，在单个图像中明确使用伪造像素和原始像素的相对定义的必要性。

3）聚类算法：
除了对比学习之外，FOCAL的另一个关键模块是用于生成最终预测伪造掩模的聚类算法。为了探索最适合FOCAL框架的聚类算法，我们评估了最流行的几种聚类算法，包括K-means [61]、B-K-means [62]、BIRCH [63]、Hierarchical [64]和HDBSCAN [44]，并在表VII中报告了结果。对于K-means、B-Kmeans和BIRCH算法，将形成的聚类数量设置为2，而其他参数采用默认值。

可以看出，上述算法表现出相似的性能，这主要归因于提取器学习到的特征F具有区分性。其中，HDBSCAN的表现最佳，比第二名高出1.4%的F1分数。考虑到F可能包含256×256 = 65536个元素需要聚类。那些无法扩展到大规模元素的聚类算法，如谱聚类[65]和AP聚类[66]，由于速度极慢而被排除在外。我们还想要指出，在K均值、B-K均值和BIRCH算法中使用固定数量的聚类可能存在的局限性。对于完全原始的图像（无伪造区域），这些聚类方法仍会强制生成两个聚类，从而不可避免地产生误报（参见图10的最后一行）。

为了进一步评估原始图像中的误报（越低越好），我们在ImageNet [67]、COCO [51]和VISION [68]这几个原始数据集上进行了额外的实验，每组随机选取了2000张图像。

如表VIII所示，FOCAL采用的基于密度的算法HDBSCAN能够动态确定最终聚类的数量，有效减少了原始图像中的误报率4.1%。此外，即使使用K-means算法，我们的FOCAL仍然显著优于竞争对手[1]、[2]和[5]。

E.鲁棒性评价

伪造的图像通常会经历一系列的后处理操作，如压缩、模糊、添加噪声等，以试图消除伪造痕迹或误导伪造检测算法。此外，作为图像的主要传输渠道，网络社交平台（OSNs）已被证明会对图像取证算法造成严重影响[4]。因此，评估所有竞争算法在后处理操作和社交网络传输中的稳健性至关重要。具体而言，我们将上述退化应用于原始测试数据集，并将结果展示在图9中。

可以看出，尽管CATNet [2]在原始数据集上表现出色，但对后处理和社交网络传输较为敏感。TruFor [5]、MVSS-Net [1]和IF-OSN [4]对这些干扰具有一定的抵抗力。相比之下，我们的FOCAL在这些竞争对手中始终表现出最佳的性能和稳定性。例如，FOCAL在Facebook或微博传输中的性能仅下降了∼0.2%。