Attentive and Contrastive Image Manipulation Localization With Boundary Guidance

Wenxi Liu , Member, IEEE, Hao Zhang , Xinyang Lin , Qing Zhang , Qi Li , Xiaoxiang Liu , Ying Cao

摘要

近年来，图像生成技术的快速发展，导致了对篡改图像的广泛滥用，导致了信任危机，影响了社会公平。因此，我们工作的目标是检测和定位图像中被篡改的区域。许多基于深度学习的方法已经被提出来解决这一问题，但它们很难处理手动微调到图像背景的篡改区域。通过观察缓和区域的边界对篡改和非篡改部分的分离至关重要，我们提出了一种新的边界引导的图像操作检测方法，它引入了利用篡改区域边界信息的固有偏差。我们的模型采用编译码器结构，采用多尺度定位掩码预测，并通过注意机制和对比学习来引导下利用先验边界知识。特别地，我们的模型因为如下原因是独特的，1)我们在网络解码器中提出了一个边界感知注意模块，该模块预测被篡改区域的边界，从而将其作为关键的上下文线索来促进定位；2)我们提出了一种多尺度的对比学习方案，具有新的边界引导采样策略，从而产生更多的区别定位特征。我们在几个公共基准上的最新表现证明了我们的模型相对于之前的作品的优越性。
索引术语-图像操作检测/定位。

1. 引言

我们的论文的目标是在像素级别上定位不同类型的图像操作（包括拼接、复制-移动和删除）。主要的挑战在于难以区分被篡改和未被篡改的区域，特别是被篡改的区域是从原始图像中复制的，它们被仔细地微调。因此，被篡改区域和未被篡改区域之间的差异变得很小。之前的方法旨在学习特定于任务的显著特征[6]，[7]，[8]，[9]，但要么它们只能处理特定的操作类型[10]，[11]，[12]，[13]，[14]，[15]，要么它们很容易被精心操作的图像混淆。
在被篡改的图像中，被篡改区域的边界是分离被篡改和未被篡改像素的关键位置，在定位被篡改区域时应特别注意并明确利用这一点。然而，如何利用这些边界信息来提高检测被篡改图像区域的性能仍有待探索。
在这项工作中，我们提出了一种图像操作检测的边界感知方案，其中我们引入了充分利用篡改区域的边界信息，并从注意和特征学习两个角度实现了我们的方案。首先，为了进一步增强操作定位，我们鼓励该模型关注一个被篡改区域周围的边界，其中经常存在非自然的混合。其次，受对比学习[16]、[17]、[18]、[19]、[20]的启发，我们寻求学习一个特征空间，即篡改区域内的点远离篡改区域边界附近的非调和区域点，以获得更强大的特性来定位篡改区域。
与之前天真地利用边界信息[21]的工作相比，如联合预测篡改边界和掩模（见图5），我们的专注和对比的方法提供了一种新颖的、更复杂的利用边界信息的方法，并被证明比之前的方法更有效。
在注意方面，在我们的框架的解码层中，我们提出了一种新的基于交叉注意的边界感知模块，旨在提取图像中被篡改区域的边界，从而使模型进一步集中于被篡改区域的边界。特别是，边界感知注意模块利用跳连编码特征与前一层解码特征的相关性，提取被篡改区域的边界，进一步用于生成图像篡改定位的掩模。
在特征学习方面，我们提出的模型是基于一个典型的编解码器架构及其特征学习监督由一个新颖的对比目标函数[16]，[22]，[23]，表示为边界引导篡改对比损失，为了推动分开特征采样的篡改和非篡改区域，从而学习更多的区别特征表示。为此，我们采用边界引导的采样策略来收集负训练对，其中我们在被篡改区域的边界周围采样负样本，而不是整个非被篡改区域。该采样方案不仅鼓励模型关注存在非自然混合的边界区域，而且减轻了未篡改区域内巨大变化引起的干扰（见图1中的可视化特征）。
为了进行评估，我们在几个公共数据集上进行了实验，包括CASIA [24]、Conbyea[25]、Coverage[26]和NIST16 [27]。通过将我们的方法与之前的方法进行比较，证明了我们提出的模型可以达到最先进的性能。总之，我们的工作贡献包括：

我们提出了一种新的边界引导图像篡改定位模型，该模型通过精心设计的注意力和对比学习机制充分利用被篡改区域的边界信息，而不是以往工作中使用边界信息的简单策略。
我们在框架的解码器中引入了一个边界感知注意模块，旨在指导模型通过提取被篡改区域的边界来强调图像操作的非自然混合。
我们提出了一种边界引导的篡改对比损失，鼓励模型将样本的边缘从篡改和非篡改区域扩大到最大的程度。
我们在几个基准测试上对我们的方法与现有的方法进行了广泛的评估和比较，并表明我们的方法达到了最先进的性能。

2. 相关工作

在本节中，我们将介绍有关图像操作检测/定位、深度伪造检测和对比学习的相关文献。

A. 图像操作检测/定位

由于操作特定的图像区域不可避免地会在被篡改区域与其周围区域之间留下痕迹，因此有几种方法利用边界信息来有利于操作检测[5]、[21]、[35]。多任务全卷积网络（MFCN）[35]提出利用两个输出分支来定位剪接区域的边界。作为一个基于gan的模型，GSR-Net [21]通过合成现有数据集的篡改图像来学习检测图像操作，通过篡改区域及其边界共同监督。参考文献[5]提出了一个双分支网络MVSS-Net，它融合了噪声分布和通过Sobel提取的边缘信息来完成图像操作定位。我们的方法共享一个寻求利用篡改边界信息的高级思想，但探索了两种新的方法，利用对比学习和注意机制来纳入边界先验，这在之前的图像篡改检测的工作中没有研究过。

B. 深度伪造检测

近年来，随着生成模型的发展，深度伪造检测的任务已经引起了[40]、[41]、[42]、[43]、[44]、[45]等研究者的关注。它的目的是识别人脸的表情甚至身份被篡改的图像。从本质上，深度伪造检测解决了一个图像级的二值分类问题。与深度伪造检测任务不同，我们的图像操作定位任务需要估计被篡改的图像区域的位置，这是一个像素级的预测任务。

C. 对比学习

无监督/自监督学习方法[20]、[22]、[46]、[47]一般包括借口任务和损失函数两个方面。它们都致力于更好地学习数据表示。近年来，对比学习损失在[16]、[22]、[23]、[48]等方面取得了显著进展。这些方法通过从正对中关闭样本并将样本从负对中推开来学习表征。参考[49]使用一个内存库来存储实例类表示向量，并通过区分不同的实例和特征表示来提出实例级对比学习。其他工作[50]，[51]探索选择一批中的阳性和阴性样本，而不是一个记忆库。MoCo [23]提出了无监督的视觉表示学习，它从比较学习的角度构建了一个带有队列和移动平均编码器的动态字典。对于图像操作，最近的一项工作，CFL-Net [52]，提出使用对比度学习来分离未被篡改和被篡改的补丁嵌入的分布。相比之下，我们提出了一种边界引导的抽样策略，以寻找更多信息的负对，使我们学习的特征更具鉴别性。

3. 我们的方法

A. 网络概述

我们工作的目标是在像素级上检测和定位被篡改的区域。我们所提出的模型的体系结构如图2所示。

图2。左图：我们的框架的概述。将输入篡改图像的编码特征通过一个混合注意模块和多个边界感知注意模块来预测被篡改区域和边界的多尺度掩模。每个尺度的解码器还通过边界引导的篡改对比损失进行监督。右图：边界引导的篡改对比损失。给定解码器的特征图，采用对比学习方法对属于同一区域（即篡改或未篡改区域）的点特征进行分组，同时分离不同区域的点特征。点特征的采样的篡改区域被限制在外部边界区域的篡改区域和硬对挖掘方法用于使模型关注的类型难以处理积极对两个遥远的样本（硬正对）和负对与两个相近的样本（硬负对）。

给定一个经过处理的图像\(I\)作为输入，我们使用ResNet-50 [53]作为骨干来提取多尺度的视觉特征，\(X_i(i = \{1, . . . ,S\})\)。然后，将特征输入到由通道注意块和空间注意块连续级联组成的混合注意模块中，以便转换特征，从而在传递到解码器之前预先定位潜在的被篡改区域。基于[54]、[55]、[56]和[57]，我们采用了混合注意模块，可以对最深的编码特征\(X_S\)沿空间维度和通道的长期依赖关系进行建模。具体地说，它由通道注意块\(F_{ch}\)和空间注意块\(F_{sp}\)依次级联组成，分别通过沿信道和空间维度的自注意方案实现。之后，\(X_S\)将与编码的特征结合，在通过解码器之前，获得\(\hat{X}_{S}\)，即\(\hat{X}_{S}=\mathrm{Concat}(X_{S}, F_{ch}(X_{S}), F_{sp}(F_{ch}(X_{S})))\)。
在接下来的解码层中，特征不仅被上采样，还与跨尺度特征交互，通过边界感知注意模块定位被篡改区域的边界。每个尺度的边界感知注意模块将同时估计被篡改的区域掩模\(\hat{M}_{i}\)及其边界\(\hat{C}_{i}\)。另一方面，为了鼓励模型集中于篡改区域的边界，我们提出了一种基于边界引导采样策略的边界引导篡改对比损失，有利于区分篡改区域和非篡改区域。为了更直观地描述本文中使用的所有符号，我们在表一中列出了所有的符号及其内涵。在下面的章节中，我们将详细阐述我们的边界感知注意模块和边界引导的篡改对比损失。

B. 边界感知注意力学习

操作检测和定位的关键是发生非自然混合的被篡改区域的边界。对被篡改区域边界的准确定位可以有效地帮助被篡改区域的定位。在我们的网络的解码器中，我们合并了所谓的边界感知注意模块\(F_{ba}\)，专门旨在估计边界。
为了定位边界，我们不仅需要来自前一层的特征，而且还需要具有语义和细节的特征。随着解码特征的空间维数的增加，需要更详细的信息。因此，受类似unet的网络结构[58]的启发，我们利用相同尺度上的编码特征\(X_i\)，以及前一层的解码特征\(\hat{X}_{i+1}\)，来促进边界定位。边界感知注意模块有两个输出： 1)预测的边界\(\hat{C}_{i}\)和2)将被传播到下一层的特征，并用于生成第\(i\)个尺度的掩模，\(\hat{M}_{i}\)。这个过程可以表示如下： \[\begin{aligned}\ [\tilde{X}_{i},\hat{C}_{i}]& =F_{ba}(\hat{X}_{i+1},X_{i}), \\\hat{X}_{i}& =\mathrm{Concat}(\tilde{X}_{i},\mathrm{Upsample}(\hat{X}_{i+1})), \\\hat{M}_{i}& =\mathrm{Conv}(\hat{X}_{i}).\end{aligned}\]

在图3中，受[59]、[60]、[61]和[62]的启发，我们设计了边界感知注意模块的结构。

图3。边界感知注意模块的说明。\(X_i\)和\(\hat{X}_{i+1}\)中选择的像素级特征分别用深绿色和深红色表示。通过交叉注意模块，我们得到了增强的特征\(\hat{v}_{i}\)，用蓝色表示，然后将其映射回\(X_i\)，同时保持剩余的特征不变。

首先，我们对编码的特征\(X_i\)进行降采样，以匹配来自前一层解码特征\(\hat{X}_{i+1}\)的维数，并将它们连接起来。为了提取特征的边界信息，我们通过平均池化、卷积和sigmoid算子的组合对特征进行平滑，并让原始特征减去平滑后的特征，得到与篡改边界相关的高频信息。该过程可以描述如下： \[\begin{aligned}&\tilde{H}_{i}=\mathrm{Concat}(\mathrm{Downsample}(X_{i}), \hat{X}_{i+1}),\\&H_{i}=\tilde{H}_{i}-\tilde{H}_{i}\odot\mathrm{Sigmoid}(\mathrm{Conv}(\mathrm{AvgPool}(\tilde{H}_{i}))),\end{aligned}\] 其中，\(\hat{H}_{i}\)是\(X_i\)和\(\hat{X}_{i+1}\)的组合特性。\(\odot\)表示元素级的乘法。利用所获得的特征\(H_i\)来预测边界，即\(\hat{C}_{i}=\mathrm{Conv}(H_{i})\)。
接下来，需要使用这些特征来生成篡改掩码\(\hat{M}_{i}\)并传递到下一层，因此应该利用与篡改最相关的信息。在这里，我们使用一个特征选择块\(F_{fs}\)，从预测的边界图\(\hat{C}_{i}\)中找到前K个高置信像素的索引。然后，这些索引引导模型对\(X_i\)和\(\hat{X}_{i+1}\)对应的像素级特征进行采样，分别记为\(v_i\)和\(\hat{v}_{i+1}\)。 \[\mathbf{v}_{i}=F_{fs}(X_{i},\mathrm{TopK}(\hat{C}_{i})),\mathbf{\hat{v}}_{i+1}=F_{fs}(\hat{X}_{i+1},\mathrm{TopK}(\hat{C}_{i})),\] 其中K实际上设为32。由于\(v_i\)和\(\hat{v}_{i+1}\)是定位边界的最关键的特征，因此我们采用了一个交叉注意模块，其中\(v_i\)作为查询，\(\hat{v}_{i+1}\)作为键/值，如下所示： \[\hat{\mathbf{v}}_i=\mathbf{v}_i+\text{Softmax}(\frac{\mathbf{v}_i\hat{\mathbf{v}}_{i+1}^T}{\sqrt{d_k}})\hat{\mathbf{v}}_{i+1},\] 其中\(d_k\)表示\(v_i\)和\(\hat{v}_{i+1}\)的维数。最后，我们根据所选择的索引将\(\hat{v}_{i}\)分散到\(X_i\)中，并保持未被选择的位置不变。
损失函数：我们应用多尺度损失来学习具有代表性的多尺度特征，以进行更精确的预测。

在实践中，如图2所示，所有四个尺度都生成了操作掩模，而仅对两个尺度的中间边界掩模进行预测。对于具有最深特征的预测掩模，即\(\hat{M}_{S}\)，我们应用二进制交叉熵（BCE）损失和IoU损失进行监督。此外，我们采用加权二值交叉熵损失[63]和加权IoU损失[63]来监督预测的掩模\(\hat{M}_{i}=(i\neq S)\)和边界\(\hat{C}_{i}\)。边界的ground truth值是通过从膨胀图像中减去二值地面真实掩模的侵蚀而得到的。具体来说，我们应用核大小为5×5、步幅为1的最大池化操作来进行图像扩张和侵蚀。

C. 边界引导下的篡改对比学习

一旦一幅图像被篡改，其被篡改的区域可能会显示出与未被篡改的区域略有不同的视觉统计数据，例如，不自然的照明信息或不一致的噪声分布。扩大学习特征空间中篡改区域和非篡改区域之间的差异，可以有效地提高学习特征的鉴别能力，有利于篡改区域的定位。
基于此，我们采用对比学习，目的是学习区分特征表示，可以区分篡改和非篡改部分。我们选择对每个尺度，对直接用于预测最终掩模\(\hat{M}_{i}\)的特征图进行对比学习，我们根据经验发现它的效果很好。特别是，在训练过程中，我们以点的方式对特征图进行空间采样，从篡改和未篡改区域收集样本。在这里，一个样本指的是在特征映射的特定位置上的一个特征向量。然后，我们最小化一个对比损失函数，以减少同一区域内样本之间的距离（即正对），同时增加不同区域内样本之间的距离（即负对）。为了进一步提高学习特征的鲁棒性和可鉴别性，我们引入了一种边界引导的采样策略来构造信息更丰富的负对。
1)边界引导篡改对比损失：从解码器的每个尺度上，我们采用一个对比损失，它由两项组成，即\(\mathcal{L}^{TC}=\mathcal{L}^{+}+\mathcal{L}^{-}\)，其中\(\mathcal{L}^{+}\)和\(\mathcal{L}^{-}\)分别是正对损失和负对损失。在形式上，\(\mathcal{L}^{+}\)被写为： \[\begin{aligned}\mathcal{L}^{+}&=\frac{1}{|\mathcal{H}_{t}^{+}|}\sum_{(\mathbf{u}_{m},\mathbf{u}_{n})\in\mathcal{H}_{t}^{+}}-\log(\mathrm{Sim}(\mathbf{u}_{m},\mathbf{u}_{n}))\\&+\frac{1}{|\mathcal{H}_{n}^{+}|}\sum_{(\mathbf{u}_{m},\mathbf{u}_{n})\in\mathcal{H}_{n}^{+}}-\log(\mathrm{Sim}(\mathbf{u}_{m},\mathbf{u}_{n})),\end{aligned}\] 其中，\(\mathrm{Sim}(\cdot,\cdot)\)表示两个特征向量之间的余弦距离，\(\mathcal{H}_{t}^{+}\)是来自被篡改区域的一组正对，而\(\mathcal{H}_{n}^{+}\)包含从未被篡改区域提取的正对。\((\mathbf{u}_{m},\mathbf{u}_{n})\)表示被采样的特征向量对。\(\mathcal{L}^{+}\)作为一种力，将特征空间中同一区域内的样本拉在一起。为了获得样本的正对，我们使用硬对挖掘策略，将在同一区域内但彼此远离的样本聚集在一起。具体来说，在来自被篡改或未被篡改区域的所有可能的样本对中，我们保留具有前L个最大距离的样本对，构成\(\mathcal{H}_{t}^{+}\)和\(\mathcal{H}_{n}^{+}\)。在实践中，L被设置为来自同一区域的所有可能样本对数量的一半。我们对\(\mathcal{L}^{-}\)的定义如下： \[\mathcal{L}^{-}=\frac{1}{|\mathcal{H}^{-}|}\sum_{(\mathbf{u}_{m},\mathbf{u}_{n})\in\mathcal{H}^{-}}-\log(1-\mathrm{Sim}(\mathbf{u}_{m},\mathbf{u}_{n})),\] 其中\(\mathcal{H}^{-}\)是一个负对集，其中每对都由来自被篡改区域的查询样本和来自未被篡改区域的负样本组成。\(\mathcal{L}^{-}\)旨在将来自不同地区的样本分开。
2)边界引导采样策略：为了构建\(\mathcal{H}^{-}\)，一种简单的方法是从一个未被篡改的区域随机抽取负样本。然而，在一个未被篡改的区域内，通常存在很大的差异。例如，未被篡改的区域可能占据图像的很大一部分，因此它可能包含大量分散各种物体或杂乱的背景。因此，绘制负样本的原生方法往往会降低模型的性能。因此，我们提出了一种新的采样策略，即我们在一个被篡改区域的边界附近绘制负样本，而不是从整个非调和区域（见图4中的示例）。

图4。边界引导的抽样策略。蓝色点表示未篡改区域的采样特征，红色的表示被篡改区域的采样特征。

这种采样方法具有两个方面的优势：第一，约束边界区域内的负样本倾向于减少未篡改区域内方差大而造成的干扰；第二，篡改区域的边界周围经常发生非自然的混合，因此从该区域采样鼓励模型专注于边界区域，这与我们框架的其他组件，如边界感知注意模块。特别地，给定一个地真二值篡改区域掩模\(M\)，我们对其进行图像扩展，得到一个放大的掩模\(\hat{M}_{i}\)，并将负样本限制为来自\(\hat{M}_{i}-M_i\)指定的外部边界区域。最后，我们对\(\mathcal{H}_{t}^{+}\)和\(\mathcal{H}_{n}^{+}\)采用硬对挖掘方法，只保留距离最小的前L个负对来构造\(\mathcal{H}^{-}\)。

4. 实验结果

在本节中，我们将在几个公共基准上进行全面的实验，并将我们提出的方法与以前的最先进的方法进行比较。我们还分析了我们的模型的不同组件。

A. 实施细节和数据集

实施细节：我们使用Pytorch实现了我们的框架，并使用一个NVIDIA Titanxp GPU进行训练和测试。对于训练，所有输入的图像都被调整到512×512的分辨率，并通过随机的水平翻转、颜色抖动和裁剪来增强它们。我们采用ResNet50 [53]作为骨干。在训练过程中，我们使用了Adam优化器[64]，其动量为0.9，重量衰减为5×10−4。我们将批处理大小设置为16，并使用多项式策略[65]调整学习率，基本学习率为1×10−5，幂次为0.9。为了进行测试，首先将输入图像的大小调整到512×512，用于网络推断，然后将输出映射的大小调整回输入图像的原始大小。
数据集： 为了评估模型的性能，我们在6个基准测试上进行了实验，包括CASIA [24]、NIST16 [27]、Columbia[25]、Coverage[26]、Defacto[67]和一个真实世界的数据集IMD2020 [68]。此外，我们还利用了[69]提出的合成数据集。这些数据集涵盖了不同类型的操作，包括拼接、复制-移动和删除。所有的数据集都提供了ground-truth的二进制掩码。

CASIA [24]由两个子数据集组成，CASIAv1的数据为921张篡改图像和CASIAv2的篡改图像为5123张图像。篡改类型包括拼接和复制移动。裁剪后的区域通常是精心选择的，并应用后处理操作，使区域在视觉上逼真。
NIST16 [27]包含564个被篡改的图像样本。所有三种操作类型都涉及到，它们还进行后处理以隐藏可见的痕迹。
Columbia[25]专注于拼接，它包含180张未压缩的图像。
Coverage[26]关注于包含100张图像的复制-移动操作。被操作的对象被手动裁剪以覆盖同一图像中的相似对象，并对它们进行后处理以去除可见的操作痕迹。
Defacto[67]是最近提出的一个大规模合成数据集，包含149k图像，这些图像从MS-COCO [70]中采样，并通过复制移动、拼接和绘制自动操作。
IMD2020 [68]包含2010年真实的从互联网收集的真实操作图像，涉及所有三种操作类型。
合成训练数据集[69]包含了最初从[70]中收集到的大约100k张图像，涵盖了拼接、复制-移动和删除的操作类型。

在以下小节的定性结果中，特征图显示在颜色图中，以较暖的颜色表示更多的关注，反之亦然。比较方法的预测篡改掩模在0到1的灰度图像中可视化。预测的掩模的每个像素都意味着被篡改的确定性。

B. 与最先进的技术进行比较

像素级篡改检测

在[5]和[34]之后，我们将我们提出的方法与两种实验设置下的几种最先进的方法进行了比较。
在第一种设置中，在MVSS-Net [5]之后，所有的比较模型都是在真实数据上从头开始训练的，没有任何额外的合成数据集。我们采用CASIAv2 [24]在其他公共基准上进行训练和测试，包括CASIAv1、NIST16、Columbia、Coverage、IMD20和DEFACTO。我们将我们的模型与之前的几种方法进行了比较，包括ManTra-Net [37]、HP-FCN [71]，CR-CNN [72]，GSR-Net [21]、SPAN [66]、CAT-Net [73]，MVSS-Net [5]和MVSS-Net++ [74]。我们不与ObjectFormer[34]进行比较，因为它的代码是不公开的。表二显示了在[5]中报告的固定阈值为0.5的F1的测量结果。

我们可以观察到，我们的模型在所有的数据集上都达到了最好的定位性能。我们注意到，GSR-Net还通过预测篡改的边界和掩码来利用其网络中的边界信息。我们从GSR-Net在所有基准上的显著改进表明，在利用边界信息方面，我们提出的注意和对比机制比简单的边界和掩模预测的优势。
在第二种设置中，在[34]、[69]和[76]之后，我们首先在一个合成数据集上对每个模型进行预训练，然后在基准的训练集上进行微调，然后在基准的测试集上进行测试。比较方法包括RGB-N [38]、SPAN [66]、PSCC-Net [69]、ObjectFormer[34]、HiFi-Net [77]和ERMPC [76]，在各自的合成数据集上进行训练，在每个基准的训练集上进行微调，并在相应基准的测试集上进行测试。我们评估了所有的方法在CASIA，NIST16和Coverage。对于CASIA，来自CASIAv2的5123张图像用于微调，来自CASIAv1的921图像用于测试。对于NIST16，564张图像的NIST16，404张图像用于微调，160张图像用于测试。有100张图像的Coverage被分为75/25来进行微调和测试。对于这种设置，正如[34]中报道的，不同的方法使用自己的合成数据集，不同的内容和不同数量的图像从47k到100k不等。鉴于此，为了公平比较，我们从[69]的合成数据集中随机选择了60k张图像。关于三个基准测试的结果见表三。

请注意，Columbia没有训练集，因此对它进行微调是不可能的。在CASIAv1和NIST16上，我们的方法大大优于所有比较方法，尽管我们的方法与SPAN和PSCCNet相比，该方法使用的数据要少得多。

通过深入研究Coverage上的失败情况（图12），我们发现我们的模型往往会在特定类型的图像上失败，在这些图像中，区域边界周围的操作痕迹被小心地擦去。对于图12中所示的所有失败案例，我们的模型的F1评分都相当低（小于35%）。通过从测试集中排除这三个图像，我们的方法的F1得分上升到78.1%。

图5显示了我们的方法与最先进的方法的定性比较。结果表明，我们的方法不仅可以更准确地定位被篡改的区域，而且还可以产生更清晰的边界（图5的前三行），这得益于边界感知的注意模块。此外，结果表明，我们的模型比其他模型对背景分心（图5的最后三行）更稳健，这是由于引入了抑制噪声的对比损失。

图像级篡改检测

虽然我们的模型更关注像素级篡改定位任务，但它具有检测图像级篡改的能力。图像级篡改检测的目的是将输入图像分类为真实或篡改。我们遵循[5]的协议来运行一个图像级的篡改检测实验，其中我们的模型是在CASIAv2上进行训练的。考虑到CASIAv1和CASIAv2共享782张真实图像，我们从Corel [78]中随机抽取782张真实图像，以替换CASIAv1中的这些副本，从而得到数据集CASIAv1+。我们在表四中显示了三个基准的结果，CASIAv1+、Coverage和Columbia。在本实验中，我们将我们的模型与ManTraNet [37]、CR-CNN [72]、GSR-Net [21]、SPAN [66]和MVSS-Net [5]进行了比较。
为了执行图像级篡改检测，我们修改了我们的模型，通过在特征\(\hat{X}_{s}\)中添加一个图像分类头，以预测图像被篡改的概率。具体来说，图像分类头由一个CBR块、一个平均池化层和一个完全连接的层组成，其中CBR块是卷积、批处理归一化（BN）和ReLU的组合。

如表四所示，我们的方法在所有基准上都获得了最好的F1分数，我们的模型的AUC分数在所有方法中排名第二好，这表明我们的模型能够在像素级定位和图像级检测任务中都产生良好的性能。

C. 对未篡改图像的定位

我们还在未被篡改的图像上测试了我们的模型以进行像素级定位，并在图6中显示了定性结果。

用我们的方法预测的未被篡改图像的掩模在图6的前三行上几乎为空白，而比较的方法错误地检测到一些位置被篡改了。对于图6的最后两行，所有的方法都出现了一些假阳性。然而，我们的模型倾向于将假阳性限制在小的局部区域，而其他方法则倾向于将它们分散在整个图像上。此外，从图6的最后一行，我们观察到，我们的模型可能会误解到真实图像中的可疑区域。相比之下，MVSS-Net [5]倾向于对误检测的置信度较低。这将导致我们的模型有更高的机会将真实的图像误分类为被篡改，这部分解释了为什么我们的模型在B节的图像级操作检测实验中与MVSS-Net相比的AUC评分较低。

D. 模型组件分析

为了阐明单个组件的影响，我们评估了在不同配置下提出的模型。所有报告的结果都来自于CASIA数据集。

边界感知注意力模块

边界感知注意模块可以部署在解码器的每个尺度上来预测边界，因此我们验证了表v中的设计。

作为参考，我们有一个没有任何BAMs的基线模型，它可以达到53.9%的f1和87.4%的AUC。首先，我们在最深的尺度上部署BAM（即i = 3），它打算将最小的分辨率转换为边界。正如观察到，添加一个BAM会导致更好的性能，这可以从获得3%的F1分数中得到暗示。其次，我们在第二个尺度（即i = 2）上附加了另一个BAM，因此有两个协作的BAM用于预测不同尺度的边界。通过编码特征带来的更详细的信息，该模型能够以60.0%的F1和88.6%的AUC达到最佳性能。最后，当我们在所有尺度上加入三个算法算法时，性能明显下降，因为最低尺度的特征引入的噪声会对边界预测产生负面影响。
为了演示我们的边界感知注意模块如何通过检测边界来帮助定位被篡改的区域，我们在图7中展示了一个特征图的可视化。

为了进行比较，我们还将MVSS-Net [5]中最后一个Sobel层所产生的特征可视化，它提取了与边缘相关的特征。图7中的结果表明，由于我们的边界感知注意模块，我们的方法可以更准确地定位篡改区域。
此外，我们还在图8中给出了一些关于BAM有效性的例子。

从我们可以观察到，在没有BAM的帮助的情况下，估计的掩模在边界区域往往是不完整的，因为像素可以很好地融合到背景中，而且它们很难区分。虽然BAM模型可能不能完美地预测边界，但它足以提供上下文线索来推断整个被篡改的掩模。
如图9所示，我们还展示了在不同数据集上与MVSS-Net [5]进行比较的定性结果。

为了验证所提出的边界感知注意模块的有效性，我们在第三列和第四列中可视化最终的掩模和预测的边界掩模。在前两行观察到，虽然MVSS-Net可以粗略预测被篡改的区域，但其预测包含较大的灰色区域，表明确定性较低。相比之下，我们的预测结果不仅可以准确地定位边界更清晰的被篡改区域，而且对被篡改区域具有更高的确定性。同时，在第四和第五行，MVSS-Net可能对真实的真实区域有假阴性，而在我们的预测中，背景区域几乎是黑色的。计算结果表明了我们所提模型的优越性。

边界导向的篡改对比损失

回想一下，我们的边界引导篡改对比损失的目标是将特征嵌入与相同区域的距离拉近，同时将特征与不同区域的距离分开，即篡改和非篡改区域的距离，使它们更具区分性。首先，我们评估了在表六中关于如何部署损失的差异。

可以观察到，当我们在所有尺度上使用损失时，它通常会达到最优结果。相比之下，使用第二和第三等级（没有最高尺度）的AUC略有改善（88.9%），但F1略有下降（51.5%）。这是因为最高尺度的特征直接对应于最终的结果，因此它与操作检测的精度有关。如果不使用顶级规模的特性，一般的性能就会变得更糟。
图10显示边界引导篡改对比损失对于篡改区域不明显的图像是有效的。

可以观察到的，在使用对比学习损失后，被篡改区域边界上的差异变大。此外，纹理图像的被篡改区域是某些物体的不完整部分。结果表明，我们的模型可以很好地推广到部分级篡改。
此外，图11为应用多尺度对比学习损失后的不同尺度的特征图。

可以观察到，随着解码器规模的增加，对比学习损失以粗到细的方式定位篡改区域。在最好的尺度上，我们可以清楚地观察到被篡改区域周围边界的颜色变成蓝色，而被篡改区域的颜色变成红色，它们的大差异是由对比学习损失造成的。这种现象在第二尺度和第三尺度的特征上并不明显，因此第一尺度的特征为模型的改进提供了最大的增益。

混合注意力模块

我们还对我们的混合注意模块进行了消融研究，发现移除该模块会导致f1和AUC分别降低0.4%和2.8%。这说明了这个模块的重要性。

边界引导的抽样策略

抽样策略在我们提出的对比损失中起着重要的作用。为了验证抽样策略的有效性，我们对表七中的CASIA数据集进行了实验。

最直接的方法是从被篡改区域和未被篡改区域中随机采样特征点。相比之下，我们对从篡改区域和非篡改区域随机抽取的点采用了硬对挖掘，从而提高了性能。然而，在非篡改区域内存在很大的差异，导致非篡改区域随机抽样的对比学习结果的鲁棒性。因此，我们将采样范围限制在篡改边界附近的未篡改区域内。可以观察到，在篡改边界附近的篡改和非篡改区域随机选择点，会导致负样本之间存在较大差异，导致网络性能下降。最后，我们将硬对挖掘策略与从边界区域随机抽取的样本相结合，获得了最优的性能。

E. 超参数分析

我们从F1和AUC分析了边界引导篡改对比损失和CASIA数据集边界感知注意模块的超参数，如表八所示。这涉及到6个关键的超参数。

1)输入图像大小：训练数据集有不同大小的图像，其中大多数图像的分辨率为384×256，其他图像有不同的分辨率，如640×480,336×638,500×375。因此，我们遵循[5]的方法，将不同输入图像大小的输入图像调整为512，并找到我们选择的512×512。我们的×512实验结果最好，如表八所示。
2)选择指标数K：作为我们提出的边界感知注意模块的关键，所选指标对应于与边界预测最相关的特征。我们将所选指标的个数表示为K，并将其设为16、32和64。如表八所示，当K为32时，我们得到的性能最好。
3)生成GroundTruth边界的扩张和侵蚀数：生成一个细化的GroundTruth边界对于监督第三节B小块中边界感知注意模块的预测边界掩模\(\hat{C}_{i}\)是必要的。该过程包括通过从GroundTruth掩模的膨胀中减去GroundTruth掩模的侵蚀来导出GroundTruth边界。我们试图将膨胀和侵蚀的数量从1增加到3，这导致地面真实边界越来越宽，并发现更窄的地面真实边界会得到更好的结果。
4)未篡改采样区域的扩张数：为了执行边界引导采样策略，我们从篡改区域的扩张中减去篡改区域的GroundTruth掩模，得到篡改区域周围的未篡改边界区域，从中对未篡改区域的点特征进行采样。我们用不同的膨胀次数进行实验，发现3次的膨胀效果最好。
5)样本数Z：对于边界引导采样策略，在确定正负样本对的采样区域后，随机选择一些构建正对集和负对集。为了获得这些样本对，我们需要分别从篡改区域和未篡改区域抽取一定数量的以Z表示的样本。根据经验，我们将Z设为250和500。对于包含小于Z像素的被篡改区域，我们对所有像素的特征进行采样。我们在表八中显示了结果。正如所观察到的，一个小的Z意味着我们对这两个区域都采样不足，因此可能不能充分利用样本。
6) Top-L硬对：对于边界引导采样策略，我们采用硬对挖掘方法获得正负样本对，其中我们对Top-L硬对进行采样，并将L设置为整个实验中所有对数量的一半。我们用L = 1和L=来实验所有对的数量。如表八所示，我们的上半部分策略取得了最好的性能。top-1策略容易被极端样本对误导，而全对策略在样本间存在较大差异，从而引入无关信息来分离篡改区域和非篡改区域。

F. 鲁棒性评价

根据[5]、[34]和[69]中的失真设置，我们对我们的网络进行了鲁棒性分析。具体来说，对CASIA数据集中的操作图像应用了不同的失真操作。此外，我们结合了任意两种畸变，其中从区间[0.25、0.78]分别、[3,15]、[3,15]和[50,100]中随机选择调整尺度、核大小、标准差和质量因子。
最后，我们将各种扭曲结合在一起，作为“Mixed”。我们应用f1和AUC来测量定位性能。对输入图像应用畸变将不可避免地导致边界信息被损坏，从而导致性能下降。然而，与MVSS-Net相比，我们的方法对失真显示了更鲁棒的性能，如表九所示。

我们还分析了在CASIAv1+上关于各种失真的图像级检测的鲁棒性。

如表X所示，我们在调整大小和JPEG压缩失真方面的性能不如MVSS-Net。这可能是由于这些操作造成的边界信息被污染，严重影响了我们的边界感知注意模块。尽管如此，我们的模型仍然取得了合理的性能，并且我们的鲁棒性可以与MVSS-Net相当，甚至更优。

G. 效率分析

在计算复杂度方面，我们的方法实现了39.44个GFLOPs，明显低于MVSS-Net的163.57个GFLOPs。此外，我们使用具有24GB GPU内存的GeForce RTX 3090来评估计算时间。使用相同的GPU，我们的完整模型需要0.014秒来处理一幅图像，比MVSS-Net快得多，后者需要0.038秒。

5. 结论和局限性

在这项工作中，我们的目标是图像篡改定位问题。为此，我们提出了一种新的边界引导方法，其固有的倾向于通过注意机制和对比学习方案充分利用被篡改区域的边界信息。特别地，我们提出了一个具有边界感知能力的注意模块，它可以预测被篡改区域的边界，以迫使网络特别注意重要的边界区域。此外，我们引入了一种新的对比损失与边界引导抽样策略来学习更多的有区别的特征。我们证明，作为在CASIAv2上的训练，我们提出的模型在四个不同的基准上大大优于最先进的方法。此外，当在合成数据集上进行预训练时，我们的模型在现实基准上也显示了可比性或优越的通用性。
我们在图12中显示了覆盖范围测试集上的失败情况。当被篡改边界的痕迹被仔细地擦去（图12的第一列）或类似的边界同时出现在被篡改的区域（图12的第二列）时，我们的模型可能难以区分被篡改区域的边界和未被篡改物体的边界。此外，如果被篡改的区域是两个相似对象的局部区域（图12的第二列和第三列），那么我们的方法可能会失败。在未来的工作中，我们将开发区分对象边界和被篡改区域边界的技术，旨在进一步提高我们的性能。
此外，虽然这项工作的主要焦点是像素级的操作，但我们已经证明了我们的模型能够在图像级上检测操作。尽管通过简单地调整我们的模型来适应这种图像级的任务，已经取得了很好的性能，但肯定有一些进一步改进的空间。因此，未来研究的一个有趣的途径是专门为我们的模型定制图像级的检测问题，以优化性能，或探索使用我们的模型或它的一部分作为像素级和图像级任务的联合建模的主干。