UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization

$\text{Shuaibo Li}^{1,2}\quad\text{Wei Ma}^{1\dagger}\quad\text{Jianwei Guo}^2\quad\text{Shibiao Xu}^3\quad\text{Benchong Li}^1\quad\text{Xiaopeng Zhang}^2$ 北京理工大学1、MAIS(中国科学院自动化研究所)2、北京邮电大学3

论文（arxiv）

摘要

我们提出了一个新的框架，通过统一学习集成了三个视图上的篡改线索，用于图像操作检测和定位。特别地，我们构建了一个BSFI-Net，从RGB和噪声视图中提取篡改特征，在调节不同尺度上的空间一致性的同时，增强了对边界伪影的响应性。此外，为了探索对象之间的不一致性作为一种新的线索视角，我们将对象一致性建模与篡改检测和定位结合成一个三任务统一的学习过程，使它们能够相互促进和改进。

因此，我们在多尺度监督下获得了一个统一的操作鉴别表示，从三个角度整合信息。这种集成便于高效的并行检测和定位篡改。我们在不同的数据集上进行了大量的实验，结果表明，该方法在篡改检测和定位方面优于最先进的方法。

1. 引言

数字图像篡改可分为三大类[19]：拼接，即将区域从一幅图像复制到另一幅图像；复制-移动，包括复制或移动同一图像中的元素；移除，删除图像部分和创建视觉一致的内容以掩盖改变的过程。这些操作在被篡改区域和周围环境之间留下痕迹，造成真实区域和伪造区域之间的不一致。与传统的强调高级语义信息的传统检测或分割任务不同，图像篡改检测优先考虑局部语义无关的线索，以区分真实性，而不是语义内容。因此，篡改检测的关键挑战是学习结合不同层次信息并捕获真实和篡改区域之间多尺度不一致的通用特征。以往的方法主要利用为高级视觉任务设计的深度卷积神经网络作为特征编码器或直接连接来自不同层[23,27,40,71]的特征，不能充分表示篡改痕迹。受[9,12,67]的启发，我们设计了一个专门用于提取取证工件的边界敏感特征交互网络（BSFI-Net, Boundary Sensitive Feature Interaction Network），并将其作为特征编码器集成到我们的框架中。BSFI-Net是一个并行的cnn-Transformer结构，它可以加强边缘响应，同时有效地在局部特征和全局表示之间进行交互，以探索不同尺度上图像内部的一致性。
另一方面，许多在RGB视图中难以察觉的篡改伪影在噪声视图中变得明显明显。使用固定的[18]或可学习的高通滤波器[6,35,66]将RGB图像转换为噪声图，可以抑制内容，并突出显示低级的伪造线索。因此，开发一种同时建模RGB和噪声维度的多视图策略对于检测细微的篡改痕迹至关重要。我们的框架采用了一个双流架构来独立地构建RGB和噪声视图的表示，随后合并它们以提高鉴别能力和泛化性。此外，我们还结合了对比监督，以改善这两种观点之间的协作。
此外，为了创建空间相干和语义一致的图像，篡改操作总是改变整个对象来隐藏证据，即执行对象级操作。目前的高级方法关注于像素或补丁级的一致性，而忽略了对象级的信息。相反，我们认为图像操作检测应该不仅仅是识别分布外的像素或补丁，以捕获由操作导致的对象一致性和分布的异常。由于扩散模型[4,5,20,30,44,65,69]生成的超真实的篡改图像，利用对象视图信息变得特别重要。基于扩散的模型[4,30,44]反复更新了整个图像的初始噪声，增强了空间连续性，留下了更少的RGB和噪声痕迹。此外，与真实的图像源不同，在自然语言提示的引导下，自动生成的伪造部分更有可能表现出对象的不一致。最近的扩散模型[20,29,55,64]试图通过采用以对象为中心的方法来解决这个问题，强调了使用对象视图线索进行篡改检测的必要性和可行性。然而，创建和集成这样的新视图与其他视图，以篡改伪影表示是一个重大的挑战，需要新的架构和学习策略。
考虑到上述要点，我们引入了UnionFormer，一个用于图像操作检测和定位的多视图表示的统一学习transformer框架，如图1所示。

图1.UnionFormer的组成概述。我们通过整合来自三个视图表示的篡改线索来实现同时的篡改检测和定位，每个视图由不同的颜色背景表示。我们通过BSFI-Net获得了RGB和噪声视图下的表示，并在统一学习中构建了基于两者的对象视图表示。同时，将三个视图的信息交互融合成统一的操作判别表示（UMDR, unified manipulation discriminative representation）进行检测和定位

首先，我们使用BSFI-Net作为特征编码器，获得在RGB和噪声视图下的通用化特征，并将其进行组合。然后，我们利用融合的特征进行一个单一化的学习过程，其中包括三个子任务：对象一致性建模、伪造检测和伪造定位。在统一学习中，我们的模型建立了对象视图表示，并将三个视图信息集成到一个统一的操作鉴别表示（UMDR, unified manipulation discriminative representation）中，同时完成伪造检测和定位。综上所述，我们的主要贡献如下：

我们提出了一种新的图像取证transformer框架，UnionFormer。通过多尺度监督的统一学习，整合三个视角的信息，同时执行图像操作检测和定位。
我们引入了BSFI-Net，一种用于高级人工表示学习的混合网络结构，它增强了边界响应，同时揭示了不同层次的局部不一致性。
通过对UMDR的统一学习，我们构建了一种创新的对象视图表示方法，能够从三个视图中捕获对象之间的不一致性和聚合信息，用于伪造检测。
我们通过各种基准进行了全面的实验，证明了我们的方法在检测和定位任务中都获得了最先进的结果。

2. 方法

在本节中，我们首先提供对工会成员的概述和对每个组件的详细介绍。我们的目标是充分利用来自三个视图的丰富工件来同时进行篡改检测和定位。我们通过在多尺度监督下的统一学习过程来实现这一目标。
如图1所示，首先使用受约束的CNN [7]将输入的RGB图像X转换为噪声视图表示N = C (X)，可以显示低级的篡改。
然后，将X和N分别输入边界敏感特征交互网络（BSFI-Net）进行特征编码。高频边缘特征(H)与X或N一起作为BSFI-Net的输入，以提高边缘响应性。这使得我们能够在RGB和噪声视图下获得可推广的和可鉴别的特征，构造两个特征金字塔 $ f_r = _1(X,H), f_n = _2(N,H) $ 。
随后，我们使用区域建议网络（RPN）[51]从特征fr中获得一组感兴趣的区域（RoIs），用pi表示。从fr和fn中提取RoI信息，然后扁平得到建议的嵌入表示，记为ri，ni。将每个方案的RGB特征ri和噪声特征ni连接起来，生成融合的方案特征di，并将其输入到I变压器编码器层。
在统一学习阶段，我们处理了三个子任务：建模对象的一致性、真实性的二进制分类和篡改区域定位。在转换器编码器之后，将伪造-判别查询嵌入DI输入到统一操作判别表示部分，对三个子任务生成三个预测。如图1所示，我们对三个子任务采用了具有统一形式的多尺度监督，包括Lcls、Locm和Lloc。

2.1 特征交互编码

2.1.1 RGB和噪声视图表示。

在特征编码阶段，我们利用一个双流结构来利用来自RGB和噪声视图的线索。RGB流被设计为捕获视觉上明显的篡改伪影，而噪声流旨在探索被篡改区域和真实区域之间的分布不一致性。我们利用[7]中提出的可学习约束卷积层将RGB图像转换为噪声视图。如第2节所述，被篡改区域及其周围环境的边缘表现出更明显的篡改线索。因此，我们增强了两个流中的高频边缘信息，将网络的响应集中在被篡改的区域。具体来说，我们利用离散余弦变换（DCT）将图像数据X转换为频域，然后应用高通滤波器得到高频分量。然后，我们将高频分量转换回空间域，以促进特征交互和保持局部一致性。因此，我们得到的边缘增强信息H如下： \[H=\mathcal{T}_d^{-1}\left(\mathcal{F}_h\left(\mathcal{T}_d(X),\beta\right)\right)\] 其中Td表示DCT，Fh表示高通滤波器，β为阈值。我们将X和N分别输入到BSFI-Net中，以及H来进行特征编码，如图2所示。

2.1.2 边界敏感特征交互网络。

除了增强边界响应外，集成局部特征和全局表示对图像伪造检测也至关重要。这就要求进行全面分析在不同尺度上的图像内部的不一致性。受[48]的启发，我们提出了一种名为BSFI-Net的cnn-Transformer并发网络，该网络在保持边缘灵敏度的同时，促进了两个分支中不同尺度的特征之间的彻底交互。

图2.BSFI-Net的概述。FCU表示特征耦合单元，BOB表示边界向块。

如图2所示，CNN分支作为主分支，以一个RGB或噪声图像作为输入，对局部信息进行编码。变压器分支以输入作为边缘增强信息H，引导CNN分支聚焦于被篡改的区域，并将图像补丁之间的长距离不一致传输给它。我们使用[48]提出的特征耦合单元（FCU）来消除来自CNN分支的特征映射和来自transformer分支的补丁嵌入之间的错位。此外，我们还设计了一个面向边界的块（BOB），以方便将高级补丁一致性和边界信息从变压器分支传输到CNN分支，从而指导CNN分支。
CNN分支由5个卷积块组成，类似于ResNet构造[24]。与[16,48]一样，transformer分支由5个重复的transformer块组成，由一个多头自注意模块和一个MLP块组成。采用与ViT [16]相同的令牌化操作。在FCU中，在添加补丁嵌入和CNN特征之前，使用1×1的卷积和重新采样来对齐通道和空间维度。在BOB中，CNN分支的特征映射被输入1×1卷积层、批归一化层、s型层，并通过双线性插值上采样到高分辨率。然后，将来自CNN分支的特征与长距离判别权值进行元素级乘法。我们将BSFI-Net作为特征编码器进行预训练，生成RGB和噪声视图表示，特征金字塔网络[38]基于中间特征映射{C2、C3、C4、C5}生成两个特征金字塔fr，fn。培训细节详见第4.1节。

2.2 特征对比性协作

在特征协作阶段，受[51,56]的启发，我们首先使用一个基于RGB特征金字塔fr的区域建议网络（RPN）来生成一组感兴趣的区域（RoIs）。然后，我们利用RoIAlign [25]从两个流的特征金字塔fr和fn中提取RoIs的信息。除了特征连接之外，我们还采用对比监督来促进两个视图之间的协作。我们将来自不同流的被篡改的建议视为积极建议，被篡改的建议和真实建议被指定为负对。在InfoNCE损失[47,67]之后，对比度损失被定义为： \[\begin{aligned}\mathcal{L}_{\mathrm{con}}=- \frac{1}{N}\sum_{i}\log\frac{\exp(s_{0})}{\exp(s_{0})+\sum_{j}\exp(s_{1})}- \frac{1}{N}\sum_{i}\log\frac{\exp(s_{0})}{\exp(s_{0})+\sum_{j}\exp(s_{2})}\end{aligned}\] 式中，s0表示正对之间的相似性，s1表示RGB篡改嵌入与噪声真实嵌入之间的相似性，s2表示RGB真实嵌入与噪声篡改嵌入之间的相似性。对比损失Lcon引入统一学习监督，将在第3.3节进行讨论。

2.3 具有多尺度监督下的统一学习

Transformer编码器。我们的统一学习模块是一个仅限编码器的transformer架构，它处理融合的提议嵌入二，以及它们的特定位置编码作为输入。在转换器编码器的每一层中，自我注意机制通过不同的建议嵌入来聚合信息，并捕获它们的长距离依赖关系，这意味着对象的一致性。详细地说，我们使用了一个变压器解码器，具有六层，宽度为512，和8个注意头。变压器内的前馈网络（FFN）的隐藏大小为2048。在转换器编码器之后，我们生成判别查询嵌入DI，并输入统一操作判别表示（UMDR）部分，以生成三个子任务的预测，即。对象一致性建模、图像操作检测和定位。

统一伪造判别表示。在转换器编码器之后，DI中的每个篡改判别查询都表示对应建议的三个视图中的篡改线索。图3显示了三个子任务的学习过程。

图3。多尺度监督下的UMDR学习。图像内部在不同尺度上的不一致性。受[48]的启发，我们提出了一种名为BSFI-Net的cnn-变压器并发网络，该网络在保持边缘灵敏度的同时，促进了两个分支中不同尺度的特征之间的彻底交互。

UMDR是在真实性分类、对象一致性建模和操作定位分支的监督下学习的。与DETR [9]和SOLQ [12]一样，分类分支是一个完全连接的（FC）层，用来预测真实性可信度Pˆc。目标一致性建模分支是一个多层感知（MLP），隐藏大小为256，用于预测目标空间信息Pˆo。操作定位分支也是一个隐藏大小为1024的多层感知来预测定位掩码向量Pˆm。对前两个分支机构的监管类似于DETR[9]。在第三个分支中，我们利用对地面真实掩码进行编码得到的掩模向量作为监督信息。在推理过程中，将压缩后的编码过程应用于Pˆm来重构定位掩码。在压缩编码中，我们利用主成分分析（PCA）将二维空间二值掩模转换为一维掩模向量。

损失函数。UnionFormer监督的总体损失职能可表示为： \[\mathcal{L}_{union}=\lambda_{cls}\cdot\mathcal{L}_{cls}+\mathcal{L}_{ocm}+\lambda_{loc}\cdot\mathcal{L}_{loc}+\beta\cdot\mathcal{L}_{con},\] 其中Lcls表示分类的focal损失[39]。Lloc表示定位掩码向量监督的L1损失。Lcon是在第3.2节中引入的对比性学习损失。λcls、λloc、β是相应的调制系数。Locm是对象一致性建模的损失，其定义为： \[\mathcal{L}_{\mathrm{ocm}}=\lambda_{L_1}\cdot\mathcal{L}_{L_1}+\lambda_{gious}\cdot\mathcal{L}_{gious}\] 其中LL1和Lleam为L1损失和广义IoU损失[52]，与DETR相同。λL1和λgious是对应的系数。在[12]之后，Lloc不包括在二部匹配过程中。

3. 实验

3.1 实验设置

训练。我们使用了一个大规模的训练数据集，包括各种类型的篡改和真实的图像。它分为五个部分： 1) CASIA v2 [14]，2)Fantastic Reality[32]，3)Tampered COCO,，来自COCO 2017数据集[37]，4)Tampered RAISE，基于RAISE数据集[11]构建，5)从COCO 2017和RAISE数据集中选择的原始图像。我们在合成数据中随机添加高斯噪声或应用JPEG压缩来模拟现实场景中的视觉质量和篡改轨迹。在训练过程中，我们依次分三个阶段对BSFI-Net、RPN和UnionFormer进行训练。

测试。为了全面评估和比较我们的模型与各种最先进的方法，我们使用了6个公开可用的测试数据集和另一个由混合扩散模型[4]创建的超真实篡改图像数据集。具体来说，我们使用了CASIA v1 [14]、Columbia[26]、Coverage[61]、NIST16 [22]、IMD20 [46]和CocoGlide [23]。然后，我们构建了BDNIE，包括512张由先进的混合扩散模型生成的超真实的假图像，用于文本驱动的自然图像编辑。训练和测试数据的细节载于补充资料。

评价指标。我们评估了该方法在图像篡改检测和定位任务中的性能。对于定位图像操作的任务，我们报告了像素级的曲线下面积（AUC）和F1分数，同时使用最佳的和固定的0.5阈值。对于[23]之后的检测任务，我们采用图像级AUC和平衡精度，同时考虑假报警和遗漏检测，在这种情况下，阈值设置为0.5。为了保证比较的公平性和准确性，我们从文献[23,59]中取出了其他方法的一些结果值。

实施细节。BSFI-Net采用AdamW优化器[41]进行了100个周期的交叉熵损失训练，批处理大小为512，权重衰减为0.05。初始学习速率被设置为0.001，并在余弦时间表中衰减。

在与Lunion一起训练完整的UnionFormer时，受[56,63]的启发，我们采用36周期（3×）计划来训练UnionFormer进行2.7×105次迭代，批大小为16。在这个阶段还使用了一个AdamW优化器。学习速率在开始时被设置为10−4，并在1.8×105和2.4×105迭代时乘以0.1。

3.2 与最先进的技术相比较

Baseline。为了确保公平和准确的比较，我们只选择了最先进的方法，其中作者提供了预训练的模型，发布的源代码，或在通用标准[27,40,59]下进行评估。为了减少偏差，我们只考虑了在不与测试数据集重叠的数据集上训练的方法或版本。详细地说，我们包括了7种最先进的方法：MantraNet[62]，SPAN[27]，PSCC-Net[40]，MVSS-Net[13]，CAT-Netv2[34]，ObjectFormer[59]，和TruFor [23]。

定位结果。表2和表1分别显示了基于像素级AUC和F1评分指标的图像篡改定位结果。排名最高的方法用粗体表示，一条水平线表示排名第二的方法，在表4和表3中也采用了相同的注释。

我们的方法在所有数据集上展示了像素级AUC评估的最佳性能。

对于f1评估，我们的方法在所有数据集上排名最好或第二。平均而言，无论是否使用最优或固定的阈值，我们都获得了显著的优势。事实上，在包含基于扩散的局部操作的相对新颖的CocoGlide数据集上，我们在两个阈值上分别比排名第二的TruOfor高出2.2%和1.3%。这是由于联合前体构建的对象视图伪影表达式，它可以揭示由扩散模型生成的区域和真实区域之间的不一致性。这些比较表明，我们的方法具有较强的泛化和捕获篡改伪的能力。

检测结果。表4为篡改检测的比较结果。

在[23]之后，我们使用定位映射的最大值作为未明确为检测任务设计的方法的检测统计量。UnionFormer在除Columbia外的所有数据集上都取得了最佳的性能，并在平均结果上显示了显著的优势，无论是通过AUC还是平衡精度测量。正如[13,23]中提到的，精度对阈值选择很敏感，如果没有良好校准的数据集，很难确定。然而，我们的方法和次要的TruFor在这个要求很高的场景中取得了值得称赞的结果。我们在平均AUC和精度上分别保持了2.5%和2%的领先优势。这一优势主要归因于我们的框架的统一学习过程。统一学习通常会促进对定位和检测任务的相互增强。通过统一的操作鉴别表示，掌握了两个子任务，进一步提高了模型的性能。

鲁棒性评估。我们通过对NIST 16数据集图像应用图像失真，验证了UnionFormer的鲁棒性。在[40,59]之后，我们包括了四种类型的畸变： 1)将图像的大小改变到不同的尺度；2)应用核大小为k的高斯模糊；3)添加以标准偏差σ为特征的高斯噪声；4)对图像进行JPEG压缩，使用质量因子q。我们比较了像素级AUC与其他方法的性能。表3显示，我们的方法对各种失真操作表现出鲁棒性，优于其他方法。

4. 可视化结果

4.1 定性比较

图4显示了跨不同数据集的定位结果。我们的方法可以准确地定位被篡改的区域，预测更详细和清晰的边界。这是由于我们的多视图特征捕获和BSFI-Net，其中频率信息增强了边缘响应，而分支之间的交互作用增强了特征的泛化和识别。由于对对象视图线索的建模和统一的学习框架，我们的方法在具有挑战性的BDNIE数据集上取得了令人满意的结果，而其他方法都失败了。

4.2 不同视图表示法的可视化

在图5中，我们可视化了BSFI-Net中变压器分支的噪声特征和边缘引导特征。

如列1到4所示，一些图像在RGB视图中可能看起来很自然，但它们被篡改/真实的部分很容易在频域或噪声视图中被容易区分出来。第5列和第6列显示了由一个CNN分支和BSFI-Net的双分支生成的RGB特性。与只使用CNN分支相比，BSFI-Net更准确地激活了被篡改的区域，这得益于变压器分支提供的边缘引导和长距离线索。

此外，我们还定量地分析了对象视图，如图6所示。

在统一学习阶段，我们从transformer编码器中推导出亲和矩阵Ai。基于Ai，我们随机选择提案嵌入的一个子集，计算它们与其他建议的平均亲和力，记为ei。然后将ei归一化到范围[0,1]，并作为一个颜色系数来可视化建议，较浅的颜色表示较低的亲和力。结果表明，使用伪造物体的提案与其他区域的平均亲和力较低，这表明UMDR能够捕捉真实物体和虚假物体之间的不一致性。

5. 消融研究

我们进行了消融研究，以评估我们的方法中关键成分的影响。定量结果见表5。

我们可以观察到，通过在第一个基线模型上添加噪声流，CASIA v1的AUC得分增加8.7%，NIST 16增加8.3%，同时进一步增加对象视图表示，CASIA v1继续增加10.7%，NIST 16继续增加7.4%。这证明了噪声和对象视图表示的有效性。此外，当缺乏对比监督，或BSFI-Net被ResNet- 50 [24]取代时，模型的性能会显著下降。这突出了两个流之间的交互的有效性和BSFI-Net在描述伪造制品方面的特殊能力。

BSFI-Net中的BOB和FCU模块改善了其两个分支之间的交互作用，并有效地消除了它们之间的特征失调。当单独去除BOB或FCU时，整体模型在NIST 16数据集上的定位AUC得分分别下降了4.8%和6.3%。

我们进一步进行了实验，研究了UMDR中几个关键因素的影响。λloc，Locm，掩码向量维度nv，以及压缩编码的类型。

我们比较了三种压缩编码方法：稀疏编码[15]、离散余弦变换（DCT）[2]和主成分分析（PCA）[1]。如表6所示，当设置对比损失时，以PCA为编码类型，并将λloc和Locm分别设置为1和256时，该模型在NIST 16数据集上表现最好。

6. 结论

在本文中，
我们介绍了UnionFormer，一个联合学习transformer框架，它利用来自三个不同视图的线索来进行图像操作检测和定位。UnionFormer使用BSFI-Net作为特征编码器，在RGB和噪声视图下提取具有高度区分性的特征。然后，通过三个任务的统一学习过程，UnionFormer建模了对象之间的不连续性，即对象视图表示，并学习统一的判别表示。从三种观点整合信息的统一表示具有较强的通用性和区分性。它可以准确地识别各种图像操作，无论是传统的手动编辑还是基于扩散模型的自然语言驱动的篡改。此外，统一的学习框架使子任务的相互增强，实现了高精度的检测和定位。在不同的数据集上进行的综合实验证明了该方法的有效性。