GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization

Yirui Chen1,3,， Xudong Huang3,，Quan Zhang 2,3,*， Wei Li3，Mingjian Zhu3，Qiangyu an3
，Simiao Li 3， Hanting Chen3， Hailin Hu3，Jie Yang1， Wei Liu1,†，Jie Hu3,

1 上海交通大学
2 清华大学
3 Huawei Noah’s Ark Lab

摘要

生成模型的非凡能力正成为图像编辑与生成逼真图像领域的新趋势，这对多媒体数据的可信度构成严峻挑战，并推动了图像操作检测与定位（IMDL）研究的发展。然而，由于缺乏大规模数据基础，IMDL任务难以实现。本文构建了一个整合了结构化注意力模型（SAM）、语言模型（LLM）和生成模型强大功能的定位篡改数据生成流程。在此基础上，我们提出了GIM数据集，该数据集具有以下优势：
1)大规模，GIM包含超过100万对人工智能操作的图像和真实图像。
2)丰富的图像内容，GIM包含广泛的图像类别。
3)多种生成式操作，这些图像是使用最先进的生成器和各种操作任务进行处理的图像。
上述优势使得IMDL方法的评估更加全面，拓展了其在各类图像中的应用范围。我们通过两种设置构建了GIM基准测试平台来评估现有IMDL方法，并提出了一种名为GIMFormer的创新IMDL框架，该框架包含影子追踪器、频域空间模块（FSB）和多窗口异常建模（MWAM）模块。大量实验表明，GIMFormer在两个不同基准测试中均超越了先前的最先进方法。

1. 引言

2. 相关工作

3. 数据集和基准构建

在本节中，我们提出了一种从未标注数据生成处理图像的自动化流程。通过这一流程，我们构建了一个全面的大规模GIM数据集。为构建合理的基准测试体系，我们重点围绕数据规模与图像退化两大核心维度开展前期实验。首先，通过分析训练数据规模对模型性能的影响，确定GIM基准测试的合适规模参数。其次，为还原真实场景特征，对处理过和原始图像分别进行三种随机退化处理。最终，GIM基准测试包含超过32万张经过处理的图像及其真实对应图像，用于算法训练与评估。示例图像及其原始版本与篡改掩码如图1所示。最后，我们详细阐述了IMDL方法评估所采用的评判标准与参数设置方案。

4. 方法

为应对生成式操控的挑战，我们提出采用双编码器与解码器架构的GIMFormer模型。该框架包含多个组件：ShadowTracer、频域空间块（Frequency-Spatial Block，简称FSB）以及多窗口异常建模模块（Multi Windowed Anomalous Modeling，MWAM）。图3展示了该框架的整体架构。

对于输入的RGB图像x，我们首先提取其学习得到的轨迹图t。随后，x和t被输入到一个双分支网络中，通过四阶段结构提取金字塔特征Fi（i∈[1,4]）。
RGB分支由FSB、Transformer Block（谢等人，2021)和WMAM组成；
ShadowTracer分支则包含Transformer Block和WMAM。
在融合步骤中，采用特征整流模块（FRM）和特征融合模块（FFM）（张等人，2023)进行特征融合。经过四阶段融合的特征被传递至解码器，最终完成检测yˆ和定位Mˆ。

4.1 ShadowTracer

传统图像篡改检测方法主要针对“廉价伪造”，依赖可见痕迹。这类痕迹包括因图像结构被篡改而产生的失真和突变现象。然而生成式篡改会对内容进行深度修改，且不会产生明显的频率变化或结构异常。如图4所示，这些细微痕迹会呈现独特的内在规律，而可见痕迹则具有不规则的边缘特征。

ShadowTracer致力于捕捉生成模型的内在特征与细微痕迹。针对经过处理的图像，我们的目标是学习一个映射\({\mathcal{g}}_{\phi}\)，将篡改后的图像映射到其潜在扰动像素值，其中\({\mathcal{g}}_{\phi}\)代表具有可训练参数ϕ的神经网络。我们发现生成模型在数据分布中引入的差异具有内在规律，深度神经网络能够尝试重构这些变化。在训练阶段，我们会生成图像xi与篡改后的图像\(G(x_i)\)这对样本，通过\(t_i = G(x_i)−x_i\)计算出操作痕迹。训练\({\mathcal{g}}_{\phi}\)的目标函数可表述为： \[\operatorname*{min}_{\phi}\{\mathcal{L}_{r}(g_{\phi}(G({\mathbf x}_{i})),t_{i})\}\] 其中\(\mathcal{L}_{r}(x,y)=\|x-y\|_2\)。此外，映射网络需要能够检测细微篡改痕迹，并对现实世界中的各种图像退化具有鲁棒性。为此，我们通过混合原始图像与篡改图像，并在训练阶段引入多样化的退化操作来生成图像对。具体而言，给定输入图像I后，我们首先分割出目标区域并进行生成式处理以获得Im。采用混淆（Zhang等人，2017）策略对原始与篡改图像进行处理，以掩盖明显的篡改痕迹。随后，我们将图像置于上述退化处理中以生成最终的篡改图像。网络在从数据集中随机抽取的64×64像素块上进行训练，并采用等式1损失函数。

4.2 频率-空间块FSB

在进行退化处理时，被篡改图像中的伪影往往难以察觉。为提升图像局部特征的表达能力并提取判别线索，我们设计了频域-空间块（FSB）算法，通过在频率和空间维度同步提取伪造特征。
受近期研究（Rao等人，2021；Lee-Thorp等人，2021；Zhang等人，2022）启发，FSB系统包含两个分支：频率分支和空间分支，如图3所示。

在频率分支中，输入信号X通过二维快速傅里叶变换（FFT）转换为频域傅里叶变换（FT）信号X。可学习滤波器Gi与信号相乘以调制频谱并捕捉频率信息，随后通过逆快速傅里叶变换将特征还原至空间域，从而提取出频率感知特征Xf。在空间分支中，输入信号X经过卷积层和LeakyReLU函数处理以增强特征表达能力，获得精细的空间特征Xs。接着将Xf与Xs拼接后，通过卷积层和LeakyReLU函数进一步增强信息量，并通过逐元素求和的方式与原始输入X结合。整个处理流程可表示为 \[\begin{array}{l}{X_{\mathrm{f}}=\widehat{\mathcal F}_{T}(\mathcal{F}_{T}(X)\odot G_{\mathrm{i}})}\\ {X_{\mathrm{s}}=\mathrm{Conv_{L}}(\mathrm{Conv}(X))}\\ {X_{o u t}=\mathrm{Conv_{L}}([X_{\mathrm{f}},X_{\mathrm{s}}])+X,}\end{array}\] 其中\(\odot\)表示Hadamard积，ConvL表示使用LeakyReLU的卷积，[·]表示拼接。

4.3 多窗口异常建模模块MWAM

图像处理会导致像素层面的差异。真实像素应与邻近像素保持一致性，而经过处理的像素可能出现偏差并呈现异常现象。受先前研究(Wu,AbdAlmageed, and Natarajan 2019; Kong et al. 2023)探索局部不一致性的启发，我们引入多窗口异常建模（MWAM）模块，通过在多个尺度上对这些差异进行建模，从而捕捉处理区域与真实区域之间的像素级差异，实现细粒度特征的精准刻画。

如图3所示，对于输入特征F∈H×W×C，我们通过等式3在两个分支中计算像素与其局部窗口内周围区域的差异。 \[\begin{array}{l c r}{D_{u}^{k}[i,j]=(F[i,j]-F_{u}^{k}[i,j])/\sigma^{*},}\\ {\sigma^{*}=\operatorname*{maximum}(\sigma(F),1e^{-5}+w_{\sigma})}\end{array}\] 其中，\(u\in\left\{a,m\right\}\)表示平均值或最大值分支，σ(F)是F的标准差，wσ是一个与σ长度相同的可学习非负权重向量。\(F_a^k\)和\(F_m^k\)分别通过计算每个像素处k_×_k窗口的平均值和最大值得出。通过选择不同尺寸的k来建模不同尺度的不一致性特征。随后，将获得的N = 3个不同尺度的\(D_a^k\)和\(D_m^k\)拼接后输入卷积网络，生成与原始输入相同尺寸的异常图Ma和Mm。此外，特征的异常评分掩码也\(\hat S_{u}\in H\times W\)是通过该方法计算得出。 \[\begin{array}{l}{\hat{f}_{u}=\mathrm{DConv}\left(f\right),}\\ {\hat{S}_{u}=\mathrm{Sigmoid}\left(\mathrm{Conv}(C,1)\left(\hat{f}_{u}\right)\right).}\end{array}\] 其中DConv表示一个3×3的深度向量卷积层。通过将异常分数\(\hat S_{u}\)与异常图Mu进行逐元素相乘，可以捕捉异常信息。随后，我们计算生成的异常感知图与输入特征图X之间的逐元素求和，从而获得异常敏感特征图。整个过程可描述为： \[\hat{X}=X+\hat{S}_{a}\times M_{a}+\hat{S}_{m}\times M_{m}\]

4.4 损失函数

在检测任务中，我们采用(Wang et al. 2020)提出的轻量级主干网络，并基于第四阶段特征进行二分类预测yˆ。定位任务则使用多层感知机解码器(Xie et al.2021)作为分割头，生成预测掩膜ˆM。给定真实标签y和掩膜M，我们通过以下目标函数训练GIMFormer模型： \[{\mathcal{L}}={\mathcal{L}}_{c l s}(y,{\hat{y}})+{\mathcal{L}}_{s e g}(M,{\hat{M}}),\] 其中Lcls和Lseg均为二元交叉熵损失函数。

4.5 实施细节

我们的方法包含两个独立的训练步骤。首先，我们使用ImageNet生成的数据集训练ShadowTracer模型。该训练过程采用了与前一章所述类似的数据生成方法。接着，根据GIM框架中描述的两种配置方案（如前一节所述），我们对模型的编码器和解码器进行训练。模型在8个V100 GPU上运行，初始学习率设为6e−5，采用幂策略（功率0.9）进行20轮周期的调度。优化器选用AdamW（Loshchilov和Hutter 2017），参数设置为epsilon 1e−8、权重衰减1e−2，每个GPU的批量大小为4。

5. 结论

我们针对生成式操控检测与定位的挑战，为人工智能生成内容（AIGC）安全领域构建了可靠的GIM数据库。该数据集通过整合多个生成器提供多样化操控数据，并基于此设计了IMDL方法的基准测试框架，包含两种实验场景。同时创新性地提出基于Transformer的GIMFormer框架。大量实验数据表明，该框架实现了当前最先进的性能表现。