DiffForensics
DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and Localization
Zeqin Yu \(^{∗,1}\) Jiangqun Ni\(^{\dagger,2,3}\) Yuzhen Lin\(^{∗,4}\) Haoyi Deng\(^4\) Bin Li\(^{\dagger,4}\)
1中山大学计算机科学与工程学院
2中山大学网络科技学院
3彭成实验室新网络系
4广东深圳大学智能信息处理重点实验室
摘要
由于篡改图像可能会导致对视觉内容的误解,解决图像伪造检测和定位(IFDL)问题已经引起了公众的严重关注。在这项工作中,我们提出了一个简单的假设,即有效的法医方法应该关注图像的介观性质。在此基础上,提出了一种新的基于IFDL任务扩散模型的两阶段自监督框架,即扩散取证。扩散取证从自监督去噪扩散范式开始,通过冻结预先训练的编码器(例如ADE-20K)来继承一般图像特征的宏观特征,同时鼓励解码器学习图像的微观特征表示,强制整个模型聚焦介观表示。将预训练的模型作为先验,利用定制的边缘提示增强模块(ECEM,Edge Cue Enhancement Module)对IFDL任务进行进一步微调,该模块逐步突出被操纵区域内的边界特征,从而以更好的精度细化篡改区域定位。在几个具有挑战性的数据集上的大量实验表明,与其他先进的方法相比,提出的方法的有效性。所提出的差异取证可以显著提高模型的精确篡改检测和精确篡改定位的能力,同时提高其泛化和鲁棒性。
1.介绍
随着GAN
[24,25]和扩散模型[2,36]等图像编辑工具的快速发展,处理图像已经变得越来越轻松。用户可以很容易地伪造那些不存在或不可能实现的动态图像。在政治、经济和个人隐私方面,这些伪造的图片所带来的风险是显而易见的。因此,识别图像伪造的对策已成为社会保障领域的一个紧迫课题。为了推动图像取证的前沿,在本研究中,我们研究了图像伪造检测和定位(IFDL)任务,特别是改变图像语义的部分修改。一般来说,IFDL任务在图像级(检测)和像素级(定位)上都涉及二进制分类(真实和伪造)。到目前为止,最先进的[8,16,17,22,30,31,42,45,46]通常建立在基于深度学习的语义分割元框架上,由编码器和解码器两个组件组成。编码器提取图像特征,然后由解码器进行处理,以预测分类结果和伪造掩码。尽管在该领域取得了相当大的进展,但目前的SOTA检测器的性能还不足以进行野外部署,这主要是由于它们在泛化、鲁棒性和检测性能方面的不足。
受MesoNet
[1]的启发,我们提出通过关注图像的介观特性来解决IFDL问题。事实上,基于伪影(例如,图像噪声)的微观分析不能应用于社交媒体洗钱的背景下,因为后处理将不可避免地削弱法医痕迹。同样地,在更高的语义层面(即宏观)上,人眼很难区分伪造的图像。这就是为什么我们建议采用一种中间的方法。
为了实现这一目标,我们提出了一种新的两阶段自监督的IFDL任务的扩散取证方法。训练过程从自监督去噪扩散预训练阶段开始,然后是IFDL的多任务微调阶段。在第一阶段,我们冻结了经过分割任务(如ADE20K)[44]预训练的编码器,以保留提取宏观语义特征的能力,同时鼓励解码器使用自监督去噪扩散范式学习与伪造图像相关的微观特征。通过对上述分别关注宏观和微观特征的编码器和编码器的解码器进行集成,得到了能够学习介观特征表示的模型。在第二阶段,我们然后对预先训练好的模型(包括编码器和解码器)进行微调,并在第二阶段对伪造图像进行监督。我们提出了一个边缘提示增强模块(ECEM),并将其集成到多个尺度的解码器中,旨在突出从粗到细的篡改区域的痕迹。大量的实验表明,我们的方法在几个公共数据集上的泛化和鲁棒性性能方面优于几个最先进的竞争对手。
本文的主要贡献总结如下:
- 我们提出了一个结合宏观特征和微观特征的IFDL任务的两阶段学习框架,该框架包括自监督去噪扩散的训练前阶段和多任务微调阶段。据我们所知,这是第一个探索IFDL任务的去噪扩散范式的工作。
- 我们提出了一种新的边缘提示增强模块,该模块集成在多个尺度的解码器中,以增强被篡改的边缘痕迹从粗到细。
- 大量的实验结果表明,我们提出的方法在几个最近出现的数据集上,包括人工操作的图像和人工智能生成的图像上,取得了更好的性能。
2.相关工作
去噪扩散概率模型。
去噪扩散概率模型(DDPM,denoising
diffusion probability
model)主要由两个阶段[19]组成,即逐步增加随机噪声的扩散过程,以及从噪声中学习重构所需数据样本的反向过程。除了广泛应用于生成模型[11],如图像生成[13,33,35,38]、图像生成[10,36]和图像编辑[2,9],其潜在的表示学习能力也应用于其他计算机视觉任务,如图像分割[4,6]和异常检测[41,43]。通过执行噪声估计和重建过程,去噪扩散范式可以有效地学习图像的微观噪声模式。同时,噪声分析是解决IFDL任务的有力解决方案之一。因此,为IFDL任务引入去噪扩散范式是有意义的。
图像伪造品的检测和定位。
大多数现有的方法都是进行像素级分类来识别伪造区域,[8,16,17,30,31,45,46]使用ImageNet预先训练的权重作为其在篡改检测任务中的特征提取编码器的基础。这些方法试图通过探索宏观特征来提高被篡改图像的检测性能。然而,在处理看不见的篡改图像或未知攻击时,它们在通用性和鲁棒性方面退化。最近的方法[5,7,18,21,22,28,40,42]旨在通过自监督学习发现更有效的篡改微特征,以提高IFDL的性能。mannet[42]和SPAN
[22]设计了一个自监督学习任务来学习鲁棒的图像处理轨迹。CAT-Net
[28]对JPEG图像进行双压缩检测,获得具有微观特征权值的编码器和宏观特征权值的并行组合,形成双流网络,从而提高对JPEG图像的拼接检测性能。CA-IFL
[40]和Bi等[5]分别提出了基于小波表示学习策略和设计JPEG压缩操作链跟踪预训练获得微观特征权重能够学习JPEG压缩跟踪,用于提高对JPEG压缩的定位性能。Chen等人[7]和Hu等人[21]通过掩膜重建真实或被篡改的人脸,RealForensics[18]比较了不同模式之间的密集联系。对于这些方法,[7,18,21]将寻求学习具有更好的表示能力的微观特征,并在面对跨数据集测试时提高泛化性能。

然而,从表1中可以看出,在随机初始化解码器权值的同时,在编码器中保留宏特征或微特征权值的训练策略,但是不能在IFDL任务中充分利用这两种特征。
在本文中,我们提出了一种新的编解码器模型的训练方案。对于编码器,我们利用语义分割任务中预先训练的权值,并冻结它们来提取全面的宏观特征。对于解码器,我们引入了一个基于DDPM的范式来捕获复杂的微观特征。结合上述过程,使模型更加关注图像的介观特性。这样的集中有利于后续的微调阶段,使模型能够更精确地用于IFDL任务。
3.提出的方法
在本节中,我们首先介绍了DiffForensics的概述,如图2所示。

在架构方面,我们的方法包括一个编码器\(E_{\phi}\)和一个解码器\(D_{\theta}\),它们分别由两组权重\(\phi\)和\(\theta\)参数化。我们提出的框架的训练过程包括两个阶段:自监督去噪扩散预训练和多任务微调。后续的小节将提供每个阶段的细节。
3.1.自监督去噪扩散预训练
流程线。
在这一阶段,我们的目标是使模型聚焦于图像的介观性质,这可以进一步有效地微调为IFDL任务。
对于编码器,我们利用来自SegFormer[44]的transformer编码器块,并应用来自语义分割任务(如ADE20K)的预先训练的权重\(\phi^*\)。我们冻结了权值,以保留提取宏观语义特征的能力。对于解码器,我们使用了Unet
[37]中常用的解码器块。考虑到DDPM
[19]由两个相反的过程,添加噪声和反向去噪,它可以有效地学习图像的微观噪声表示。在此基础上,我们提出了一种基于去噪扩散的范式作为自我监督的代理任务来优化\(\theta\),而不利用伪造监督。整体训练过程如图2左侧所示,详见算法1。


具体来说,给定一个图像\(x_{0}\in\mathbb{R}^{3\times h\times w}\),以及时间步长t,我们通过扩散过程\(q(x_{t}|x_{t-1})\)添加噪声\(\epsilon\)来破坏\(x_0\),并执行逆过程\(P(\phi^{*},\theta)(x_{t-1}|x_{t})\),将噪声估计为\(\epsilon_{(\phi^{*},\theta)}(x_{t}|x_{0})=D_{\theta}(E_{\phi}(x_{0}),t)\),然后进行去噪。通过这种方式,我们训练整个自动编码器模型\(E_{\phi}^{\star}\circ L_{\theta}\)(即冻结编码器和可训练解码器),使重构误差目标函数最小化如下: \[\ell_{s}=\mathbb{E}_{t\in[1,T],x_{0}\sim q(x_{0}),\epsilon\sim S(\nu,N,\gamma)}[||\epsilon-\epsilon(\phi^{*},\theta)]|^{2}]\] 通过结合上述宏观和微观表示,我们引导整个自动编码器\(E_{\phi}^{\star}\circ L_{\theta}\)集中研究图像的介观特征。
单形噪声。
与普通的DDPM
[19]不同,我们通过在扩散过程中加入单形噪声[43]而不是高斯噪声来破坏\(x_0\)。

如图3所示,这种噪声对标准高斯扰动的潜在好处是直观的:图像的破坏更有结构化(例如,被篡改区域的边缘),去噪过程将能够“修复”它们,从而促进对这种结构化异常的学习。对于单形噪声\(\epsilon\sim S(\nu,N,\gamma)\)的超参数,我们设置了起始频率\(\nu=2^{-6}\),跨度N = 6和衰减γ = 0.8。
3.2.多任务微调
流程线。
经过预训练后,我们在IFDL监督下(即伪造标签和掩码)对预训练的自动编码器(编码器和解码器)进行微调。根据我们的消融研究,多任务学习可以帮助学习更好的代表性特征和良好的性能。因此,我们在解码器的后一个部分中添加多任务头(即检测和定位头),如图2右侧所示。

边缘提示增强模块ECEM。
为了进一步挖掘被篡改区域的细微痕迹,我们引入了一个边缘提示增强模块,以增强在水平和垂直方向上的三个尺度解码器块的输出特征上的边缘线索,如图4所示。

具体来说,设\({\{dk\}}^3_{k=1}\)是每个解码器块的输出特征映射。注意,\(d_k\in{\bf\mathbb{R}}^{b\times c\times h\times
w}\)是一个四维特征向量,我们只在\(\mathbf{d}_{k}\)的最后二维(即高度和宽度)中进行以下过程。首先,我们计算\(\mathbf{d}_{k}\)中相邻行之间的差值,然后取绝对值来保持一致的梯度方向。这个绝对差异被重新分配到当前行,增强了行方向上的边缘提示特征映射。随后,我们将相同的过程应用于增强特征的列,其中计算相邻列之间的差值,并取其绝对值,以确保梯度方向的一致性。这样,我们就得到了\(\mathbf{d}_{k}\)的边缘增强特征,记为\(\mathbf{g}_{k}\)。上述流程可表述为: \[\mathbf{g}_{k}=|\mathbf{V}*|\mathbf{H}*\mathbf{d}_{k}||\]
其中,∗为卷积运算,|·|为abs运算。H = [1,−1]和V =
[1,−1]⊤分别是水平方向和垂直方向上的边缘增强算符。
之后,我们计算区别\(\mathbf{d}_{k}\)和\(\mathbf{g}_{k}\)和采用3×3卷积减少维度,最后使用sigmoid函数规范化线索特征映射0-1,最后样本相同大小的输入图像获得我们的边缘预测概率地图\(f_k^e\),可以标记为: \[f_{k}^{e}=U\left(\sigma\left(F_{c o v}\left({\bf
d}_{k}-{\bf g}_{k}\right)\right)\right).\]
其中Fcov是一个3×3卷积运算,σ是sigmoid归一化,U是一个上采样运算,得到的每个解码器的边缘预测概率映射\(f_k^e\)和边缘标签\(y^e\)用于损失迭代。我们在\(\mathbf{d}_{k}\)的所有三个尺度上都使用了上述的边缘提示增强模块ECEM。
损失函数
该方法有三种监督类型,即局部分割监督\(\mathcal{L}_{seg}\)、检测分类监督\(\mathcal{L}_{clf}\)和边缘线索监督\(\mathcal{L}_{edg}\)。
对于像素级定位分割监督,我们使用加权\(\ell_{w b c e}\)和\(\ell_{dice}\)[32]的组合。 \[\mathcal{L}_{s e
g}\left(x\right)=\lambda_{0}^{s}\ell_{w b c
e}+\left(1-\lambda_{0}^{s}\right)\ell_{d i c e}.\] 其中,\(\lambda_{0}^{s}\)为分割平衡权值,加权分割\(\ell_{w b c e}\)和\(\ell_{dice}\)分别为: \[\ell_{wbce} =
-\frac{1}{N}\sum_{i,j}\left(\lambda_{1}^{s}\cdot y_{i,j}^{s}\cdot\log
f^{s}(x_{i,j}\right)
+\lambda_{2}^{s}\cdot(1-y_{i,j}^{s})\cdot\log{(1-f^{s}(x_{i,j}))}).\]
\[\ell_{dice} =1-\frac{2\sum_{i,j}f^s(x_{i,j})\cdot y_{i,j}^s}{\sum_{i,j}(f^s(x_{i,j}))^2+\sum_{i,j}(y_{i,j}^s)^2}.\]
其中\(y_{i,j}^{s}\in\{0,1\}\)是像素级边界标签,代表\(\{i.j\}\)处的像素是否被篡改。\(\lambda_{1}^{s}\)和\(\lambda_{2}^{s}\)分别用来平衡篡改像素和真实像素的权重,这鼓励网络更关注那些困难像素样本。
对于边缘监督,我们使用同样的dice损失作为上面的分割监督,但是这里,为了逐步标准化从粗粒度到细粒度的篡改位置边缘,我们设计的多尺度监督权重,即概率图\(\{f_{k}^{e}\}_{k=1}^{3}\),旨在给予细粒度的边缘监督更大的权重,在标准化粗粒度边缘监督的同时,使\(f_{k}^{e}\)能够更好地细化一阶段细粒度边缘监督\(f_{k}^{e-1}\)。 \[\mathcal{L}_{e d
g}\left(x\right)=\sum_{k=1}^{3}\frac{1}{2^{k-1}}\ell_{d i c
e}\left(f_{k}^{e},y^{e}\right).\]
对于图像级的检测和分类监督,为了缓解图像级数据的正负样本的不平衡,我们使用了加权\(\ell_{wbce}\)。 \[\mathcal{L}_{c l f}(x)=-(\lambda_{0}^{c}\cdot\
y^{c}\cdot\log
f^{c}(x)+\lambda_{1}^{c}\cdot(1-y^{c})\cdot\mathrm{log}(1-f^{c}(x))).\]
其中,\(y^{c}\)为图像级二值标签,\(f^{c}(x)\)为分类预测结果。由于图像水平上的正负样本的数量容易测量,我们自动将篡改权重设为\(\lambda_{0}^{c}~=\lfloor \frac{10*N u m_{F}}{N u
m_{F+R}}\rfloor / 10\),并设置真实权重设为\(\lambda_{1}^{c}~=\lfloor \frac{10*N u m_{R}}{N u
m_{F+R}}\rfloor / 10\),\(N u
m_{F}\)和\(N u
m_{R}\)分别表示伪造图像和真实图像的数量。
最后,我们将总损失\(\mathcal{L}\)定义为上述三个损失的加权组合,公式为:
\[\mathcal{L}=\alpha\cdot(\mathcal{L}_{s e
g}+\mathcal{L}_{e d g})+\beta\cdot\mathcal{L}_{c l f}.\]
其中\(\alpha,\beta\in[0,1]\)。
4.实验
4.1.实验设置
数据集。
考虑到可用性和通用性,我们选择了一些具有挑战性的基准数据集来评估我们的方法,其中CASIAv2.0
[14], Fantasitic Reality [26], CASIAv1+ [8], Columbia [20], NIST16
[15],IMD2020 [34], DSO-1 [12] 和Korus [27]
,这些数据集使用传统的图像编辑工具篡改,而AutoSplicing[23]和OpenForensics[29]使用深度生成模型(DGMs,deep
generative
models)篡改。这些数据集的详细信息见附录,不同阶段的配置细节如下:
(1)去噪扩散预训练:我们将CASIAv2.0
[14] 和 Fantasitic-Reality
[26]的所有数据(伪造和真实)混合进行自我监督预训练,在此阶段不使用伪造监督。
(2)多任务微调:我们还利用了CASIAv2.0
[14] 和 Fantasitic-Reality [26]数据集及其伪造监督。请注意,我们只对
Fantasitic-Reality
[26]数据集使用伪造图像,以平衡伪造的数量和真实像素的整体。
(3)评估:为了验证泛化性能,我们在其他图像编辑伪造数据集上评估了我们的方法,即
CASIAv1+ [8], Columbia [20], NIST16 [15], IMD2020 [34], DSO-1 [12] 和
Korus
[27]数据集。我们还使用了两个由近期高级深度生成模型DGMs建立的数据集,即AutoSplicing[23]和OpenForensics[29]。
实施细节。
我们使用4个NVIDIA
TeslaA100GPUs(80GB内存)在PyTorch深度学习框架上进行实验。我们为这两个阶段执行以下参数配置:
(1)去噪扩散预训练:在训练前阶段,我们将输入图像调整到512×512,并应用了AdamW优化器。我们将训练超参数设置为10−4,扩散步长T设置为1000,批大小设置为16,epoch设置为100。
(2)多任务微调:在微调阶段,我们还将输入图像调整到512×512,并应用了AdamW优化器。我们将学习率的训练超参数设置为10−4,批大小为32,epoch为50,固定时间嵌入为t=5(细节可在消融研究中看到)。为了平衡伪造检测和定位的性能,我们将篡改定位\(\mathcal{L}_{s e g}\)和边缘监督\(\mathcal{L}_{e d g}\)的权重设置为α =
0.8,其中\(\mathcal{L}_{s e
g}\)中的λ0、λ1和λ2分别为0.1、2和0.5。篡改检测的监督\(\mathcal{L}_{c l
f}\)的权重β设置为0.1,\(\lambda_{0}^{c}\)和\(\lambda_{1}^{c}\)分别为0.7和0.3。
评估指标。
对于伪造定位,我们报告了像素级F1和AUC(接收机工作特征曲线的曲线下面积)。对于伪造检测,除了图像级ACC和AUC外,我们还进一步报告了EER(等错误率)来评估误报和遗漏检测性能。对于伪造检测和本地化,默认阈值均为0.5,除非另有指定。
4.2.与最先进的方法的比较
为了进行公平的比较,我们关注具有可用代码或预训练模型的方法,如下。
(1)可提供预先训练过的模型:
为了避免偏差,我们只包括在不同于测试数据集的数据集上训练的方法。ManTra-Net
[42]在100万个私有数据集上进行了预训练。MVSS-Net
[8]在CASIA2数据集上进行了预训练。对于这些方法,我们直接使用它们的预先训练过的模型来进行评估。
(2)可用代码:
H-LSTM [3],HP-FCN
[30],GSRNet [45]、SPAN [22],SATL-Net [46]、CAT-Net [28]、PSCCNet
[31]和HiFi-Net
[17]。对于这些方法,我们使用与我们相同的实验设置来重新训练它们,并使用最优的超参数配置。
定位性能评估。
表2显示了伪造的定位性能。

我们观察到,我们的方法在所有数据集上都取得了优越的性能。值得一提的是,专门为DGM伪造检测和定位而设计的HiFi-Net在DGM伪造数据集上取得了最好的F1分。总的来说,我们提出的方法达到了最佳的平均性能,这证明了其有效性。
检测性能评价。
在[8,31]之后,我们使用具有真实图像和篡改图像的数据集进行了图像级分类的评估。表3显示了伪造检测的性能。

我们观察到,我们的方法在所有数据集上也取得了优越的性能。总的来说,该方法获得了最佳的平均AUC、EER和第二好的ACC,这也证明了其有效性。需要注意的是,对于具有极不平衡的数据集,如IMD2020[34](真实: 414,篡改: 2010),与阈值相关的度量不能评估整体性能。虽然我们的方法在阈值为0.5时没有显示出更好的ACC评分,但它在AUC评分方面取得了更好的整体性能,在EER方面取得了更好的平衡错误率。
鲁棒性。
我们进一步评估了在社交媒体洗钱中面对常见的图像扰动时,即JPEG压缩和高斯噪声的鲁棒性。我们报告了F1和AUC评分的平均值作为指标。

可以看出,该方法在伪造定位和伪造检测任务中都表现出更好的鲁棒性性能。特别是在伪造定位方面,通过对宏特征和微特征的双重支持,取得了显著的性能优势。
4.3.消融研究
本节分析了在提出的两阶段训练阶段的几个关键组成部分的有效性。
自监督去噪扩散预训练。
在这一部分中,我们分析了扩散噪声和模型权重对去噪扩散预训练的影响。如表4所示,我们验证了在不同权重组合下的扩散噪声选择的性能。

首先,第1行不执行DDPM预训练的基线网络,第2行和第3行使用高斯噪声进行DDPM预训练,第4行和第5行使用单形噪声进行DDPM预训练。比较第2行和第3行,比较第5行,可以看出单纯形噪声预训练在人工篡改和综合篡改数据集上都取得了更好的效果,说明单纯形噪声对微篡改的影响更大。对痕迹的感知学习更为明显。加载的权重也是本文的重点。通过比较第1、3、5行,我们可以看出本文提出的编码器宏特征提取与解码器微观特征提取相结合的策略可以有效地提高IFDL任务的性能。通过比较第2行和第4行与其他三行,可以看到编码器的DDPM训练可能会导致原始宏观特征的灾难性遗忘。
此外,我们在图7中展示了使用t-SNE
[39]可视化的学习特征的嵌入空间。

我们可以看到,在最终的方案中,噪声选择和编码解码器权重选择的组合可以有效地区分真实样本和被篡改样本的特征分布。综合结果表明,本文提出的训练方法将宏观特征与监督权值和单纯形噪声DDPM预训练得到的微观特征相结合,获得了最佳的IFDL性能。
多任务微调。
在此,我们分析了损失函数和时间嵌入\(t_f\)的影响。
(1)损失函数的组合:
对于\(\mathcal{L}_{s e g}\)和\(\mathcal{L}_{c l f}\),\(\ell_{s1}\)和\(\ell_{c1}\)代表加权的\(\ell_{bce}\),\(\ell_{s2}\)和\(\ell_{c2}\)代表未加权的\(\ell_{bce}\)。
对于\(\mathcal{L}_{s e
g}\)中的每个参数
(i) \(\ell_{e1}\):将具有ECEM的边缘监督添加到最后的解码器输出中,其权重为1。
(ii)
\(\ell_{e2}\):使用ECEM对所有解码器输出添加边缘监控,但权重均为1。
(iii)
\(\ell_{e3}\):本文提出的ECEM多尺度加权边缘监督为粗粒度边缘监督设置了较小的权重,为细粒度边缘监督设置了较大的权重。

通过比较表5的第一行和最后一行,可以看出,多权值、多尺度边缘提示增强了监督损失,不仅大大提高了篡改定位任务,而且提高了篡改检测任务的性能。通过对第二、第三、最后行的比较,本文针对不同粒度的尺度边缘设计了不同的加权策略,可以更好地增强不同尺度篡改区域的痕迹。最后,通过比较第4行、第5行和最后一行,分别对\(\mathcal{L}_{s e g}\)和\(\mathcal{L}_{c l
f}\)进行加权,可以在IFDL中实现一定的性能提高。
我们还在图6中描述了一些定性的结果。

从左到右,可以观察到,在多尺度边缘提示增强模块的监督下,被篡改区域的位置和轮廓更精确地定位。同时,该方法还能有效地降低真实图像的误报风险。
(2)固定时间嵌入时间\(t_f\):
我们使用T∈[0,1000]对扩散预训练进行去噪,并在多任务微调过程中采用固定时间步长\(t_f\)进行训练和测试。为了优化\(t_f\)以获得更好的特征表示,我们在t∈[0,1000]处进行了网格搜索,结果汇总如表6所示。

我们观察到,较小的t有利于学习篡改痕迹,因此,我们使用\(t_f=5\)作为时间嵌入参数。
5.结论
在本研究中,我们提出了一种新的两阶段自监督结构的方法,用于图像伪造检测和定位任务。在第一个去噪扩散预训练阶段,对对分割任务进行预训练的编码器进行冻结,而解码器采用自监督去噪扩散范式进行训练。它旨在鼓励模型集中于图像的介观性质。经过预训练后,我们使用监督多任务框架对预训练的模型进行微调,并在解码器中引入边缘提示增强模块,以增强篡改痕迹从粗到细。大量的实验结果表明,我们提出的方法在检测和定位性能方面,在几个新兴的数据集(包括人工操作和人工智能生成的图像)上,比目前最先进的竞争对手取得了更好的性能。
致谢
国家自然科学基金资助项目(项目No.U23B2022、U22A2030、U22B2047)、广东省基础应用基础研究重大项目(Grand
No.2023B030300001010)、广东省学生科技创新培养专项项目(pdjh2022b0444)。