Pre-Training-Free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning
约 1730 字大约 6 分钟
2026-01-09
Pre-Training-Free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning
Jizhe Zhou1,4, Xiaochen Ma1,4, Xia Du2,4, Ahmed Y.Alhammadi3,4, Wentao Feng1,4*
1 四川大学计算机学院
2 Xiamen University of Technology计算机与信息工程学院
3 Strategy Affairs Office, Mohamed Bin Zayed University for Humanities
4 教育部机器学习与工业智能工程研究中心
摘要
深度图像操纵定位(IML)模型存在训练数据不足的问题,因此高度依赖预训练。我们认为对比学习更适合解决 IML 的数据不足问题。构建互斥的正样本与负样本是对比学习的前提条件。然而在 IML 中应用对比学习时,会遇到三类图像块:篡改图像块、真实图像块和轮廓图像块。篡改图像块与真实图像块天然互斥,但包含篡改与真实像素的轮廓图像块则与二者非互斥。简单地忽略这些轮廓图像块会导致性能急剧下降,因为轮廓图像块对学习结果至关重要。为此,我们提出非互斥对比学习(NCL)框架,旨在解决传统对比学习的上述困境。 NCL ,为应对非互斥性,我们首先构建具有双分支的枢轴结构,在训练过程中持续切换轮廓图像块在正样本与负样本间的角色。随后设计了枢轴一致性损失函数,避免角色切换过程导致的空间破坏。通过这种方式, NCL 既继承了自监督学习解决数据不足的优势,又保持了高精度的操纵定位能力。大量实验验证表明,我们的 NCL 无需任何预训练即可在所有五个基准测试中达到顶尖性能,并且对未见过的真实样本具有更强的鲁棒性。
CODE:https://github.com/Knightzjz/NCL-IML
引言
因此,我们提出了非互斥对比学习(NCL)框架。每个轮廓块都具有部分篡改和部分真实特征。这意味着,若仅统计其篡改部分,该轮廓块可视为对比学习中的硬阳性样本;反之,若仅统计其真实部分,则该对照块可同时被视为硬阴性样本。换言之,轮廓块可根据其部分信息被转换为硬阳性或硬阴性样本。基于这种角色转换特性,我们在主干网络浅层构建了双分支枢纽结构,用于从轮廓块中分别提取正负样本。枢纽名称表明其通过切换轮廓块在硬阳性与硬阴性角色间的转换来构建对比样本对。由此,篡改样本(阳性)、真实样本(阴性)与轮廓块之间的三元非互斥对比关系,被解耦为三个二元互斥对比对:{阳性,阴性}、{阳性,硬阴性}、{阴性,硬阳性}。 NCL 损失由这三个成对对比损失的总和构成。此外,枢纽结构还会破坏轮廓块间的空间相关性。因此,在解码器端,我们设计了带有辅助分类器的枢轴一致性损失函数,以确保编码器深层能够捕获并保持像素级的空间关系。
我们从零开始训练基于 NCL 的方法,无需额外数据集或预训练阶段。与基于预训练的方法相比,仅使用总训练数据的5%-10%,我们的模型在所有五个公开 IML 基准测试中均优于现有预训练方法。尽管如此,深度卷积神经网络(CNN)在如此小规模的公开基准上容易过拟合。因此,我们进一步采用非同质化的训练和测试数据集来检验模型的泛化能力。实验结果表明,NCLendows显著提升了 IML 模型的定位精度与鲁棒性。最后但同样重要的是,与对比学习类似, NCL 也具备插件优势。无论采用何种主干架构, NCL 均能良好运行。
综上所述,我们的主要贡献可归纳为四点:
- 无需额外数据。据我们所知,本研究是首个将对比学习引入 IML 领域,以解决训练数据不足及预训练缺陷问题的开创性工作。
- 非互斥对比。据我们所知,本研究也是首个通过对比学习处理非互斥三元关系的研究。我们的非互斥对比学习(NCL)框架还可应用于语义分割或精细目标检测等其他任务。
- 基准测试顶尖表现。本方法仅需更少且质量较低的训练数据,却在所有五个公开基准测试中均取得前沿性能及顶级模型泛化能力。
- 插件优势。本方法可在CNN和Transformer风格的骨干网络下运行,且骨干网络选择不会破坏 NCL 的完整性。
方法
编码器-解码器架构
我们采用DeepLabV3+[4]作为 IML 模型的基础编码器-解码器架构,因其已被众多其他 IML 模型用作基准模型[13,9]。需注意,基础模式选择或主干网络选择将影响本 NCL 的效能。因此,图2中的编码器主干采用ResNet101[15]模块,最后几个模块使用空洞卷积。同样应用了空洞空间金字塔池化(ASPP)模块。随后,尺寸为(64×64)的编码特征被传递至解码器。解码器采用两个上采样模块,编码器输出经过4倍上采样。简言之,本基础编码器-解码器采用与DeepLabV3+模型相同的网络结构和训练设置。

图2。(a):本 NCL 框架的总体网络结构。(b):Pivot网络的详细结构。
绿色箭头表示非互斥对比信息通过Pivot网络的传导路径,进而生成非互斥对比学习(NCL)损失;赭色箭头则指示生成Pivot一致性(PC)损失的路径。首个编码器模块输出的特征图会根据真实标签进行逐点分类,分为篡改特征(红色)、真实特征(蓝色)和轮廓特征(紫色)。黄色矩形框内的伪造掩码为不同尺寸的真实标签,特征尺寸标注于括号内。
