SUMI-IFL
SUMI-IFL: An Information-Theoretic Framework for Image Forgery Localization with Sufficiency and Minimality Constraints
Ziqi Sheng\(^1\), Wei Lu1\(^*\), Xiangyang Luo\(^{2*}\), Jiantao Zhou\(^3\), Xiaochun Cao\(^4\)
1中山大学广东省信息安全技术重点实验室教育部信息技术重点实验室计算机科学与工程学院
2数学工程和高级计算的国家重点实验室
3澳门大学计算机与信息科学系智能城市物联网国家重点实验室
4中山大学深圳校区网络科技学院
摘要
图像伪造定位(IFL)是防止被篡改的图像误用和保护社会安全的关键技术。然而,由于图像篡改技术的快速发展,提取更全面、更准确的伪造线索仍然是一个紧迫的挑战。为了解决这些挑战,我们引入了一个新的信息理论的IFL框架,名为SUMI-IFL,它对伪造特征表示施加了足够的视图和最小化视图约束。首先,在互信息的理论分析基础上,在特征提取网络上施加充分视图约束,确保潜在伪造特征包含全面的伪造线索。考虑到仅从单一方面获得的伪造线索可能是不完整的,我们通过从多个角度整合多个单独的伪造特征来构建潜在的伪造特征。其次,基于信息瓶颈,对特征推理网络施加最小视图约束,以实现精确、简洁的伪造特征表示,以对抗任务相关特征的干扰。大量的实验表明,SUMI-IFL的性能优于现有的最先进的方法,不仅在数据集中的比较上,而且在跨数据集的比较上。
1. 引言
虽然潜在的伪造特性能够捕获足够的伪造痕迹,但不可避免地会引入一些与任务无关的信息。信息瓶颈(IB)理论为理解信息处理中压缩和准确性之间的最佳权衡提供了理论基础(Tishby,Pereira和Bialek 2000)。基于IB理论,我们推导了最小视图约束,以确保最终特征简洁,在保留与任务相关的信息时最小化与任务相关的信息。特别地,我们将离散的地面真值掩模映射到一个连续的伪造特征空间,以指导伪造特征消除与任务无关的信息。利用充分视图约束和最小视图约束的好处,SUMI-IFL在内数据集和跨数据集实验上获得了与其他先进技术相比具有竞争力的性能。综上所述,我们的贡献如下:
- 我们提出了一种创新的信息理论IFL框架,名为SUMI-IFL,它将充分性视图和最小性视图约束应用于伪造特征表示,确保框架学习全面的伪造线索,并对抗任务不相关特征的干扰,并得到严格的理论分析的支持。
- 在特征提取网络中应用充分视图约束,保证潜在的伪造特征包含全面的伪造线索,并由几个单独的伪造特征构造。
- 在特征推理网络中应用最小视图约束,通过减少与任务无关的信息,获得简洁的伪造特征,从而帮助模型抵抗与任务无关的特征的干扰。
2.相关工作
3.方法
3.1概括
如图2所示,在一个标准的IFL任务中,我们将\(h_{\theta}=(r\circ e)\)表示为一个参数为\(\theta\)的深度神经网络。
这里,\(e:\mathbb{R}^{d
x}\to\mathbb{R}^{d f}\)将输入图像X映射到潜在伪造特征\(\mathcal F\),\(r:\mathbb{R}^{d f}\to\mathbb{R}^{d
z}\)进一步将潜在特征F映射到最终预测特征Z,因此e是一个特征提取网络,\(\mathcal F =
e(X)\),r是一个特征推理网络,\(r({\mathcal F}) =
r(e(X))=Z\)。此外,一组来自不同骨干的个体特征记为\(\mathcal F =
e(X)=\{f_1,f_2,\dots,f_n\}\),n表示特征提取网络中的骨干数量。每个特征都有自己的特征图大小和通道尺寸,记为\(f_{i}\in\mathbb{R}^{C\times H\times
W}\),其中C、H和W分别表示通道数、特征高度和宽度,\(i=1\dots
n\)。
对特征提取网络e应用了充分视图约束,以保证特征表示的全面性。具体地说,我们通过最大化\(\mathcal
F\)和地真标签之间的互信息来确保潜在伪造特征\(\mathcal
F\)的全面性。此外,我们从不同的角度揭示了独立的伪造特征\(f_i\),以确保被篡改图像中隐藏的任何伪造痕迹不会被遗漏。
同时,对特征推理网络r应用了最小视角约束,保证了简洁的伪造特征Z在保留任务相关信息的同时丢弃与任务无关的信息。我们从信息瓶颈理论中推导出该约束,得到了该约束的形式表示。
3.2充分视图约束
通过最大化\(\mathcal F\)和地面真标签之间的互信息,构造了充分视图约束\(\mathcal L _{SU}\)。在本节中,我们将提供\(\mathcal L _{SU}\)的关键推导和特征提取网络的详细结构。
...
3.3最小视图约束
从信息瓶颈理论推导出最小视图约束\(\mathcal L _{MI}\),以确保简洁的伪造特征在保留与任务相关的信息的同时有效地丢弃与任务无关的信息。在本节中,我们提供了最小视图约束\(\mathcal L _{MI}\)的关键推导和推理网络的详细结构。
...
3.4总体目标
总损失函数$L \(包括四个部分:局部损失\)L {loc}\(、充分视图约束\)L {SU}\(、最小视图约束\)L {MI}\(和辅助掩模损失\)L {auc}\(:\)\(\mathcal {L}=\mathcal {L}_{l o c}+\lambda_{1}\times\mathcal {L}_{S U}+\lambda_{2}\times\mathcal {L}_{M I}+\lambda_{3}\times \mathcal {L}_{a u x}\)$ 其中,λ1 = 0.1、λ2 = 1和λ3 = 0.1。
4实验
4.1设置
数据集
表1给出了在我们的方法中使用的训练和测试数据集。
我们首先对四个公共数据集的训练部分进行预训练:DEFACTO-12 (Mahfoudi
et al. 2019)(real/tampered), SSRGFD (Yin et al. 2023)(real/tampered),
CASIAv2 (Dong, Wang, and Tan 2013) (real/tampered), and Spliced COCO
(Kwon et al. 2022b) created by CAT-Net (Kwon et al. 2022b) based on the
COCO 2017 dataset (Lin et al.
2014)。然后,我们在上述数据集的测试部分上测试我们的模型,除了拼接COCO。
为了进一步评估SUMIIFL的泛化能力,我们还比较了另外两个数据集上的定位性能:CIMD
(Zhang, Li, and Chang 2024) (real/tampered) and NIST16 (Guan et al.
2019)
(real/tampered)。所有伪造的图像都被裁剪成256个×256个补丁。为了评估所提出的SUMI-IFL的定位性能,我们遵循之前的方法(Rao
et al. 2022),我们采用f1评分和曲线下面积(AUC)作为评价度量。
实施细节
所提出的SUMI-IFL通过PyTorch实现,所有实验都在NVIDIA
GTX GeForce A100
GPU平台上进行。采用AdamW优化器进行12批处理100次训练,余弦退火调度器设置的初始学习速率为5e-4,权重衰减为0.005。
4.2与最先进的方法进行比较
我们在三种设置下将SUMI-IFL与其他最先进的方法进行了比较: 1)域内数据集比较:在复合伪造数据集上进行训练和在综合测试数据集上进行评估。2)域外数据集比较:直接将预先训练好的模型应用于一个看不见的数据集来评估泛化。3)鲁棒性评价:对测试数据集应用JPEG压缩和高斯模糊来评价鲁棒性。我们用七种最先进的方法来评估其性能:MMFusion (Triaridis and Mezaris 2024), EITL-Net (Guo, Zhu, and Cao 2024), HiFi-IFDL(Guo et al. 2023) , WSCL (Zhai et al. 2023), IF-OSN (Wu et al. 2022), MVSS-Net (Dong et al. 2022), PSCC-Net (Liu et al. 2022)。
域内数据集比较
表2报告了在F1评分和AUC评分方面的最优和次优定位。
我们可以观察到,SUMI-IFL在事实上、SSRGFD和CASIAv2数据集上取得了最高的性能。特别是,SUMI-IFL在立体伪造数据集SSRGFD上获得了0.7995的F1分,并且优于次优方法15.7%。这证实了最小性视图约束可以帮助框架捕获准确的伪造痕迹,即使在SSRGFD数据集中存在的重构伪影的干扰。在其他两个数据集中,SUMI-IFL在F1分数和AUC分数方面也都优于其他方法,证明了它获得优越的伪造特征表示的能力。
域外数据集比较
为了进一步证明SUMI-IFL的通用化性,我们使用了两个与训练数据集分布完全不同的测试数据集。表3报告了跨数据集的F1评分和AUC评分方面的性能,SUMI-IFL在测试数据集中始终排名前两名。
CIMD是一个新发布的数据集,具有相对较小的篡改区域,这对IFL方法是一个挑战。在这个数据集中,所有IFL方法的定位性能都下降了。然而,SUMI-IFL可以学习全面的伪造线索,并优于其他IFL方法。在NIST16数据集中,被篡改图像的比例更高。虽然所有方法都表现出较强的性能,但SUMI-IFL的F1分数比第二优方法高出9.7%。跨数据集比较的性能证明了SUMI-IFL的良好泛化。
4.3鲁棒性评价
我们对事实上的-12数据集的原始图像应用不同的图像失真方法,并评估我们的SUMI-IFL的鲁棒性。失真类型包括1)具有固定质量因子的JPEG压缩和2)具有固定核大小的高斯模糊。我们将预训练模型的操作定位性能(AUC分数)与扭曲数据集上的其他方法进行了比较,结果如图5所示。
如图5(a)所示,在JPEG压缩条件下,SUMI-IFL的性能下降幅度低于其他基线,表明该方法具有良好的JPEG鲁棒性。如图5(b)所示,SUMI-IFL也能抵抗高斯模糊,表明该方法对低质量图像具有较强的鲁棒性。
4.4消融研究
在本节中,我们研究了去除充分视图约束LSU、最小视图约束LM I和辅助掩模损失Laux的影响。我们在前面提到的复合数据集上训练模型,并在事实上的-12和SSRGFD数据集的测试部分上对它们进行测试。
没有任何一种损失都会导致模型性能的显著下降。在定量上,LSU和LM I对我们的方法有主要贡献,导致F1比实际的-12和SSRGFD分别增加了9.8%和5.1%。没有Laux,F1得分在事实上和SSRGFD上分别下降了2.5%和9.8%。这一经验证据表明,合并所提出的损失可以提取更全面和更少的与任务无关的伪造特征,促进后续的定位性能。
4.5可视化结果
如图6所示,我们提供了各种方法的预测伪造掩模。
可以观察到,有些方法错误地将某些图像对象识别为篡改区域,例如在第一列的第三行,MMFusion错误地将图像的右下区域识别为篡改区域。可视化结果的比较表明,SUMI-IFL不仅可以更准确地定位被篡改的区域,而且可以产生更清晰的区域。这是由于充分视图约束LSU和最小视图约束LM I,使模型能够在获得全面的任务相关特征表示的同时,有效地抵抗了任务不相关特征的干扰。
5. 结论
在本文中,我们提出了一个新的信息理论的IFL框架,SUMI-IFL,它利用充分性视图约束和最小性视图约束来约束伪造特征的表示。一方面,将充分性视图约束应用于特征提取网络中,保证了潜在的伪造特征能够捕获全面的任务相关信息。特征提取网络由三个注意骨干组成,从不同的角度发现伪造线索。另一方面,在特征推理网络中采用了最小视图约束,保证了简洁的伪造特征以消除多余的信息,从而帮助模型抵抗冗余特征的干扰。基于互信息最大化理论和信息理论瓶颈理论,我们分别对这两种约束条件进行了详细的推导。在几个基准测试中获得的大量实验结果证明了SUMI-IFL的优越性能,表明这两个关键约束有助于更全面和准确的特征表示。