UGEE-Net: Uncertainty-guided and edge-enhanced network for image splicing localization

Qixian Hao a,1 , Ruyong Ren a,1 , Shaozhang Niu a,b,* , Kai Wang a , Maosen Wang b , Jiwei Zhang a

1北京邮电大学,计算机学院,智能电信软件与多媒体的北京重点实验室,Beijing 100876, China
2东南数字经济发展研究所,衢州324000

摘要

​  图像拼接是一种普遍的图像篡改方法,它严重破坏了图像的真实性。现有的图像拼接定位(ISL)方法在处理难以察觉的篡改和多个篡改区域时,面临着有限的精度和性能不佳等挑战。我们为ISL引入了一个不确定性引导和边缘增强网络(UGEE-Net)来解决这些问题。UGEE-Net包括两个核心任务:不确定性引导和边缘增强。我们使用贝叶斯学习来建模被篡改区域的不确定性地图,将模型的焦点指向具有挑战性的像素。同时,我们采用频域辅助边缘增强策略,将局部特征注入全局轮廓信息和细粒度局部细节。这些机制并行工作,协同提高性能。此外,我们还引入了一种跨层融合和传播机制,有效地利用上下文信息进行跨层特征集成,并利用通道级相关性进行跨层特征传播,逐步增强了定位特征的细节。实验结果证实了UGEE-Net在检测精度、鲁棒性和泛化能力方面的优势。此外,为了满足图像取证中对高质量数据集日益增长的需求,我们提出了HTSI12K数据集,该数据集包括12000张拼接图像,具有难以察觉的篡改痕迹和不同的类别,使其适合于现实世界的辅助模型训练。

1.介绍

​  虽然主流的ISL方法已经取得了实质性的进展,但持续存在的挑战阻碍了进一步的发展。当无缝地集成到图像背景中时,这些方法难以区分被操纵的元素和真实的元素,特别是在有多个被篡改区域的复杂场景中,可能会导致潜在的问题,如错误的判断,如图1所示。

image-20250112222447920

​  我们将这一现象归因于两个主要因素:一是当前主流方法对篡改痕迹的过度依赖;图像均匀化技术可以有效地消除RGB图像及其噪声视图中被篡改区域和未被篡改区域之间的属性差异和局部异常。例如,在噪声辅助方法中,在噪声分布中引入没有额外的干扰轨迹的噪声视图可能会产生不利的干扰,误导模型做出错误的判断。其次,单任务设计往往会导致过度自信,导致过度分割或分割不足。在传统的边缘辅助方法中,如当后处理方法(去噪、滤波、局部平滑)巧妙地隐藏边缘轨迹时,标准的边缘提取方法无法捕获完整的边缘信息,从而采用单一策略确定模型的次优定位结果。

​  为了解决这些挑战,我们引入了多任务引导的概念,并提出了一种基于不确定性引导和边缘增强的新型ISL网络。首先,不确定性引导涉及概率估计,为模型提供了一个被篡改区域的置信度量。在篡改不那么明显的情况下,不确定性指导表明了模型对这些区域的不确定性,提高了对微妙操作的敏感性。
​  具体来说,在特征选择方面,UGEE-Net侧重于空间域中高级特征的融合和交互,平衡全局语义和局部细节,避免了高分辨率特征带来的隔离效应。在不确定性推断中,UGEE-Net将特征转换为拉普拉斯分布形式,为每个像素提供一个概率分布,从而生成一个不确定性图。与传统方法中常用的高斯分布相比,拉普拉斯分布更适合于描述像素的后验分布,特别是在处理边缘和不确定性问题时。

​  其次,边缘引导强调图像内的边缘信息,突出显示被篡改区域的边缘和结构。为了解决常见的后处理操作和难以察觉的篡改痕迹,与其他边缘辅助方法不同,我们考虑在频域特征中提取边缘信息。| ​  具体来说,在频域特征学习方面,我们采用八度卷积自动将中高级特征转换为低频和高频,捕获频域内难以察觉的篡改痕迹。与传统的频域辅助方法不同,我们充分利用了高频和低频信息,避免了信息丢失,这是一个具有灵活性的在线可学习过程。在边缘信息提取方面,我们结合扩张卷积,在多个尺度上提取被篡改区域的边缘映射。该边缘图为后续的定位特征提供了局部细节和全局轮廓信息,从而得到更全面和精细的定位结果。

​  此外,考虑到不确定性引导和边缘引导作为补充机制,我们的设计旨在利用它们各自的优势。鉴于对不确定引导和边缘增强特征的独特关注,我们提出了一种不确定-边缘融合机制来有效增强不确定引导和边缘增强特征,并整合两者有价值的线索。我们重点探索三个方面:位置对齐,通道重新校准,和特征之间的相互作用。

​  最后,为了有效地融合不同层次的特征,提高深度学习模型的学习性能,我们提出了跨层次的特征融合和传播机制。跨层次的特征融合是指通过引入多尺度的通道注意机制来融合不同层次的特征,以提高模型的感知能力。跨层次特征传播通过信道级相关机制,选择性地增强了先前定位特征与相邻级特征之间的交互作用,进一步增强了特征表示能力。UGEE-Net提供了一个ISL的解决方案的关键挑战,特别是在处理难以察觉的篡改痕迹和复杂场景时。

​  此外,由于缺乏专门针对图像拼接而定制的高质量数据集,因此提出了一个挑战,因为现有的拼接图像数据集往往具有明显的篡改痕迹。在这样的数据集上训练的模型可能无法达到其最佳的性能水平。为了解决这个问题,我们引入了一个新的数据集,名为“12,000个带有隐藏痕迹的拼接图像”(HTSI12K)。首先,利用深度学习技术授权的智能图像编辑软件生成HTSI12K图像,导致篡改图像的篡改痕迹,检测更加复杂和具有挑战性。其次,我们保留了原始图像的纹理细节和边缘信息。这种保存增加了像素级定位的难度,并给ISL带来了新的挑战。最后,HTSI12K包括各种类别。这种多样性使其适用于图像取证、目标检测、语义分割、医学疾病检测等各个领域。

​  本文的主要贡献可以总结如下:

  1. 我们介绍了UGEE-Net,一种为ISL设计的新网络。在UGEE-Net中,我们结合了两个关键的机制:不确定性引导和边缘增强。这些机制协同工作,显著提高了检测性能。为了进一步增强UGEE-Net的能力,我们实现了两个关键机制:跨级融合和传播,以及不确定性-边缘融合。这些机制有助于有效地提取和放大嵌入在多层次和双引导特征中的有价值的信息。
    2. 我们介绍了HTSI12K数据集,这是一个高质量的拼接图像数据集,可以作为推进该领域研究的基础资源。由12,000张不同类别的图像组成,每个被篡改的图像都是精心制作的,具有难以察觉的篡改痕迹。建议的数据集可以在https://github.com/QixianHao/-HTSI12K-dataset上公开获得。
    3. 实验结果表明,UGEE-Net在定位性能、鲁棒性和泛化能力方面比主流方法具有显著的优势。

​  本文的其余部分组织如下:第2节提供了相关工作的详细描述。第3节详细阐述了拟议的UGEE-Net。第4节详细介绍了所提出的HTSI12K数据集。第5节报告并分析了实验结果。第6节总结了本研究。

2.相关工作

2.1.图像剪接定位

2.2.贝叶斯神经网络

2.3.金字塔视觉转换器版本2(PVTv2)

​  PVTv2(Wang et al.,2022b)集成了金字塔结构和视觉变形器的关键概念。利用金字塔结构,PVTv2可以提取不同层次和尺度的特征。同时,通过引入视觉转换器的自注意机制,该模型可以动态地聚焦于图像内的不同区域。PVTv2是对PVT v1的改进,结合了三种设计增强来提高性能:线性复杂度注意层、重叠的图像补丁嵌入和卷积前馈网络。通过这些改进,PVTv2将PVT v1的计算复杂度降低到线性水平,从而在图像分类、目标检测和语义分割等基本视觉任务方面取得了重大进展。

3.提出的框架

3.1.整体架构

​  与Fan等人(2021年)对狩猎的描述类似,我们将UGEE-Net的每个级别的操作分为三个阶段:提取阶段、增强阶段和决策阶段。UGEE-Net的整体架构如图2所示。

image-20250112223051836

​  具体来说,在提取阶段,我们设计了不确定性学习(UL)模块和边缘感知(EA)模块,分别提取被篡改区域的不确定性图和边缘信息。在增强阶段,我们首先引入了跨层融合和传播(CLFP)模块,它促进了特征在相邻层之间的融合和传播。随后,我们设计了具有相同结构的边缘增强(EE)模块和不确定性引导(UG)模块,并行运行,以增强多尺度融合特征中的不确定性区域和边缘区域。这些模块利用扩展的卷积和多分支结构来扩展接受域和利用上下文,提高了检测性能。我们在决策阶段引入了不确定性-边缘融合(UEF)模块。UEF的目标是增强有用的部分和对齐不确定性引导和边缘增强特征中的空间位置,将来自这两个来源的有价值的线索整合到不确定性-边缘融合特征中。最后,采用多层次的监督策略来生成最终的定位结果。我们将在下面提供每个关键组件的详细描述。

3.2.提取阶段

(1)不确定性学习(UL)

​  在图像拼接中,伪造者经常操纵拼接边界,使其看起来更平滑、更自然。因此,被篡改的图像经常被模糊,以消除明显的篡改痕迹。这种模糊操作导致被篡改区域周围的边缘模糊,并引入了相关像素的高不确定性。然而,现有的方法并没有明确地解释这种不确定性,这可能导致ISL中的次优甚至误导性的表示学习。不确定性指导可以帮助模型分析拼接区域的统计特征和概率分布,从而揭示伪造的痕迹。如图3所示,我们在本文中提出了一个基于BNN(Maddox等人,2019年)的UL模块。

image-20250112223222277

​  UL模块结合了一个dropout层作为正则化技术来估计预测结果的方差。UL模块将输出分布参数化为拉普拉斯分布,其中方差表示不确定性。方差越大,不确定性越高,方差越小,不确定性越低。通过从这个分布中抽样,我们可以生成一个不确定性图。给定一个大小为W×H×3的输入图像I,PVTv2可以生成不同级别的特征\(f_i(i=1,...,4)\)
​  高级特性通常包含更抽象的表示,它们捕获输入数据的全局模式和结构。然而,仅仅依赖于最高级别的特性可能会导致网络丢失在早期阶段学习到的细粒度特征信息,从而影响其处理本地特性的性能。此外,最高层次特征的抽象性质可能会使网络难以捕获图像中的特定细节。忽略早期阶段的特性可能会导致对局部特性缺乏理解。最后,虽然最高级别的特征对于理解图像的整体上下文很有用,但对于某些任务来说,它们可能过于抽象,并且无法提供足够的局部信息。如果网络过度依赖于这些高级特性,那么它可能无法充分利用ISL任务所需的细粒度信息。低级别的特征具有更高的分辨率和丰富的纹理细节,这使它们更适合生成细粒度的定位结果。然而,具有高分辨率特性的风险在于,它们可能会将被篡改的区域与真实的区域隔离开来,这可能会限制后续特征表示的有效性。此外,更高的分辨率意味着更高的计算成本。因此,为了平衡有效性和资源消耗,我们选择在不确定性推断过程中不涉及低水平的特征f1。我们采用中层特征f2和f3来辅助高级特征的不确定性学习。具体来说,我们首先通过随机冻结一些神经元来引入随机性,通过dropout层引入随机性。接下来,我们对高分辨率特征f2和f3进行降采样,以确保它们的尺寸与低分辨率特征f4的尺寸相匹配,从而避免了高分辨率特征的隔离所造成的问题。最后,我们将低采样的高分辨率特征f2和f3与低分辨率特征f4进行聚合,以帮助平衡细粒度的局部特征和全局上下文信息。 \[f^{\scriptscriptstyle{agg}}=Drop(f_{4})\oplus Down(Drop(f_{3}\bigr)\bigr)\oplus Down(Dropp(f_{2})).\] ​  其中,\(Drop(\cdot)\)为dropout层,\(Down(\cdot)\)为降采样操作,\(\oplus\)为广播加法操作。然后,我们采用频率通道注意机制(FCA)(Qin et al.,2021),在确保信息不丢失的同时,增强特征\(f_4^{drop}\)下降。FCA支持通道之间的特性交互。传统的信道注意机制代表了使用标量的信道的重要性,但这种表示会导致信息丢失。FCA通过进行特征分解,将信道注意机制的压缩过程推广到频域,从而实现了信道之间的特征交互。 \[f^{u l}=f_{4}^{d r o p}\otimes F C A(f^{a g g})\oplus f_{4}^{d r o p}\] ​  其中,FCA(⋅)表示FCA,⊗表示乘法。
​  然后,我们使用均值卷积运算和方差卷积运算得到与\(W^u×H^u×1\)相同大小的均值映射μ和方差映射σ。此过程可以描述如下: \[\begin{array}{c}{\mu=M e a n\bigl(f^{u l}\bigr),}\\ {\sigma=V a r i a n c e\bigl(f^{u l}\bigr).}\end{array}\]