M2SFormer: Multi-Spectral and Multi-Scale Attention with Edge-Aware Difficulty Guidance for Image Forgery Localization

Ju-Hyeon Nam1 ,Dong-Hyun Moon1 ,Sang-Chul Lee1,2
1仁荷大学电子与计算机工程系
2DeepCardio

摘要

​  图像处理技术发展迅猛,既催生了创新应用场景,也催生了数字图像的恶意篡改。基于深度学习的方法在像素级伪造定位方面已取得高精度,但在计算开销和表征能力方面仍存在局限,尤其在应对细微或复杂的篡改时表现欠佳。本文提出M2SFormer,这是一种基于Transformer编码器的创新框架,旨在攻克现有技术难题。与传统方法分别处理空间和频率线索不同,M2SFormer通过在跳跃连接中统一多频段和多尺度注意力机制,借助全局上下文信息,能更精准捕捉各类伪造特征。此外,我们的框架通过采用全局先验图(一种反映伪造检测难度的曲率度量指标)来解决上采样过程中细节丢失的问题。该指标能引导难度导向注意力模块更有效地保留细微操作痕迹。在多个基准数据集上的大量实验表明,M2SFormer模型不仅超越了现有最先进模型,在跨领域检测和定位伪造行为时展现出更强的泛化能力。

image-20250715212113564

引言

​  我们能相信媒体上的信息吗?
​  随着图像编辑技术的飞速发展,数字图像处理能力日益精进,既催生了创意应用,也滋生了恶意篡改[32,36,40,70]。这种现象引发重大社会关切——伪造图像可能导致虚假信息传播、法律纠纷频发、公众信任危机加剧,进而助长社会不稳定[2,49,63]。因此,图像伪造检测技术备受瞩目。早期方法主要采用基于基础手工特征的传统手段,例如JPEG压缩痕迹[54,71]、传感器模式噪声(SPN)[10,35]以及色彩滤光阵列(CFA)插值模式[12,16]。然而这些方法主要聚焦于图像级检测(二元分类),对新型伪造类型存在泛化能力不足的问题[28,67]。
​  随着深度学习时代的到来,像素级伪造检测(二值分割)技术已取得显著进展,曼陀罗网络[67]和SPAN [28]等模型在自动提取伪造痕迹方面表现优异。然而,尽管这些方法成效显著,但其计算成本高昂且表征能力不足,导致对新型伪造类型难以有效泛化[8,77]。近年来,注意力机制的引入[11,27,66]缓解了部分挑战,提升了基于UNet架构编码器-解码器模型的伪造检测效率与性能[23,43,77]。不过,当伪造内容较为隐蔽或与原图高度相似时,现有方法仍存在鉴别困难的问题,导致实际应用场景中的检测效果有所下降[18,41,69]。
​  近年来,频域方法在图像分类[9,38,56,75]、语义分割[4,37,72]和目标检测[39,78]等多个领域得到广泛应用,旨在提升模型对未知领域的泛化能力和抗干扰能力。值得注意的是,相较于依赖空间域线索进行伪造定位的方案,频域信号分析往往能更有效地揭示细微的篡改痕迹[18,21,42,47,55,69]。然而现有研究因效率考量,通常将空间域与频域割裂处理,未能构建统一框架。这导致目前缺乏能同时整合空间与频率信息的统一式注意力机制,主要源于对计算效率的顾虑。由此引出一个关键研究问题:“如何在高效整合空间与频率注意力的同时,有效捕捉细微的伪造特征?”
​  为解决上述问题,我们提出了一种新颖的频率-空间统一注意力机制——在跳跃连接中引入多光谱-多空间(M2S,Spectral and Multi-Spatial)注意力模块,用于伪造检测定位。我们研发的M2S注意力模块包含两大核心机制:频率域与空间域。在频率域方面,我们采用二维离散余弦变换(2D DCT)[1]的基图像生成通道级注意力图。通过选择性地加权相关频率分量,该方法既能精准提取关键频谱信息,又能从多光谱视角完整保留空间上下文特征。在空间域处理方面,我们采用受SIFT启发的特征金字塔结构,精准捕捉剪切粘贴操作产生的细微异常边界线索。通过逐层应用空间注意力机制,有效突显这些伪造特征。同时,我们对每个输入样本进行量化评估,并开发出融合难度引导注意力(DGA)与Transformer模块的解码器——该解码器将难度等级转化为文本表征,并结合通道级注意力机制,显著提升模型应对复杂样本的能力。通过将M2S注意力模块与基于边缘感知DGA的Transformer解码器相结合,我们提出了一种名为M2SFormer的Transformer架构——这是一种新型伪造检测模型,能够充分利用全局依赖关系,并能稳定捕捉不同操作类型、形状和尺寸下的伪造掩码。在多个公开基准数据集上的大量实验表明,M2SFormer不仅超越了现有模型,在跨领域伪造检测中显著提升了泛化性能,还具有更强的适应性。此外,我们在附录(第8节)中详细阐述了M2SFormer在人工智能领域的应用价值。本文的贡献可归纳如下:

  • 我们提出了一种基于Transformer的新型伪造定位框架M2SFormer,该框架将M2S注意力模块与边缘感知的DGAbased Transformer解码器高效集成,相比现有方法显著提升了伪造定位性能。
  • 通过在跳跃连接中整合多光谱与多尺度注意力机制,能更精准捕捉伪造痕迹。此外,全局先验图可量化伪造定位难度,在上采样后引导难度导向注意力模块,从而在复杂区域保留细节特征。
  • 在多个基准数据集上的大量实验表明,M2SFormer优于现有模型,在跨未见领域的伪造定位中显著提高了泛化性能。

​  为评估各模型性能,我们选取了图像分割领域常用的三个指标:Dice分数系数(DSC)[48]和平均交并比(mIoU)。

image-20250726215243569
image-20250726215303108

​