Bridging Semantic Logic Gaps: A Cognition Inspired Multimodal Boundary Preserving Network for Image Manipulation Localization

Songlin Li, Zhiqing Guo*, Yuanman Li, Zeyu Li, Yunfeng Diao, Gaobo Yang, and Liejun Wang

摘要

​  现有的图像篡改检测(IML)模型主要依赖视觉线索,却忽视了内容特征间的语义逻辑关联。事实上,真实图像传递的内容语义往往符合人类认知规律。然而图像篡改技术通常会破坏内容特征间的内在关联,导致语义线索难以被 IML 识别。
​  本文提出一种认知启发式多模态边界保留网络(CMB-Net,cognition inspired multimodal boundary preserving network)。具体而言,CMB-Net利用大语言模型(LLMs)分析图像中的篡改区域,并生成基于提示的文本信息以弥补视觉信息中语义关联的缺失。考虑到由LLMs幻觉诱导的错误文本会损害 IML 准确性,我们提出图像-文本中心模糊模块(ITCAM,image-text central ambiguity module),通过量化文本与图像特征间的模糊度为文本特征赋予权重,从而确保文本信息的积极作用。同时提出图像-文本交互模块(ITIM,image-text interaction module),利用相关矩阵实现视觉与文本特征的精细交互。最后,受可逆神经网络启发,我们提出恢复边缘解码器(RED,restoration edge decoder),通过双向生成输入与输出特征来无损保留篡改区域的边界信息。大量实验表明,CMB-Net在性能上超越了大多数现有 IML 模型。
​  我们的代码可在以下平台获取:https://github.com/vpsg-research/CMB-Net

模型架构

  • 整体框架:CMB-Net以PVTv2作为视觉编码器,BERT作为文本编码器,包含ITCAM、ITIM和RED三个核心模块。首先,LLMs分析图像潜在篡改区域生成提示文本,经BERT提取文本特征;PVTv2提取图像多级特征,生成高层语义表示后与文本特征输入ITCAM加权,再经ITIM交互融合,最后通过RED生成预测掩码。
  • 图像-文本中心模糊模块(ITCAM):为解决LLMs幻觉导致的文本错误问题,该模块利用KNN技术构建图像和文本的中心特征,通过KL散度量化两者模糊度。先将图像特征重塑并计算自相关特征图,用KNN选择近邻特征构建差异加权特征,经卷积和池化提取图像中心特征,同理获取文本中心特征;再将中心特征建模为高斯分布,计算对称KL散度平均值得模糊度a,以(1-a)加权文本特征,减少幻觉影响。
  • 图像-文本交互模块(ITIM):为实现视觉与文本特征细粒度交互,该模块通过1×1卷积将图像特征转换为查询、键、值,文本特征转换为键和值,计算图像区域相似度和图像-文本相似度,生成相关系数矩阵CS;结合可学习缩放参数调整相似度特征,最终融合图像和文本的加权表示,增强模型对复杂语义关系的理解。
  • 恢复边缘解码器(RED):为防止多尺度特征融合中边界信息稀释,RED包含四个解码器块(DB),每个DB有边缘引导残差模块(EGRM)和边缘细化模块(ERM)。ERM采用可逆神经网络,通过仿射耦合层对特征可逆变换,生成边界图Ei;EGRM将Ei注入特征融合过程,经卷积和激活等操作生成预测图Mi,实现边界信息无损保留。
image-20260227215032360

图2展示了CMB-Net的整体架构。
> 该模型采用PVTv2[9]作为视觉编码器,BERT[10]作为文本编码器,并包含三个核心模块:图像-文本中心模糊模块(ITCAM)、图像-文本交互模块(ITIM)以及边缘恢复解码器(RED)。值得注意的是,RED由四个解码器模块(DB)构成,每个DB包含两个组件:边缘引导残差模块(EGRM)和边缘精炼模块(ERM)。

实验设计

  • 数据集:实验使用多个主流IML基准数据集,包括CASIAv2(5123张,仅训练)、CASIAv1(920张,仅测试)、Coverage(100张,70训练30测试)、Columbia(180张,130训练50测试)、NIST16(564张,414训练150测试),还在CocoGlide、ITW、Korus、IMD2020等数据集验证泛化能力。

  • 评估指标:采用F1分数和IoU作为评估指标,F1是精确率和召回率的调和平均,IoU评估预测掩码与真实掩码相似度,阈值设为0.5。

  • 实现细节:训练时输入图像 resize 为512×512,批大小32,使用AdamW优化器,初始学习率1e-4,每50 epoch衰减0.1,训练120 epoch,使用4块NVIDIA 3090 GPU。

  • 对比方法:与MVSS-Net、PSCC-Net、TruFor、IML-ViT、MFI-Net、PIM-Net、SparseViT、Mesorch等8种现有SOTA方法对比,还对比了使用GPT-4.1和Qwen-VL-Max生成文本的模型性能。

Dataset | Nums | #CM | #SP | #IP | #Train | #Test |
| :----: | :----: | :----:|:----: | :----: | :----: | :----: |
CASIAv2.0 | 5123 | 3295 |1828 | 0 | 5123 | 0 |
CASIAv1.0 | 920 | 459 |461 | 0 | 0 | 920 |
Coverage | 100 | 100 |0 | 0 | 70 | 30 |
Columbia | 180 | 0 |180 | 0 | 130 | 50 |
NIST16 | 564 | 68 |288 | 208 | 414 | 150 |

结果与分析

  • 与SOTA方法对比:CMB-Net在多个数据集上F1和IoU指标均优于对比方法。使用Qwen-VL-Max文本时,NIST16的F1为0.935、IoU为0.891,Coverage的F1为0.875、IoU为0.812,CASIAv1的F1为0.779、IoU为0.729,Columbia的F1和IoU均为0.986、0.972,平均F1 0.894、IoU 0.851。Qwen-VL-Max生成的文本比GPT-4.1更精炼,语义更丰富,使模型性能更优。
  • 消融实验:仅图像特征(B)时平均F1 0.660、IoU 0.601;加入RED后平均F1 0.850、IoU 0.800;再加入ITIM平均F1 0.875、IoU 0.830;加入ITCAM(完整模型)平均F1 0.894、IoU 0.851,表明各模块均提升性能,ITCAM效果最显著。
  • ITCAM中k值选择:在k=5、7、10、12、15的实验中,k=10时模型在多个数据集上综合性能最优,平衡了局部细节和全局结构。
  • 鲁棒性评估:在Facebook、WeiBo、WeChat、WhatsApp等社交平台图像压缩场景及 resize、高斯噪声、高斯模糊、JPEG压缩等攻击下,CMB-Net整体表现优于对比方法,仅在强高斯模糊(k=11)时略逊于Mesorch。
  • 域外数据集测试:在IMD2020、CocoGlide、ITW、Korus等域外数据集上,CMB-Net仍表现出强泛化能力,验证了文本信息补充语义逻辑的有效性。

总体结论

CMB-Net通过利用LLMs生成文本补充视觉语义关系,结合ITCAM量化图像-文本模糊度减轻幻觉影响,ITIM实现跨模态细粒度交互,RED基于可逆神经网络保留边界信息,显著提升了图像篡改定位性能。实验表明,CMB-Net在多个数据集上超越现有SOTA方法,且具有良好的鲁棒性和泛化能力,为图像篡改定位领域提供了新的有效思路。