Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-modal Manipulation
摘要
由于面部伪造和文本错误信息的广泛传播,检测和接地多模态媒体操纵(DGM4,Detecting and grounding multi-modal media manipulation)已经变得越来越重要。在本文中,我们提出了统一频率辅助变压器框架,命名为UFAFromer,来解决DGM4问题。与以往仅关注图像(RGB)域来描述视觉伪造特征的最先进的方法不同,我们另外引入了频域作为补充观点。通过利用离散小波变换,我们将图像分解为多个频率子带,捕获丰富的人脸伪造伪影。然后,我们提出的频率编码器,结合带内和带间的自关注,明确地聚合了不同子带内和跨的伪造特征。此外,为了解决图像和频域之间的语义冲突,开发了伪造感知相互模块,进一步实现不同图像和频率特征的有效交互,从而产生对齐和全面的视觉伪造表示。最后,基于视觉和文本伪造特征,我们提出了一个统一的解码器,它包括两个对称的跨模态交互模块,负责收集特定模态的伪造信息,以及一个负责聚合两种模式的融合交互模块。提出的统一解码器将我们的UFAfrorr定义为统一框架,最终简化了整体架构,促进了优化过程。在包含多个扰动的DGM4数据集上的实验结果表明,我们的框架比以前的方法具有优越的性能,在该领域设置了一个新的基准。
关键词 人脸和文字操作检测;检测和接地;统一;频率辅助
1介绍
近年来,互联网见证了虚假媒体的普及(Zheng et al., 2020; Juefei-Xu et al., 2022),如人脸和伪造图像、深度伪造视频、文本假新闻。随着深度学习的进步,易于创建超现实的内容,使安全和隐私成为一个严重问题,例如,身份欺诈面临伪造(Liu et al., 2021a; Zhang et al., 2019; Liu et al., 2022b, 2021b, 2024a, b, 2023a, 2022a)和虚假信息文本假新闻(Ying et al., 2023; Zhou et al., 2023)。为了应对这些日益增长的威胁,研究人员表现出了极大的关注,并提出了各种检测方法,包括面部伪造检测(Miao et al., 2023; Guan et al., 2022;Miao et al., 2022; Tan et al., 2022)和文本伪造检测(Zhu et al., 2022; Zellers et al., 2019),关注单模式(即图像或文本)伪造。之前框架中的另一行是多模态伪造检测(Luo et al., 2021a; Khattar et al., 2019),它同时利用了图像和文本模式,并在伪造检测方面取得了更好的结果。这些框架只预测给定的可疑输入的二进制类(即真实的或虚假的),这只是简单地将多模态伪造检测视为一个二进制分类任务。