Exploring Multi-Modal Fusion for Image Manipulation Detection and Localization

希腊信息技术研究所，研究和技术研究中心，希腊塞萨洛尼基

论文（arxiv）

post1 post2

摘要

最近的图像操作定位和检测技术通常利用由噪声敏感滤波器产生的法医伪影和痕迹，如SRM和Bayar卷积。

在本文中，我们展示了在这种方法中常用的不同过滤器擅长于揭示不同类型的操作，并提供互补的法医痕迹。因此，我们探索了合并这些滤波器输出的方法，其目的是利用所产生的伪影的互补性来执行图像操作定位和检测（IMLD）。

我们提出了两种不同的方法：一种是从每个法医过滤器产生独立的特征，然后将它们融合（称为晚期融合），另一种是执行不同模态输出的早期混合并产生早期组合特征（这称为早期融合）。

我们证明了这两种方法在图像操作定位和检测方面都取得了具有竞争力的性能，在多个数据集上优于最先进的模型1。

方法

编码器解码器框架

图片分别经过阶梯分析丰富模型SRM（高通滤波器） , bayar 卷积之后和通过NoisePrint++提取的特征送入多尺度编码器进行编码，之后分别通过异常检测解码器和置信度解码器获得预测图和置信图，最后池化后通过篡改解码器，得到篡改可能分数。

特征融合方法（大模型）：

首先分别从NoisePrint++、SRM和bayar 卷积中提取RGB图像x的辅助特征。然后将每个辅助特征与原始RGB一起输入到一个双分支CMX编码器中，生成4尺度的特征图如图所示：

在每个尺度上，3个编码器的输出被连接起来，以产生编码器的最终输出f。我们使用与TruFor中相同的解码器架构来处理异常和置信解码器。

提出的另外一种特征融合方法（小模型）：

再次提取了RGB图像x的辅助特征、rbayar。然后每个输入通过卷积块C，生成早期特征fmod。然后将这3组特征映射连接起来，生成完整的早期特征集f ef。这些特征然后通过另一个卷积块C，产生混合特征f mf = C（f ef）。混合特征f mf和RGB图像x被用作双分支CMX编码器[34]的输入，其方式与TruFor中的相同。

这是一种特别轻量级的方法来扩展TruFor架构以处理多个辅助模式，因为它不会显著增加参数的数量（与TruFor的68.7M相比，是68.9M参数）。