标签 - BayarConv
Learning Discriminative Noise Guidance for Image Forgery Detection and Localization
Learning Discriminative Noise Guidance for Image Forgery Detection and Localization

发表于AAAI2024,一种两阶段判别噪声引导的方法,第一阶段训练一个噪声提取器,以明确地扩大真实区域和伪造区域之间的噪声分布差异,第二阶段将噪声不一致和RGB数据集成,以进行伪造检测和定位。

*现有问题*: - 随着篡改和后处理技术的发展,这两个区域在噪声域之间的差异变得不那么明显,甚至不那么隐藏。鉴于这些缺陷,我们建议明确地学习和利用噪声的不一致性可以进一步提高IFDL的性能。 *解决方案*: 通过关注噪声域内的操纵痕迹来检测和定位图像伪造,一种两阶段判别噪声引导的方法,第一阶段训练一个噪声提取器,以明确地扩大真实区域和伪造区域之间的噪声分布差异,第二阶段将噪声不一致和RGB数据集成,以进行伪造检测和定位。
具体情况 一阶段: ![image-20240502204239503](../postimages/Learning-Discriminative-Noise-Guidance-for-Image-Forgery-Detection-and-Localization/image-20240502204239503.png) 为了明确地分离出这两个区域(真实的和伪造的)的噪声分布,我们引入了JS散度来约束 $ G_d $ 。首先,我们利用 groundtruth掩模,将 $ G_d $ 划分为真实区域 $ N_a $ 的噪声和伪造区域 $ N_f $ 的噪声。 ![image-20240822220206200](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240822220206200.png) 式中, $ \sigma_a $ 、 $ \sigma_f $ 为 $ N_a $ 和 $ N_f $ 的标准差, $ \mu_a $ 、 $ \mu_f $ 为 $ N_a $ 和 $ N_f $ 的平均值。 $$ \mathbf{L_{n}}=\lambda\left(1-JSD\right)+\left(1-\lambda\right)\mathcal{L}\left(Y,G_{c}\right) $$ 二阶段: ![image-20240502211812066](../postimages/Learning-Discriminative-Noise-Guidance-for-Image-Forgery-Detection-and-Localization/image-20240502211812066.png) 利用两个分支来处理RGB和噪声信息,为了保证噪声不一致对RGB的引导作用,我们设计了CAGF,并将其与ResNet块交替放置。在噪声的引导下,RGB分支可以提取出与篡改伪影高度相关的特征。
1
MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization
MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization

发表于AAAI2024,为应对交叉熵损失优先考虑逐像素精度,但忽略了篡改区域的空间位置和形状细节,设计了基于掩码引导查询的转换器框架(MGQFormer),该框架使用GroundTruth掩码来引导可学习查询令牌(LQT)识别伪造区域。

*现有问题*: - 所有现有的IMD主要通过交叉熵损失使用真值掩码,该损失优先考虑逐像素精度,但忽略了篡改区域的空间位置和形状细节。 *解决方案*:一种基于掩码引导查询的转换器框架(MGQFormer),该框架使用基本事实掩码来引导可学习查询令牌(LQT)识别伪造区域。
具体情况   利用BayarConv和Transformer编码器从输入图像中提取RGB和噪声特征,过空间和通道注意模块(SCAM,spatial and channel attention module)对多模态特征进行融合。其特征提取器如下: ![image-20240822164324909](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240822164324909.png)   我们设计了两个可学习的查询token来表示真实和伪造的特征,它们用于在我们提出的基于查询的Transformer解码器中搜索篡改区域。为了使查询token有效参考和基于查询的解码器快速收敛,我们提出了一种利用GroundTruth掩模的空间位置和形状细节的掩模引导训练策略。其解码器如下: ![image-20240822170134582](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240822170134582.png)   具体来说,我们将噪声的GT掩模输入MGQFrorer,以获得引导查询token(GQT)和辅助掩模 $ M_{aux} $ 。然后,利用辅助损失 $ L_{aux} $ ,使GQT包含伪造区域的空间和形状信息。此外,我们提出了一种掩模引导的损失 $ L_{guide} $ 来减小LQT和GQT之间的距离。
2
A New Benchmark and Model for Challenging Image Manipulation Detection
A New Benchmark and Model for Challenging Image Manipulation Detection

发表于AAAI2024,包含RGB和频率特征的hrnet双分支架构,能够检测双压缩伪影的压缩伪影学习模型。

*现有问题*: - 所有现有的IMD技术在从大图像中检测小的篡改区域时都遇到了挑战。 - 基于压缩的IMD方法在相同质量因子的双重压缩的情况下面临困难。 *解决方案*:包含RGB和频率特征的双分支架构,能够检测双压缩伪影的压缩伪影学习模型。
具体情况 > RGB和频率特征的双分支架构 ![image-20240326151650512](../postimages/A-New-Benchmark-and-Model-for-Challenging-Image-Manipulation-Detection/image-20240326151650512.png) > 双压缩伪影的压缩伪影学习模型 ![image-20240326170313123](../postimages/A-New-Benchmark-and-Model-for-Challenging-Image-Manipulation-Detection/image-20240326170313123.png)
3