分类 - IML
UnionFormer:Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization
UnionFormer:Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization

发表于CVPR2024,集成三个视图的UnionFormer框架,一个调节不同尺度上空间一致性的篡改特征提取网络BSFI-Net。

*现有问题*:以往的方法主要利用为高级视觉任务设计的深度卷积神经网络作为特征编码器或直接连接来自不同层的特征,不能充分表示篡改痕迹;目前的高级方法关注于像素或补丁级的一致性,而忽略了对象级的信息,在自然语言提示的引导下,自动生成的伪造部分更有可能表现出对象的不一致。 *解决方案*:设计了专门用于提取取证工件的边界敏感特征交互网络(BSFI-Net, Boundary Sensitive Feature Interaction Network)设计了用于图像操作检测和定位的多视图表示的统一学习transformer框架
具体情况 > cnn-Transformer并发网络 BSFI-Net,该网络在保持边缘灵敏度的同时,促进了两个分支中不同尺度的特征之间的彻底交互。 ![image-20240617110632461](../postimages/UnionFormer/image-20240617110632461.png) > 采用对比监督来促进两个视图之间的协作 ![image-20240618124629395](../postimages/UnionFormer/image-20240618124629395.png) > 统一伪造判别表示,每个篡改判别查询都表示对应建议的三个视图中的篡改线索 ![image-20240617214850871](../postimages/UnionFormer/image-20240617214850871.png)
31
Uncertainty-guided Learning for Improving Image Manipulation Detection
Uncertainty-guided Learning for Improving Image Manipulation Detection

发表于ICCV2023 将不确定性进行建模。

32
Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning
Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning

发表于ICCV2023,关注边界的信息,使用边界监督。

33
Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning
Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning

发表于ICCV2023,为弱监督图像篡改检测,具体来说,学习了两个一致性属性,多源一致性(MSC, multi-source consistency)和补丁间一致性(IPC, inter-patch consistency )。MSC利用不同的内容无关信息,并通过在线伪标签生成和细化过程实现跨源学习。IPC执行全局成对补丁关系推理,以发现完整的操作区域。

34
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning

发表于TCSVT 2023。

35
CatmullRom Splines-Based Regression for Image Forgery Localization
CatmullRom Splines-Based Regression for Image Forgery Localization

发表于AAAI2024,提出基于CatmullRom样条的回归网络,为了明确抑制假阳性样本和避免不确定性边界,综合再评分算法(CRA,Comprehensive Re-scoring Algorithm),综合评估每个区域的信任分数作为篡改区域,而垂直纹理交互感知(VTP, Vertical Texture-interactive Perception)控制生成更准确的区域边缘。

*现有问题*: 假阳性(FPs)和不准确的边界。 *解决方案*: 基于CatmullRom样条的回归网络(CSR-Net, CatmullRom Splines-based Regression Network),首次尝试将回归方法引入像素级任务。为了明确抑制假阳性样本和避免不确定性边界,我们设计两个相互互补和强化的组件,即综合再评分算法(CRA,Comprehensive Re-scoring Algorithm),综合评估每个区域的信任分数作为篡改区域,而垂直纹理交互感知(VTP, Vertical Texture-interactive Perception)控制生成更准确的区域边缘。
具体情况 ![image-20240503215025883]( ../postimages/CatmullRom-Splines-Based-Regression-for-Image-Forgery-Localization/image-20240503215025883.png) 在本文中,我们精心设计了一个定制的基于CatmullRom样条的回归网络(CSR-Net),并尝试将回归方法引入像素级图像篡改定位(本文中的IFL)。 详细地说,与传统的边界盒检测方法相比,我们引入了CatmullRom定位技术,该技术对目标区域控制点的轮廓进行了建模,从而实现了更准确和有效的篡改区域定位。然后,为了抑制FPs(假阳性),设计了综合再评分算法(CRA),我们为每个区域实例重新分配分数,区域实例的综合得分由分类得分(CLS)和实例得分(INS)两部分组成。 此外,我们还提出了一个可学习的区域纹理提取模块垂直纹理交互感知(VTP)来进一步参考边缘。 ![image-20240823161357950](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240823161357950.png) 因此,CSRNet可以在不接近FPs的情况下感知所有被篡改的区域,并实现准确的定位。大量的实验表明,CSR-Net优于现有的最先进的方法,不仅在自然图像数据集上,而且在社交媒体数据集上。
36
CFL-Net:Image Forgery Localization Using Contrastive Learning
CFL-Net:Image Forgery Localization Using Contrastive Learning

发表于WACV 2023,RGB频域双通道多尺度特征网络。

37
Learning Discriminative Noise Guidance for Image Forgery Detection and Localization
Learning Discriminative Noise Guidance for Image Forgery Detection and Localization

发表于AAAI2024,一种两阶段判别噪声引导的方法,第一阶段训练一个噪声提取器,以明确地扩大真实区域和伪造区域之间的噪声分布差异,第二阶段将噪声不一致和RGB数据集成,以进行伪造检测和定位。

*现有问题*: - 随着篡改和后处理技术的发展,这两个区域在噪声域之间的差异变得不那么明显,甚至不那么隐藏。鉴于这些缺陷,我们建议明确地学习和利用噪声的不一致性可以进一步提高IFDL的性能。 *解决方案*: 通过关注噪声域内的操纵痕迹来检测和定位图像伪造,一种两阶段判别噪声引导的方法,第一阶段训练一个噪声提取器,以明确地扩大真实区域和伪造区域之间的噪声分布差异,第二阶段将噪声不一致和RGB数据集成,以进行伪造检测和定位。
具体情况 一阶段: ![image-20240502204239503](../postimages/Learning-Discriminative-Noise-Guidance-for-Image-Forgery-Detection-and-Localization/image-20240502204239503.png) 为了明确地分离出这两个区域(真实的和伪造的)的噪声分布,我们引入了JS散度来约束 $ G_d $ 。首先,我们利用 groundtruth掩模,将 $ G_d $ 划分为真实区域 $ N_a $ 的噪声和伪造区域 $ N_f $ 的噪声。 ![image-20240822220206200](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240822220206200.png) 式中, $ \sigma_a $ 、 $ \sigma_f $ 为 $ N_a $ 和 $ N_f $ 的标准差, $ \mu_a $ 、 $ \mu_f $ 为 $ N_a $ 和 $ N_f $ 的平均值。 $$ \mathbf{L_{n}}=\lambda\left(1-JSD\right)+\left(1-\lambda\right)\mathcal{L}\left(Y,G_{c}\right) $$ 二阶段: ![image-20240502211812066](../postimages/Learning-Discriminative-Noise-Guidance-for-Image-Forgery-Detection-and-Localization/image-20240502211812066.png) 利用两个分支来处理RGB和噪声信息,为了保证噪声不一致对RGB的引导作用,我们设计了CAGF,并将其与ResNet块交替放置。在噪声的引导下,RGB分支可以提取出与篡改伪影高度相关的特征。
38
MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization
MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization

发表于AAAI2024,为应对交叉熵损失优先考虑逐像素精度,但忽略了篡改区域的空间位置和形状细节,设计了基于掩码引导查询的转换器框架(MGQFormer),该框架使用GroundTruth掩码来引导可学习查询令牌(LQT)识别伪造区域。

*现有问题*: - 所有现有的IMD主要通过交叉熵损失使用真值掩码,该损失优先考虑逐像素精度,但忽略了篡改区域的空间位置和形状细节。 *解决方案*:一种基于掩码引导查询的转换器框架(MGQFormer),该框架使用基本事实掩码来引导可学习查询令牌(LQT)识别伪造区域。
具体情况   利用BayarConv和Transformer编码器从输入图像中提取RGB和噪声特征,过空间和通道注意模块(SCAM,spatial and channel attention module)对多模态特征进行融合。其特征提取器如下: ![image-20240822164324909](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240822164324909.png)   我们设计了两个可学习的查询token来表示真实和伪造的特征,它们用于在我们提出的基于查询的Transformer解码器中搜索篡改区域。为了使查询token有效参考和基于查询的解码器快速收敛,我们提出了一种利用GroundTruth掩模的空间位置和形状细节的掩模引导训练策略。其解码器如下: ![image-20240822170134582](../postimages/%E8%AE%BA%E6%96%87%E5%90%88%E9%9B%86/image-20240822170134582.png)   具体来说,我们将噪声的GT掩模输入MGQFrorer,以获得引导查询token(GQT)和辅助掩模 $ M_{aux} $ 。然后,利用辅助损失 $ L_{aux} $ ,使GQT包含伪造区域的空间和形状信息。此外,我们提出了一种掩模引导的损失 $ L_{guide} $ 来减小LQT和GQT之间的距离。
39
A New Benchmark and Model for Challenging Image Manipulation Detection
A New Benchmark and Model for Challenging Image Manipulation Detection

发表于AAAI2024,包含RGB和频率特征的hrnet双分支架构,能够检测双压缩伪影的压缩伪影学习模型。

*现有问题*: - 所有现有的IMD技术在从大图像中检测小的篡改区域时都遇到了挑战。 - 基于压缩的IMD方法在相同质量因子的双重压缩的情况下面临困难。 *解决方案*:包含RGB和频率特征的双分支架构,能够检测双压缩伪影的压缩伪影学习模型。
具体情况 > RGB和频率特征的双分支架构 ![image-20240326151650512](../postimages/A-New-Benchmark-and-Model-for-Challenging-Image-Manipulation-Detection/image-20240326151650512.png) > 双压缩伪影的压缩伪影学习模型 ![image-20240326170313123](../postimages/A-New-Benchmark-and-Model-for-Challenging-Image-Manipulation-Detection/image-20240326170313123.png)
40