Unravelling Digital Forgeries:A Systematic Survey on Image Manipulation Detection and Localization
约 18202 字大约 61 分钟
2026-03-03
Unravelling Digital Forgeries:A Systematic Survey on Image Manipulation Detection and Localization
VIJAYAKUMAR KADHA,SAMBIT BAKSHI,SANTOS KUMAR DAS
摘要
近年来,深度学习在计算机视觉应用领域取得了显著进展,特别是在信息取证方面。另一方面,数据驱动方法在识别图像和视频篡改方面展现出巨大潜力。然而,大多数取证工具仍倾向于采用传统方法而非深度学习。本文系统分析了基于经典算法与深度学习算法的图像篡改检测与定位技术现状,并结合传统方法与机器学习模型的见解,全面梳理了数字图像取证领域的最新进展,包括卷积神经网络(CNN)等前沿技术。此外,本文重点介绍了针对图像篡改检测与定位问题最具代表性的数据驱动技术,将其细分为四大子领域:复制-移动、拼接、对象移除及对比度增强。本研究为该领域的研究人员和从业者提供了详尽且前沿的综述,同时探讨了当前面临的挑战及深度学习在图像篡改检测与定位方面的未来发展方向。最后,本文对相关方法与实验的讨论将为该领域的后续探索与发展提供重要参考。
1.引言
多媒体数据正逐步成为法庭证据的合法依据,而在多种法医应用中,对图像生命周期的识别已成为必要条件。然而随着价格亲民的图像编辑软件普及,加之计算机与网络技术的突飞猛进,图像篡改已变得轻而易举。为便于理解,表1列举了常见图像处理手法。
| 图像操作类型 | 描述 |
|---|---|
| 图像润色 | 图像编辑通过调整色调、饱和度和对比度来提升视觉效果 |
| 图像克隆 | 通常的做法是裁剪图像中的问题区域并粘贴到其他位置。 |
| 内容替换 | 通过替换图像中的某个元素来实现内容替换。 |
| 添加对象 | 向图像中添加新对象以创建虚假场景。 |
| 移除对象 | 从图像中移除对象以创建虚假场景。 |
| 面部修饰 | 调整图像中的面部特征,例如改变人物表情或添加/移除皱纹。 |
| 背景修改 | 改变图像背景以创建虚假的场景或环境。 |
| 压缩伪影 | 图像压缩过程中可能出现的画质下降现象。 |
| 图像拼接 | 将两张或多张图像的片段组合,生成虚假再现原始场景的新图像。 |
正因如此,大量篡改照片通过社交媒体平台在日常生活中广泛传播。过去二十年间,学术界与执法部门对图像取证技术的关注度持续攀升,以恢复数字图像的可信度。因此,要建立可靠有效的图像篡改检测技术,必须全面检查图像信息、光照、色彩等细节特征,以发现人为篡改的痕迹。
另一方面,随着数字媒体的兴起和图像编辑工具的普及,图像篡改已成为普遍现象,尤其在假新闻、宣传造势和数字取证领域。

图1展示了面部替换、深度伪造和计算机生成图像等典型图像处理技术。第一行展示了面部替换流程:前两张图片为原始输入人脸,第三张则是替换后的合成结果。第二行则呈现了基于源图像生成的深度伪造图像,以及计算机生成的合成图像,充分展现了先进图像合成技术。为应对这一挑战,学界专门开发了图像篡改检测与定位技术,旨在自动识别数字图像中的篡改痕迹。该领域研究的核心在于开发算法,通过分析光照、纹理等视觉特征的异常变化,精准定位图像中被篡改的区域。
在众多解决信息取证领域中,针对内容来源识别与真实性验证的问题,学界提出了多种方法。其中图像取证的重要分支“图像篡改检测与定位”,其核心目标是精准定位数字照片的编辑痕迹。这项技术能实现更精确的图像分析,从而揭示篡改行为的范围与性质。具体而言,定位图像篡改的方法通常通过对比图像不同区域的纹理、边缘等特征,寻找可能被篡改的异常点。不过,提升图像篡改检测精度与效率的技术仍在持续改进中,因此相关新方法与工具不断涌现。由此可见,该领域的研究始终致力于图像篡改的检测与定位。
近年来,探索数据驱动图像篡改检测与定位方法的研究成果显著增长。然而,这些方法需要借助复杂的神经网络架构和海量训练数据来学习并识别图像中的模式。其中,经典技术[23,31,67,154,185]、机器学习[54,64,118,137]以及深度学习[15,37,52,198,215]等方法被广泛应用于实现这些目标。为便于理解,图2展示了图像篡改检测与定位方法的通用流程图。

因此,这类技术能更全面地揭示图像篡改的本质与程度,对不同应用场景具有重要价值。为实现这一目标,本文将系统梳理图像篡改检测与定位技术的最新进展,同时指出该领域当前面临的挑战及未来发展趋势。
1.1动机
随着图像篡改现象日益普遍,以及对数字图像真实性与完整性评估技术的迫切需求,图像篡改与处理检测系统应运而生。图像篡改已成为法医鉴定、执法行动、新闻报道及多媒体内容认证领域的重要挑战,这既源于图像编辑软件的广泛普及,也因数字图像的便捷传播特性。图像篡改与处理检测技术在法医鉴定、执法行动及司法程序等众多领域中,对验证照片真实性具有关键作用。数字图像作为证据来源必须可靠,而检测技术能有效评估图像是否经过篡改。随着网络平台与社交媒体的兴起,图像在新闻资讯传播中扮演着重要角色,这就需要采用精密的识别技术来遏制误导性或伪造图像的扩散。此外,内容认证与版权保护也依赖图像篡改检测技术,通过识别抄袭、侵权及未经授权的修改行为来维护知识产权。然而,检测到篡改虽能确认图像被修改,但未被检测到的篡改行为并不能绝对保证真实性。部分篡改可能因技术限制而未被发现,这凸显了检测技术持续进步的必要性。基于此,本文对检测与定位篡改技术进行了全面综述,并涵盖该领域的相关研究综述。为便于理解,下文将结合多媒体取证领域的既有研究成果展开探讨。
1.2相关综述
近期发表的大量综述性文章从多角度系统阐述了多媒体取证及其细分领域的研究进展[14,143,155,171,174],为理解检测技术的演进奠定了理论基础。其中,Farid[61]率先对图像篡改检测系统进行综述,将其划分为五类技术:基于相机的、基于物理特征的、基于像素的、基于格式的以及基于几何特征的检测方法。Qureshi等人[149]与Birajdar和Mankar[24]则对图像伪造检测方法的最新突破进行了深入评述。Rocha团队[157]不仅涵盖图像伪造检测,还涉及源识别与隐写分析等前沿领域;此后,更多关于图像取证的专题综述相继问世[1,14,34,143,155]。同样地,Stamm等人[174]将法医调查的范围从篡改检测扩展至涵盖音频和视频伪造的识别。不过,部分综述报告明确指出,其研究重点在于识别原始图像与篡改图像存在差异时的图像篡改行为。文献[76]将被动图像篡改检测方法按篡改程度划分为不同类别,包括像素统计、系数分析、锐利边缘与光照不一致特征以及语义内容等维度。另一方面,Christlein团队[46]则聚焦于常见复制-移动检测方法的深入研究。同理,Zampoglou团队[214]通过多源图像分析技术,探索了拼接识别与定位方法。Schetinger团队[162]则通过实验验证了不同拼接技术对典型法医痕迹的影响。
基于这些研究,我们必须认识到图像处理既发生在像素层面也发生在内容层面,每种处理都会留下可被分析的特征痕迹。因此,常见的图像修改操作既可以在像素层面进行,也可以在内容层面实施,例如从数字画面中移除物体,或是通过重采样缩小图像尺寸。无论采用何种处理方式,每个修改后的图像都保留着原始图像。通过将预测输出与原始图像对比,可以识别出修改痕迹,并根据这些修改的多样化特征模式区分不同类型的图像处理。目前关于伪造检测的研究已有诸多成果,但仅有少数研究聚焦于基于深度学习的图像处理检测技术,包括重采样、中值滤波、复制-移动、拼接和物体移除等特定处理方式(详见附录A)。然而,目前仍缺乏全面综述伪造检测与定位技术的研究,这些研究需涵盖定义、分类、模型、性能评估方法及前沿研究课题等所有方面。因此,有必要对基于深度学习的伪造检测技术进行系统性综述,涵盖该领域最新的法医技术进展。
1.3关键贡献
本综述基于部分及少量近期研究[14,19,65,221],这些研究仅聚焦于图像篡改识别。本文系统梳理了数据驱动型图像篡改检测方法的最新进展,重点呈现过去十年间最前沿的研究成果。以下为本研究的核心贡献概述:
- 系统阐述了当前基于数据驱动技术的图像篡改识别技术现状,涵盖性能评估与实时处理方案;
- 通过现有方法对比,为研究者选择适用的深度学习方案提供参考;
- 全面解析性能评估方法,包括数据集选择、计算基础设施、各类评估基准及定量/定性分析指标;
- 定性分析部分通过深度学习方法的宏观解析,揭示其底层决策机制;
- 本综述揭示了篡改检测与定位领域的研究空白与新兴趋势,展望了未来发展方向,包括先进检测方法、多模态分析及应对多媒体取证领域新挑战等方向。
本文其余部分结构如下:第2节阐述了利用经典学习与深度学习方法识别数据篡改及处理操作的检测技术;第3节则深入探讨了若干针对特定篡改类型特征的指纹技术。此外,第4节详细阐述了定位技术的实现方案。第5节系统梳理了性能评估策略,涵盖基准数据集选择、计算基础设施搭建、评估标准制定以及定量与定性分析的性能指标等核心内容。第6节重点剖析了研究人员在运用深度学习技术检测图像伪造时遇到的实际挑战。第7节总结研究结论,并展望该技术未来可能的应用方向。
2.图像篡改识别与处理操作检测技术
来自可疑或不明来源的多媒体内容往往包含关键细节。例如,敌对的外国政府可能会发布可能引发严重政治或军事后果的事件照片或视频。因此,在确认事件真实性前,我们需要更多证据,比如必须识别多媒体素材是否经过篡改,并验证媒体的真实性。为解决这一问题,研究人员开发了多种独立于外部安全措施的取证方法,因为这些多媒体内容在未经处理前通常不会内置安全标准。其中,模糊前景与背景的边界、调整对比度、旋转和缩放图像等方法就属于此类。图3展示了用于识别图像篡改和处理操作的各种检测技术的全面概述。因此,许多学术研究聚焦于探索这些基础流程作为潜在伪造的替代方案,并报告了两种主要的图像篡改检测方法:经典方法和数据驱动方法。这两种方法可通过图4和图5所示的两种特征表示方式大致区分:前者是人工创建的,后者是自动学习的。

2.1 经典的篡改检测方法
在经典图像篡改检测方法中(如图4所示),预过滤步骤通过应用多种滤波器生成残差,从而在取证分析中发挥关键作用。

这些残差具有纹理无关特性,因此在取证应用中具有特殊价值。在此背景下,Popescu等人[144]将图像重采样视为一种篡改形式,并提出了一种识别重采样操作留下的痕迹的方法。为检测图像旋转或缩放时产生的重采样现象,特定方法[95,145]采用周期性伪影。若干技术手段通过分析构图时物体边缘的模糊或异常特征来识别不一致性[7,59]。图像片段常被复制移动以制造复制品或遮掩细节。自然重叠区域的存在是伪造的重要特征,但复制品常被篡改以掩盖证据,且存在近乎完全相同的自然物品,这使得法医分析更为困难。文献[66]对复制移动检测的基础研究已有大量报道。即使存在旋转、缩放等几何畸变,复制移动检测技术如今已能识别出高效算法[46]。基于关键点的方法效果显著[4,167],而密集场方法[50,158,211]不仅精度更高,还能应对遮挡攻击。密集场技术在检测图像修复方面也展现出显著成效[48]。
机器学习原理构建了这些技术,例如通过大量未修改和已修改图像的训练,识别出有助于区分两者的合适特征。需特别注意的是,法医分析需基于对预期变化的深入理解,精心设计特征。特定伪影由双JPEG压缩[76,88]或与相机响应函数(CRF)[81,117]相关的伪影产生,可通过为此目的开发的特征进行识别。然而,这些通用特征能够检测多种形式的篡改,且基于适当的图像统计方法。选择最具区分度的特征可能颇具挑战,但针对自然照片的强效统计模型能提供有效帮助。去除可忽略的图像语义信息(即噪声)是揭示修改痕迹产生的统计异常的第一步,这一方法已在文献[18]中得到验证。通过这种方式,我们常能从噪声残差中提取出多个有价值的特征[109,219]。正如Farid和Lyu[62]开创性研究所示,基于高阶图像统计量的特征仍有巨大改进空间。这些特征在计算机图形学、生物识别和隐写分析等领域表现卓越,因其能精准捕捉图像微纹理的细微变化。值得一提的是,最著名的噪声残差识别模型[67]最初是为隐写术开发的,现已成功应用于法医学领域。当图像经过高通滤波器处理(可捕捉微小伪影)后,这些特征便基于特定邻域关联频率构建而成。
2.2 用于篡改检测的深度学习方法
另一方面,如图5所示,在基于深度学习的方法中,特征提取是自动完成的,无需手动预过滤步骤并生成特征图。

因此,这些模型是特征学习和分类型研究问题的最佳解决方案[79]。过去十年间,数据驱动技术已在各学科领域广泛应用,数据驱动模型的采用率也显著提升。图像篡改检测通常借助数据驱动方法实现[15,37,151,159]。在篡改检测中,将大量真实与篡改图像数据输入基于深度学习的图像篡改检测模型。当输入篡改图像时,该模型能在短时间内区分两类图像[37]。训练集与测试集共同构建数据集,通过专业训练模型提取照片的底层特征。此外,数据驱动的训练模型采用多层结构,每层均配备可训练参数以实现图像分类。然而,训练数据量越大模型精度越高,但海量数据训练过程耗时费力。因此,采用计算机生成视觉图像进行模型训练的解决方案,可有效降低文献[102,168]中报告的复杂度。
与之相反,在早期尝试识别照片篡改时,人们仅偶尔考虑到三种篡改技术(即复制-移动、复制-粘贴和图像修复)中的一种会被后续的图像后期处理所采用。举例来说,复制-粘贴被描述为直接将图像部分从一张图片复制粘贴到另一张图片上的简单操作,无需使用后期处理技术[76]。为了让最终成品在视觉上更不易被察觉,真实的篡改行为通常会采用后期处理技术来平滑篡改区域的边界。后期处理技术主要分为两种类型:其一是主动后期处理技术,通过模糊、重采样、调整亮度和对比度等方式增强篡改效果;其二是被动后期处理,这类技术可能在数据压缩、添加噪声以及使用JPEG格式进行图像去饱和化时意外应用于被篡改的照片[181]。
3.篡改检测技术的技术探讨
由于图像和视频篡改过程的复杂性,其自动检测存在显著挑战。本节将系统探讨多种篡改检测方法,包括检测技术与篡改参数分类。此外,针对特定篡改手法(如重采样、对比度增强、中值滤波、压缩编码等特征指纹)的检测方法也将展开讨论,重点解析单次、二次、三次压缩及其组合形式的识别技术。
3.1指纹重采样
最初,我们从图像重采样操作入手,当图像被放大、旋转或进行仿射变换时,图像重采样操作就会发生,其在取证领域具有特殊意义。然而,若在图像中发现重采样痕迹,虽表明存在图像处理痕迹,但并不能证明该图像是伪造品。通常来说,当采用剪切粘贴技术时,需要对背景图像添加的对象进行缩放或旋转处理,才能让伪造图像在视觉上显得真实可信。例如,对数字图像I可执行非对齐裁剪、缩放、旋转及顺序几何修改等任意组合操作。根据采样理论,设计无限支撑的Sinc滤波器难以实现完美重建。因此,诸如线性、三次和截断Sinc等具有有限支撑的插值滤波器被广泛应用。通过将坐标轴(x1,x2)∈Z2映射到A(x1,x2)T+(θ1,θ2)T,可生成具有不同像素强度值的新采样网格。其中,2×2变换矩阵(A)用于扩展、旋转和倾斜网格,平移矩阵(θ1,θ2)T则用于移动网格。缩放过程的变换矩阵如下所示
Aζ=[ζ00ζ]
其中,‘ ζ ’为缩放因子。对于图像旋转,具有 θ 旋转角度的 Aθ 表示为
Aθ=[cosθ−sinθsinθcosθ]
当进行重采样时,可通过执行与插值核h(x1,x2)的卷积运算,获得图像的新采样网格(y1,y2)及其强度值。
IR=h(x1,x2)∗I(x1,x2),
其中,IR是基于原始图像I生成的伪造图像。因此,必须考虑重采样与后JPEG压缩的组合方案,因为这些方案能够提供关于图像先前历史的关键信息。
为实现这一目标,多位学者提出了基于重采样检测算法的图像伪造检测方案。文献[145]指出,重采样图像中每个像素与其相邻像素存在相关性,研究者采用期望最大化(EM)算法捕捉像素间的周期性关联。该算法基于一系列基线变量,但需要较长时间才能完成计算。Kirchner[95]提出基于线性预测器中最高谱斜率概率图(p-map)的重采样检测器以降低计算复杂度,但该检测器在图像放大时效果更佳,却无法检测缩小后的图像。Gallagher[68]、Mahdian与Saic[128]证实插值信号的二阶导数具有周期性特征,该特征通过估计平均信号的离散傅里叶变换(DFT)实现计算。然而该特征的主要局限在于压缩场景下性能会显著下降。
Kirchner等人[97]提出了一种利用JPEG预压缩伪影检测压缩图像重采样的方法。该技术通过结合基于能量的[64]和基于预测器的方法[142],对JPEG重采样因子的检测与估算技术进行了优化。随后,Bianchi 和Piva[23]采用逆向工程策略,通过重构图像估算量化矩阵和重采样因子。从频谱分析方法出发,Padin等人[184,185]采用了其他线性和一维信号分析方法。此外,文献[147]提出了一种重采样检测器,该检测器通过利用概率图(Pmap)频谱的周期性特征(如图6所示),能够检测放大图像与原始图像之间的差异。不过,该检测器的分析仅基于放大图像,而将缩小图像的分析留待后续研究。
另一方面,卷积神经网络(CNN)因其在计算机视觉领域的突破性发展[77,101,168],在媒体取证领域得到广泛应用。与传统视觉问题不同,图像取证研究主要聚焦于比其他问题更棘手的低级模式识别。这种研究思路在深度学习框架中尤为常见。当前多数深度学习方法采用的策略是:将残差图像输入网络池,通过约束学习过程来聚焦残差层的训练。具体实现时,可在第一层添加固定权重的初始层[152]。此外,可训练[123]或高通滤波器[15]被用于通用图像处理检测。其方法的主要缺陷在于仅能分析低JPEG压缩率的图像放大场景,而高压缩率的图像缩小则留待后续研究。
在文献[197]中,研究者通过特征提取和异常检测问题定位图像篡改,共学习了385种图像处理操作。此外,基于Xception的CNN架构通过聚焦小尺寸图像块[204]实现了对多种图像篡改的分类。MCNet网络则通过整合空间、频率和压缩等多领域特征对JPEG图像进行分类[207]。然而这些网络对JPEG预压缩图像的处理效果尚可,但对JPEG后处理(即重新压缩图像)的识别效果显著下降。近期研究 MSRD 被用于学习多种图像篡改检测的特征[150]。为便于理解,表2汇总了经典与深度学习方法在重采样检测与估计领域中采用的实验设置,包括插值技术、特征提取技术及分类器等参数。

3.2中值过滤指纹
在图像处理领域,中值滤波作为另一种图像编辑技术备受关注。这种非线性滤波方法能在平滑信号的同时保留边缘特征,因此常被用于数字照片的去噪处理。由Tukey在[86]中首次提出的中值滤波器,至今仍是应用最广泛的非线性滤波器。此后,该技术也被广泛应用于其他图像处理场景。关于中值滤波的检测方法,文献[114]对二维图像的中值滤波统计分析进行了研究。作为基于像素的图像处理操作,中值滤波器会逐个处理图像中的每个像素,最终生成的中值滤波图像Imed计算公式如下:
Imed=medn(I(x,y)),
其中,公式(4)中的medn表示窗口尺寸为n×n的中值滤波器,标准滤波器窗口尺寸分别为3×3和5×5像素。廖等人在[114]中首次研究了二维信号中值滤波器输入与输出之间的关联性,这一发现对法医学分析具有重要价值。在[29]中,艾伦·康拉德·博维克探讨了中值滤波器如何改变像素亮度的方差分布。该研究采用独立同分布信号进行,尽管实际数字图像中相邻像素存在高度关联性,但这些信号彼此之间并无关联。虽然图像处理基础技术可能不会完全破坏图像的真实性,但在照片法医学分析中仍具有研究价值,因为这些技术会以不同方式改变图像分析方法。法医学专家尤其关注中值滤波器(MF)等基础图像处理技术。在伪造图像分析中,MF能有效掩盖其他处理留下的明显篡改痕迹。许多法医学技术假设相邻像素之间存在线性关联,例如重采样和CFA插值检测[145]。然而,使用像素强度的局部线性预测器时,Popescu的重采样检测方法(见[145])已被证明易受中值滤波影响(见[96])。作为一种非线性算子,MF(中值滤波器)可通过破坏线性依赖关系,成为对抗插值检测技术的有效手段。因此,通过取证MF检测技术,可揭示新的重采样活动,例如中值滤波残差(MFR)的提取。
MFR=medn(I)−(I).
大多数技术(如传统方法和基于卷积神经网络的方法)都采用测试图像的中值滤波(MFR)[74,93,124,170,187]。例如,文献[93]通过图7展示了一阶矩与MFR的区别。伪造过程的最后一步是使用中值滤波器来掩盖所有显著边缘。此外,许多现代取证技术都假设像素之间存在线性关系,但引入中值滤波器等非线性滤波器后,这种线性关系就会被打破。中值滤波取证检测技术可根据图像特征提取的领域进行大致分类。Chan等人[37]通过改进的CNN实现了中值滤波图像检测,并提出在标准CNN中加入新滤波层(即MFR)可提升检测效果。Bayer等人[15]提出了一种识别简单操作的通用策略:训练CNN抑制图像内容后,该网络会通过新约束卷积层学习的预测误差滤波器自动提取特征。Tang等人[180]构建了新型MFNet网络用于检测低分辨率照片中的中值取证特征。此外,Yu等人[210]在开发基于CNN的后JPEG压缩低分辨率中值图像识别技术时,建议在预处理阶段使用20个高通滤波器(HPF)残差来隐藏图像内容。与文献[210]类似,杨[204]在预处理阶段引入了带放大层的卷积神经网络(CNN)来检测中值滤波(MF)。近期,张等人在[216]中提出了一种基于离散余弦变换域的自适应滤波层作为取证技术,用于检测MF。最后,表3总结了最具影响力的中值滤波取证研究中涉及的实验图像总数、图像尺寸、特征提取技术以及所采用的机器学习分类器类型。

3.3CE指纹
图像的照明可通过一种称为CE的编辑方法进行调整。伪造者可能通过增强图像中被篡改区域的对比度,以确保剪切粘贴伪造过程中整体光照的一致性。为改变对比度,需对信号值应用单调递增且非线性的映射函数。通常,测试图像(I)的像素值会通过该映射函数(T(.))发生内部变化。
y=T(x),x,y=0,1,2,3,......255,
其中x,y分别表示应用映射函数前后的像素值。为判断数字图像是否经过对比度增强(CE)处理,学界已提出多种方法[31,54,173]。早期CE取证技术[173]通过对比原始图像与处理后图像的一维灰度直方图,发现两者存在差异。根据Stamm和Liu[173]的研究,纯图像的一维直方图轮廓平滑,而对比度增强图像的轮廓则呈现锯齿状并伴有峰谷。通过傅里叶变换获取直方图功率谱密度,当该值超过预设阈值时,即可判定目标图像经过对比度增强。Cao等人[31]提出了一种替代性解读:将CE图像直方图的零高度间隙视为CE特征,因为JPEG压缩等图像处理方法可能导致直方图出现峰值。通过检测直方图中两个区间间的间隙数量,若间隙数超过预设阈值,则判定图像经CE处理。然而,反取证方法难以消除这些基于一维直方图的基本特征。
为解决这一问题,De Rosa等人[54]尝试通过构建 SVM 将图像分类为完整图像、对比度增强图像或经反法医处理的图像。具体而言,作者采用原始图像、伽马校正图像和对比度增强图像的广义线性组合模型(GLCM,general linear combination model),如图8所示。

该方法使用三分类 SVM 进行分类,通过将 GLCM 各行方差值相加生成一维直方图作为 SVM 训练的特征向量。由于该 GLCM 被用于构建独立的基础特征向量,因此很难说二维数据的使用是否符合合理用途。这是一种不确定的状况;这是二阶统计量首次应用于CE取证,但在此处尝试应用二阶统计量无疑也是首次。先前报道的计算机取证方法[31,54,173]主要依赖手工特征提取,包含多种特征提取与分类技术。然而这些方法在检测经过反取证攻击篡改的图像时效果欠佳。尽管基于深度学习模型的计算机取证分析尚属空白,但已有研究尝试通过深度学习模型处理数字图像取证中的各类篡改。卷积神经网络(CNN)最早应用于图像取证领域的早期文献[37],该研究通过CNN构建了中值滤波图像检测器。研究者通过预处理步骤获取中值滤波率(MFR),从而更清晰地呈现篡改痕迹。将该残差输入CNN后,检测器能增强篡改特征,相较于直接使用原始图像训练,性能显著提升。作为传统预处理的替代方案,Bayer和Stamm[15]开发了约束预处理层,该技术在隐藏图像信息的同时,有效防止了内容相关特征的学习。值得注意的是,该技术不仅支持中值滤波,还能处理双线性插值、高斯模糊及添加 AWGN 等基于滤波的图像篡改。此外,表4汇总了所研究的CE检测及其估计实验设置,包括插值方法、特征提取策略和分类器,以便于理解,这些研究采用了传统方法和深度学习方法。

3.4压缩指纹
压缩和编码会留下可识别的指纹,就像许多其他信号处理过程一样。因此,在数字多媒体信号中常见到压缩或编码的指纹。由于指纹特征的普遍存在,研究人员开发了多种压缩或编码指纹的方法来实现各类取证功能。例如验证多媒体内容的合法性、追溯其来源以及处理历史等。在取证领域,有损压缩线索最受关注和研究。由于JPEG作为压缩标准被广泛使用,其指纹特征在取证中扮演着关键角色。判断图像是否经过两次不同质量参数的JPEG压缩,是取证领域重要且研究充分的问题。例如,双重JPEG压缩的证据表明图像可能被篡改,但修改后必须重新保存,才能揭示其处理历史的关键细节。视觉特征与噪声元素共同作用,可揭示篡改痕迹。双重JPEG压缩因其在DCT域(尤其是块DCT系数直方图)留下的异常伪影而臭名昭著[144]。因此,许多已报道的检测技术依赖于DCT系数的一阶统计量来做出判断。例如,文献[100,177]中的模型方法基于块DCT中一阶或二阶有效系数的分布,而文献[141]中的数据驱动方法则分析低频系数的直方图。研究者还提出了基于数据驱动的检测方法,这类方法通过分析二阶统计量特征来实现(例如参考文献[36,188])。虽然这些方法能有效判断整幅图像是否采用单JPEG或双JPEG压缩格式,但由于需要精确计算相关统计量,往往难以处理较小的图像块。由于图像仅被局部篡改,这类方法在检测图像篡改时效果欠佳。
目前已有多种识别非对齐双压缩(NA- DJPEG)的替代技术被提出,其中部分方法基于像素域提取的多重特征[43,125],另一些则采用离散余弦变换(DCT)域特征[21,148]。例如,文献[43]的作者提出了一种检测对齐与非对齐再压缩的方法,该方案巧妙结合了空间域与频域中的周期性伪影。具体而言,当存在NA- DJPEG 压缩时,通过计算特征集合来测量块状伪影(BAR)的周期性;而当存在对齐双压缩(A- DJPEG)时,则采用另一组特征集合来估计DCT系数的周期性。与文献[21]相比,该方法在检测非对齐再压缩方面表现欠佳。此外,Bianchi和Piva[22]提出了一种取证技术,用于检测 DJPEG 压缩(无论是否对齐)中的局部篡改。Wang等人[190]开发了一种基于卷积神经网络(CNN)的双JPEG压缩检测器,其输入为包含99个区间组的直方图。随后将DCT系数按锯齿状排列分布在前九个交流子带中,生成九个对应的直方图。在构建各子带直方图时,仅考虑-5至+5区间(含“0”)的系数值。为便于理解直方图分析,图9展示了单次与双次压缩图像的直方图对比。

图9.单次压缩图像在(0,1)位置的DCT系数直方图,a) QF 1=60,b) QF 1=90。
双次压缩图像的直方图,c) QF 1=90, QF 2=60,d) QF 1=60, QF 2=90,引自[190]。
因此,我们通过拼接九个各含11个分箱的直方图,最终获得了包含99个分箱的直方图。文献[5]提出了一种多流卷积神经网络,能够区分未压缩、单压缩和双压缩图像。具体而言,多流网络采用空间流CNN处理三通道彩色图像,而频率流CNN则基于DCT系数的一维直方图。最终,JPEG压缩决策通过整合两个CNN生成的特征向量实现。但需注意,这两种策略均采用一维CNN——其输入并非图像,而是基于DCT系数直方图训练。此外,Barni等人[9]提出了一种基于CNN的非对齐与对齐JPEG压缩检测器,该方法将均值减除图像、噪声残差图像和DCT特征图像作为预处理步骤,通过测试验证了这些输入对双JPEG有损压缩图像的影响。在此过程中,三个独立的输入作为预处理步骤被输入(即均值减除图像、噪声残差图像和DCT特征图像),并经过测试以确定其对双JPEG有损压缩图像的影响。Huang等人[84]报道了将舍入和截断误差作为输入至密集卷积神经网络(CNN)的方法,该网络能够识别具有相同量化矩阵(如图10所示)的单次和双次压缩图像。

图10.检测到的圆角误差(红色)与截断误差(蓝色)块,分别对应(a)单次和(b)双次JPEG压缩(QF =90,见文献[84])。
此外,表5汇总了已报道的用于检测双JPEG压缩的技术,突显了各种方法学进展及其性能特征。

3.5通用篡改检测技术
通常,通用图像修改检测方法会通过多种图像篡改操作进行识别。检测后期处理过程中留下的痕迹通常是通用图像篡改检测系统的基础。利用这些痕迹,可以通过多种基于深度学习的技术来识别通用图像篡改。因此,表7中提供了各种通用图像篡改检测方法的简要描述,包括特征提取、发表年份、方法论、文章摘要、性能指标及评估数据集。

本节回顾了近期利用卷积神经网络(CNN)检测和定位篡改的相关研究。从取证角度来看,该预处理层提取的最关键细节是像素与其邻近像素的局部依赖关系。为此,Bayar和Stamm[15]提出了一种基于深度学习的通用图像篡改检测解决方案。具体而言,在文献[15]中,k滤波器的权重被单独指定为
ωk1(0,0)=−1andx1,x2=0∑ωk1(x1,x2)=1,
其中, ωk1(x1,x2)表示第k个滤波器在位置(x1,x2)处的权重, ωk1(0,0)则表示对应滤波器中心位置的权重,其输出结果如图11所示。

图11. 用于约束卷积层的三个滤波器输出[15,17]。
该过程通过在图像块中移动卷积核,对每个像素重复执行。这种新型卷积层相比标准CNN层具有显著改进。针对多种图像篡改操作,已有通用检测技术被开发应用[15,17,150,207]。与传统需要人工预处理或特征选择的方法不同,本方法采用创新的卷积层,在自动隐藏图像内容的同时,同步捕捉篡改操作留下的痕迹。该层的像素与其相邻像素的关系是:通过改变像素位置来隐藏图像内容。为利用卷积层学习预测误差而非图像内容,其初始权重采用随机确定,并在所有滤波器和迭代过程中统一应用约束条件。
这些方法已证实其能够自主从数据中学习图像编辑特征。为在隐藏图像纹理信息的同时识别大量图像处理操作,[15]提出了一种独特的受限卷积层CNN,而[17]则对该网络进行了优化改进。此外,文献[41]还报道了一种用于通用视觉取证的密集连接CNN。在此过程中,通过各向同性卷积层进行高通滤波,可有效凸显图像处理过程中产生的伪影。此外,文献[131]基于[15]提出了一种图像修改检测方法,采用深度孪生卷积神经网络。该方法不局限于检测,而是着重判断给定的输入图像块(两张照片)是否经过类似处理,并进一步分类图像是否被篡改。另一方面,文献[204]采用Xception架构对小尺寸图像进行多种图像处理任务分类,其核心目标在于学习修改图像的特征变化。Bayar与Stamm的另一项研究[16]提出数据驱动策略,无需单独分析每种篡改形式即可估算参数。文献[30]则运用两种技术精准识别照片篡改实例。文献[8]中,Radon、拉普拉斯和快速傅里叶变换(FFT)特征通过训练深度神经网络来识别单一流中的图像篡改。第二流则采用长短期记忆(LSTM)网络学习相关性(即相邻区块边界修改与现有缩放特征区块之间的关联),从而将判别特征输入softmax激活函数进行分类。与之相反,[217]采用堆叠自编码器进行特征理解,并运用上下文数据来识别大量图像篡改企图。
此外,针对专业图像取证任务,研究者们开发了有效的数据驱动方法,而非采用预处理层。文献[28]的作者采用低质量JPEG压缩技术进行降采样,以识别图像的整体修改痕迹。此外,降噪(内容敏感低通滤波)、低通滤波(模糊处理)、高通滤波(锐化处理)以及色调校正(包括直方图均衡化)被确定为图像处理的常规步骤。文献[27]探讨了基于CNN架构的最大似然检测器在取证准确性方面的表现。另一方面,文献[40]讨论了通过密集CNN结构来增强图像修改相关特征传播的通用取证方法。此外,该方法还实现了人工设计的11种不同图像修改类型同步检测。表6总结了若干关键图像操作(‘MF’:中值滤波,‘GB’:高斯模糊,‘RS’:重采样,‘JPEG’:有损压缩)及基于数据驱动算法的运算符链检测技术。

3.6篡改定位技术的探讨
本节探讨早期报道的篡改定位方法及其在不同数据集上的表现。由于不同研究者使用不同的数据集、成像模式、分割方法和验证标准,比较所有这些方法的性能是一项艰巨的任务。用于重建多媒体产品制作步骤、寻找篡改痕迹或识别伪造品的取证方法,根据其操作模式可分为三大类。图12展示了广义伪造及其对应的真实案例,例如拼接、复制移动和对象移除(图像修复)等技术,这些案例均来自事实数据集[129]。

图12. 从事实数据集[129]中选取三种不同伪造样本,分别为(a)拼接、(b)复制-移动、(c)对象移除(图像修复),其对应的真实样本分别显示于(d)、(e)和(f)中。
伪造者常采用图像替换技术,通过将同一图像的不同区域互换来篡改内容。这种手法通常会利用树木、草地等自然纹理元素遮掩物体,使其难以被察觉。此外,该技术还能对图像中的关键特征进行多次复制。因此,复制-移动伪造术成为法医专家最早研究的欺诈手法之一。在专业文献中,这种图像区域的复制操作被称为“复制-移动”。而与“剪切-粘贴”相对的拼接技术,则被用于描述多张照片间区域的重复叠加,相关研究可见于[78,151,163]等文献。无论采用多少张照片作为素材来源,术语“拼接”和“构图”已被用于描述通过区域复制实现的两种图像处理方式(参见例如[76,133,165,183])。为避免混淆,我们将处理两张或更多照片的操作称为“剪切-粘贴”,而非“拼接”(该术语分别指代复制-移动和剪切-粘贴两种操作)。名称“擦除-填充”(该术语采用与复制-移动和拼接相同的命名策略)实际上更广为人知的名称为“对象移除”,其最初指代的是图像中错位或受损部分的恢复应用[73]。为强化目标区域的填充效果,我们现采用“擦除-填充”这一表述。三类篡改行为的特征属性详见表7。

这三种伪造手法存在诸多相似之处。首先,所有图像篡改方法都通过用新图形内容替换原图部分区域来实现显著改变,通过对比修改后的图像与原图即可发现篡改痕迹。其次,未修改的原始图像始终是复制-移动和擦除-填充技术的主要素材来源。再者,复制-移动与拼接技术比擦除-填充能进行更广泛的图像处理。因此,当所有原始图像并列展示时,某些重复区域便清晰可见。最后,每种技术都有其特定用途(例如,复制-移动是最常用的从照片中移除难看物体的方法,通过将其移至背景实现)。另一种实体移除技术擦除-填充会用邻近物体的纹理填充目标区域,而剪切-粘贴则常用于向未修改图像添加新元素。删除与添加通常属于附加操作:删除物品时添加风景背景(复制-移动),而添加外部实体则相当于擦除背景部分(擦除-填充)。总体而言,剪切-粘贴等伪造技术可实现用其他图像背景替换目标实体、通过复制-移动插入新元素、以及通过擦除-填充修复受损图像。
3.7复制移动与复制粘贴指纹
为识别此类伪造行为,该领域鲜有研究聚焦于多类型或通用图像处理检测[110,151,159]。该领域多数研究集中于识别单一处理类型,例如[46]中的复制-移动或[214]中的拼接。要完成这项艰巨任务,我们必须重新审视图像篡改现实场景中关于操纵线索的判断标准。本综述为评估当前图像篡改分类及其配套检测方法提供了全新视角。通过分析典型图像篡改案例,我们可以发现研究焦点正从简单篡改转向复杂场景。通过对比复制-移动检测算法与拼接检测方法,边缘异常比局部重复提供了更广泛的篡改信号。当需要将篡改照片与其他修改图像结合时,识别篡改区域的位置至关重要,因为仅凭检测无法证明篡改行为。本研究评析了近期发表的文献,为初学者理解图像篡改及其检测提供入门指南。表7展示了近期关于图像篡改检测与定位的相关研究。多媒体取证领域最具挑战性的任务之一是识别复制-移动伪造(CMF,copy-move forgery),这种伪造手段旨在隐藏或复制原始图像的特定细节或部分。“复制-移动伪造”特指复制图像小片段后叠加到另一相似图像上的手法。文献[119]提出了 CMF 识别技术的高层次框架。然而,拼接技术需要从图像中裁剪特定区域并替换为其他内容。早期已有大量检测 CMF 的研究报道,其中多数方法基于以下两种方式:(i)基于关键点的特征匹配[4,25,220]以识别重复区域;(ii)基于块的特征匹配[33,89,126,127]将图像分割为互不重叠的区域。
然而,这些方法存在若干问题,包括其较高的计算复杂度。近期,研究人员开始采用数据驱动方法来识别图像中的复制-移动和剪切-粘贴伪造痕迹[56,119,122,159,196]。表7列举了若干检测拼接、复制-移动及图像修复操作的方法,包括融合法和分割网络。此外,该表还列出了研究方法、文章摘要、性能特征以及用于评估研究的数据集。Rao和Ni[151]提出了一种基于深度学习架构的独特拼接与 CMF 识别方法。具体而言,他们通过对输入RGB彩色图像进行图像处理操作,训练基于层级特征的监督式卷积神经网络(CNN)。与传统CNN使用随机种子初始化权重不同,该方法采用 HPF 集(通常用于空间丰富模型中残差估计)。在此方法中,初始层包含源自三十个高通滤波器(HPF)的权重,这些滤波器可隐藏图像基本信息并检测由操作产生的微小伪影。自主特征学习CNN架构由十个独立层组成:预训练CNN从测试图像生成基于密集补丁的特征,随后通过特征融合方法将这些特征融合以获得最终判别特征。最后, SVM 分类器利用这些判别特征来判断物品的真实性是否伪造。此外,在文献[224]中,提出了一种双流加速R-CNN,通过将第一网络与通用深度CNN连接,利用RGB流和噪声流的特征。该方法中,噪声流特征和RGB流特征均来自 SRM 滤波器,RGB流如图13所示。

图13. 第一列:篡改后的图像,第二列:第一列中的红色边界框,第三列:篡改区域与原始区域之间的局部噪声不一致性,第四列:真实图像。视觉与噪声元素协同作用,通过[224]揭示篡改伪影。
3.8修复指纹
近年来,针对图像对象去除(即图像修复)领域,学界提出了多种深度学习模型。基于深度学习的图像修复系统能够生成完全原创内容并达到顶尖修复效果,这得益于其利用海量数据集进行图像视觉语言理解。Pathak等人[140]率先探索了通过训练深度生成对抗网络(GAN)来处理图像中巨大修复空缺的方法。然而,这类网络存在全局一致性不足的问题,且常产生高度干扰的视觉伪影。Iizuka等人[161]开发的生成网络通过双上下文判别器实现了全局与局部特征的协同。另一方面,部分研究[200,208]提出采用注意力机制,该机制不仅利用隐藏层特征,还能综合评估错位元素。为有效管理历史信息并防止误用,Wang等人[189]提出采用多阶段上下文注意力机制来增强图像注意力。不过,大量文献[123,209]仍采用部分卷积或门控卷积来最小化色彩失配与模糊问题。在这些案例中,卷积层被隐藏并经过重归一化处理,仅应用于先前标注的区域。为提升图像修复检测性能,文献[132]和[195]的作者建议采用边缘/ LBP 生成器作为第一步,随后结合当前两阶段网络的主流趋势,使用图像补全网络进行后续处理。此外,遮挡人脸识别算法也能从图像修复技术中获益[69,106]。文献[69]提出基于图像修复的识别多样性生成对抗网络(GAN),以增强训练有素的人脸识别器对遮挡人脸的识别能力。文献[106]则开发了图像修复引导的去遮挡净化系统,实现有效掩码人脸识别。另一方面,为应对图像修复修改的恶意使用,学界已开发出多种图像修复取证技术[2,39,60,63,83,113,182,225]。这些技术均基于一个前提:伪造行为更可能出现在图像中高度相似的区块内。另一项有效的伪造检测系统通过结合核心像素映射、标记最大零连通度组件以及识别片段拼接,在文献[113]中得以发表。近期文献[225]构建了一个基于标签矩阵和加权交叉熵的训练编码器-解码器网络,用于记录图像篡改痕迹。这些法医检测方法无法识别图像修复痕迹,因为文献[108]中报道的基于扩散的修复技术在修复区域生成的图像块无法实现视觉上的完全复现。为解决这一问题,[108]提出通过沿等光度线方向计算图像拉普拉斯算子的局部方差来检测基于扩散的修复痕迹。此外,[197]还开发了更通用的伪造检测网络ManTra-Net,该网络首先提取图像处理痕迹特征,再通过评估局部特征与参考特征的差异程度来识别异常区域。这使得能够检测伪造物(包括图像修复)的复杂组合。然而,在某些特殊情况下,ManTra-Net可能最终失效。例如当图像中存在大量伪特征时。为精准识别图像修复区域,文献[194]的作者提出了一种革命性的端到端图像修复检测网络(IID -Net,Image Inpainting Detection Network)。该网络通过增强、提取和决策模块构建而成,研究显示多数图像修复技术存在相似伪影。

图14。第一列:原始图像,第二列:使用[123,132,195]生成的伪造图像,第三列:以伪造图像为输入的 IID -Net[194]输出结果。
图14(c)展示了 IID -Net对图14(b)的直接检测结果(未经过后处理)。该网络的训练既未使用图14(a)的原始图像,也未采用文献[123,132,195]中的修复方法。
由于基于深度学习的图像修复技术能够利用学习到的高级语义信息生成更复杂的结构甚至新奇物体,这些技术在修复区域可能留下完全不同的伪影,导致前述法医方法[107]的检测性能极差。李和黄[107]开发的HP- FCN 是一种基于深度学习的方法,用于精确定位图像中被深度修复技术篡改的区域。他们采用高通预滤波模块来抑制图像中的不必要细节,增强修复区域与未篡改区域之间的对比度。此外,基于小波分析的方法已证实HP- FCN 能有效检测修复伪造。尽管使用了通过相同修复流程生成的训练集及其实际意义,[107]并未探讨该方法对未见过的修复技术的泛化能力。
4.表现评价和基准比较
本节概述了用于评估操纵检测与定位技术的数据集。另一方面,任何方法性能定量研究的关键环节在于明确其局限性,而验证指标在此过程中发挥着至关重要的作用。关于验证指标与性能指标的详细讨论,请参阅附录B(验证指标)和附录C(性能指标)。
4.1数据集
用于构建篡改数据集的图像均经过修改,原始图像也被纳入其中。在篡改图像数据集中,照片通常被标注为‘0’表示原始状态,‘1’表示篡改状态。该数据集包含真实图像作为基准,以便用于检测性能的基准测试。最初用于研究图像篡改的数据集规模较小[80,134],仅包含少量照片和单一篡改方法。过去,要判断图像是否为原始或被篡改,需要通过多个特征提取器分离不同篡改类型留下的独特痕迹,随后将预测的掩码与真实掩码进行比对。
要构建一个包含多种篡改操作、不同图像格式及多样化场景照片的完美数据集,历来是业界公认的难题。尽管深度学习的发展通常需要海量数据支撑[72],但目前可获取的大型数据集仅寥寥无几,即便这些包含数千张照片的资源,也难以满足数据驱动型方法的需求。为此,研究者常利用现有数据集生成人工图像[8,9,15,51,90,199]。这类数据集通过识别各类篡改操作并精确定位修改区域,为现实世界中的图像篡改检测提供了重要依据。本文调研了若干开源数据集(详见表8)。表8提供了图像修改数据集的快速概览,包括数据集创建年份、照片尺寸、图像数量等详细信息,以及对数据集变更的简要说明。

5.未来发展方向展望
面对多媒体取证领域不断演变的挑战,未来研究必须聚焦三大方向:提升检测能力、填补关键研究空白、运用多模态分析技术。本节重点阐述未来工作的三大核心方向:优化检测方法、填补研究空白、整合上下文信息实现全面分析。随着数据篡改技术日趋复杂,下文将探讨取证工具如何与时俱进,有效应对这些挑战。
5.1复杂篡改的检测能力提升
这项调查揭示了多媒体取证领域在过去十五年间取得的显著进展。然而,诸多问题亟待解决,新挑战层出不穷,伪造分析专家仍需跨越漫长征程才能抵达目标。另一方面,数据驱动方法的引入无疑为数据篡改技术和取证工具注入了强劲动力[191],从而推动了新课题的探索。但更根本的解释在于:该研究领域存在双重博弈。专业对手的存在意味着任何机制都无法提供永久性安全保障,应对未知威胁始终需要创新方法。基于此前提,聚焦最具价值的研究方向至关重要。随着篡改手段日趋复杂,任何取证工具的有效性都会全面下降。要突破这一困境,如何整合现有信息成为亟待深入研究的课题,必须将多种检测工具、网络架构与分析方法进行融合。因此,推进多工具融合与多资产分析具有重要意义。媒体资产本身及其相关证据,正日益成为关键的分析对象。此外,仅检查用于传播虚假信息的图片或视频片段(若缺乏文本、音频及其他上下文信息)是不够的[70,94,99],以及[26]。虽然检测能力的进步至关重要,但解决当前法医工具的技术局限性和研究空白同样重要,以确保其稳健性和适应性。
5.2多媒体取证中的关键研究空白
多媒体取证领域最紧迫的挑战之一,源于深度学习工具的技术局限性,尤其是其难以适应未见场景和数据转换的能力。当我们聚焦深度学习工具时,深度网络无法适应训练过程中未见情境的(非)能力,可能是最紧迫的技术难题。这一问题在多个场景中显现:首先,媒体资产的高阶统计特征对伪造检测至关重要,但压缩、缩放、旋转、重捕获等看似无害的处理流程会显著改变这些特征。必须同时考虑旨在隐藏取证证据的恶意篡改与无害篡改。训练集难以涵盖所有可能的转换组合,因此需要采用替代策略以增强鲁棒性。此外,深度网络需要在无需完全重新训练的情况下轻松适应新篡改——由于缺乏训练数据或存在破坏性遗忘现象,这可能难以实现——以跟上篡改手法的瞬时优化。填补这些研究空白将为更全面的取证分析铺平道路,通过整合多模态和上下文信息来提升检测精度。
5.3多模态和上下文感知的取证分析
为实现多媒体取证的全面方法,未来研究必须聚焦于在传统图像分析之外整合多模态数据与上下文信息。深度学习模型在图像篡改检测领域的应用前景广阔且充满潜力,主要发展方向包括:当前深度学习模型在识别复杂图像篡改形式方面存在局限性,通过开发能更精准识别细微篡改的新型模型,仍有提升空间。学界正日益关注开发能整合音频、视频、文本等多种模态的模型,以增强图像篡改识别的准确性。随着深度学习模型在图像篡改检测中的广泛应用,攻击者可能会开发对抗性攻击手段来绕过这些模型,因此需要开发具有抗攻击能力的模型。深度学习模型常被视为“黑箱”,因其决策过程难以理解,亟需开发更透明、可解释的模型以提升其可信度。特别是在安全关键领域,实时检测图像篡改的需求尤为迫切。通过攻克这些技术难题,多媒体取证领域将逐步实现稳健、灵活且具备情境感知能力的图像篡改检测解决方案。
6.结论
过去二十年间,执法、情报及私家侦探等领域的研究者中,仅有少数人关注多媒体取证技术。作为图像篡改检测技术的重要组成部分,本综述提供了诸多实用见解,其核心目标在于系统梳理现有文献中用于图像篡改检测与定位的图像增强、分割、提取及分类方法。因此,本研究有望推动对前沿技术评估的新认知,成为图像篡改与后期处理操作的关键环节。此外,本文还深入剖析了最尖端方法的优缺点,并量化评估了敏感度、特异度、准确率、精确率、F1分数及曲线下面积(AUC)等性能指标。更具体而言,关于数据驱动方法的技术讨论为研究者提供了客观评估不同方案的建设性思路。综上所述,尽管深度学习模型在图像篡改检测领域取得重大突破,但要确保这些方法的可靠性、稳健性与可信度仍需持续努力。本文还探讨了技术讨论、取证应用及未来发展方向等议题。本综述全面概述了数字图像取证领域的现有方法与数据库,但未来研究应聚焦于更细致的技术对比分析,以推动该领域发展并应对其不断演变的挑战。该综述可为学术界与伪造品分析专家在确定图像篡改识别与分析方法时提供参考。
附录A-列表
本节总结基于深度学习的图像操纵检测与定位技术。表1列出了关键方法及其特征。

附录B-验证指标
本节重点探讨验证指标,这些指标在深度学习方法的定量性能分析及局限性识别中具有重要作用。不同分析方法和数据源会改变这些指标的取值范围。针对操纵检测与定位任务,需选择合适的测量技术。下文将具体阐述部分验证指标。
- 真实对比法:该方法通过将篡改后的图像与原始或真实版本进行比对,判断图像是否被篡改。
- 误差水平分析(Ela):该技术通过将图像以较低质量重新保存,再分析原始图像与重新保存版本之间的差异。被篡改区域的误差水平会更高。
- 摄像机溯源分析:涉及元数据及拍摄设备的特征参数,包括传感器噪点、镜头畸变和色彩滤镜阵列模式。
- 法医工具:多种数字取证工具(如隐写分析)可检测图像数据中篡改痕迹。
- 目视比对:由专业人员通过观察图像中的视觉伪影或异常特征,判断是否存在篡改迹象。
必须牢记,这些验证方法并非绝对可靠,且可能产生假阳性及假阴性结果。强烈建议采用多种验证方法,以获得对图像有效性的更可靠评估。
附录C-性能指标
本节重点探讨用于定量分析图像区域分割/分类操纵效果的各类性能指标。统计指标主要基于真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)四个维度。评估图像操纵检测方法有效性的核心指标包括:
准确率:正确区分操纵图像与非操纵图像的比例。
Accuracy=TP+TN+FP+FNTP+TN
精确度:正确分类的操纵图像在所有被分类为操纵图像中的比例。
Precision=TP+FPTP
召回率:被正确分类为操纵图像的比例。
Recall=TP+FNTP
F1-分数:定义为精确率与召回率的调和平均数,其表达式为:
F1−score=2×Precision+RecallPrecision×Recall
假阳率(FPR,False Positive Rate):未经处理的图像被错误分类为经处理图像的比例。
FPR=TN+FPFP
假阴率(False Negative Rate,FNR):指经处理图像被错误分类为未经处理图像的比例。
FNR=TP+FNFN
真阳性率(TPR)与假阳性率(FPR)的权衡:TPR与 FPR 之间的平衡反映了分类器在检测图像篡改与避免误报之间的平衡。曲线下面积(AUC)表示ROC(受试者工作特征)曲线下的面积,该曲线以图形化方式呈现分类器区分篡改与未篡改图像的性能。AUC的取值范围为0到1。理想分类器的AUC值为1。
交并比(IoU):将重叠区域面积除以并集区域面积得出最终评分
IoU(A,B)=A∪B2×(A∩B)
其中A和B分别为预测掩码和真实掩码。 𝐴 ∩ 𝐵 表示两个掩码的交集区域,而 𝐴 ∪ 𝐵 表示掩码的总面积。
