Detection of Manipulations in Digital Images:A Review of Passive and Active Methods Utilizing Deep Learning

约 8298 字大约 28 分钟

2026-03-18

Detection of Manipulations in Digital Images: A Review of Passive and Active Methods Utilizing Deep Learning

Paweł Duszejko * , Tomasz Walczyna and Zbigniew Piotrowski

摘要

现代社会产生了海量数字内容，其可信度在塑造公众舆论和决策过程中起着关键作用。社交网络与深度伪造等生成技术的快速发展，显著增加了通过图像篡改传播虚假信息的风险。本文旨在综述图像完整性验证方法，重点探讨深度学习技术在被动式与主动式验证中的应用。通过分析不同场景下的验证效果，揭示其优势与局限性。研究基于科学文献与研究成果，聚焦于利用图像统计特性及嵌入式隐性水印技术检测图像篡改及定位篡改区域的方法。基于图像分析的被动式方法具有广泛适用性，可应用于多种场景，但其有效性取决于篡改复杂程度及图像特征。主动式方法通过在图像中嵌入附加信息实现精准检测与篡改定位，但需对视觉素材的创作与分发过程进行完全管控。两种方法的应用场景与资源依赖性各具特点。未来仍面临的关键挑战在于开发能够抵抗扩散模型生成的高级操作的方法，并进一步利用深度学习创新技术以保护视觉内容的完整性。

关键词：图像处理；深度学习；主动防护；被动防护；图像取证；深度伪造；真实性验证；多模态分析；水印技术

1.引言

图像篡改并非新鲜事。自摄影术与电影诞生之初，人们就不断尝试修改影像——有时手段相当原始，比如添加特效[1]、在影片中插入片尾字幕等简单元素，或是篡改风景及其构成要素[2]。历史证明这种行为可能暗藏危险，往往带有政治意图。典型案例当属1937年斯大林将尼古拉·叶若夫从照片中移除的事件，此举旨在抹去其与统治政权关联的证据[3]，如图1所示。

图1. 全权统治政权实施现实证伪的实例：将尼古拉·叶若夫从与斯大林的合影中移除[4]。

在20世纪的大部分时间里，图像与视频处理是一项劳动密集型工作，主要由专业艺术家承担[5]。他们通过模板或发挥个人创意，对图像进行局部修改或添加新元素。这一过程耗时费力，需要专业技能和艺术训练才能精准还原场景透视效果或光照分布[6]。然而随着高性能工业计算机的问世，以及随后个人电脑的普及，20世纪末至21世纪初图形与多媒体领域迎来重大突破。这一技术发展推动了多媒体数字化进程，不仅大幅简化了图像处理与编辑流程，显著提升了操作效率，还显著提升了最终作品的质量[7]。
在20世纪的大部分时间里，图像与视频处理是一项劳动密集型工作，主要由专业艺术家承担[5]。他们通过模板或发挥个人创造力，对图像进行局部修改或添加新元素。这一过程耗时费力，需要专业技能和艺术训练才能精准还原场景透视效果或光照分布[6]。然而，随着高性能工业计算机的问世，以及随后个人电脑的普及，20世纪末至21世纪初，图形与多媒体领域迎来了重大突破。这一发展进程

2.图像篡改方法

借助人工智能技术提供的先进处理算法，如今几乎人人都能以近乎专业水准编辑多媒体内容，这反而加剧了内容完整性的风险。正因如此，‘深度伪造’现象正引发各界广泛讨论。在这一语境下，它指的是将数据嵌入图像的空间域（像素值）或频域（例如使用离散余弦变换，DCT）。这种操作通常非常微小，常常只修改图像中最不显著的位。高熵区域常被选作此类修改的目标，因为它们能够使变化在人类视觉感知中保持不可察觉[17]。隐写术是两种图像处理技术之一（另一种是数字水印），旨在最小化对原始图像结构的改变。
当我们谈论图像处理时，通常指的是那些改变照片解读方式的操作。根据相关研究[18,19]，可以识别出几种主要的此类操作类型：

修图（Retouching）涉及细微的修改，旨在提升图像的美感或去除轻微瑕疵，而不会显著改变图像的语义内容或整体信息。修图可能包括对色彩、对比度、光照、景深的调整，以及消除噪声、色偏或暗角等不需要的图像缺陷。这些技术常用于摄影中，以从观看者的角度提升图像的视觉吸引力，从而影响其情感冲击力。修图在人像、时尚和广告摄影中被广泛使用。
复制-移动操作是指在同一图像中复制单个对象或一组对象。该过程通常会结合几何变换（如旋转或透视调整）以及像素值修改（包括模糊处理、对比度调节和亮度控制）。由于所有操作均在同一图像内完成，被复制对象具有相似特征（均通过同一传感器在相同场景下同步采集）。这种特性使得变换操作相对容易实现，因此成为最常见的一种图像处理技术。
对象移除操作会影响图像的语义特征，通常采用“复制-粘贴”技术实现：将目标对象的像素用图像其他区域的像素覆盖替换。另一种方法是通过完全移除目标对象像素，并用背景等周边区域的像素进行替换，从而获得视觉上协调一致的效果。
图像合成技术通过整合多源元素构建统一画面。该过程生成的虚拟场景虽不存在于现实世界，却由先前拍摄的真实物体构成。该技术常用于对特定镜头进行后期处理，通过调整画面中人物或物体的背景环境来实现视觉效果的重塑。
绘画是通过创作图形元素来替换原始图像部分的过程。与“复制粘贴”或“对象移除”操作类似，其核心目标在于改变图像的语义内涵。但关键区别在于，新生成的元素完全从零开始构建，并非源自任何现有照片。

上述图像处理技术均基于对原始图像的修改。因此，检测潜在欺诈行为通常需要将处理后的图像与原始图像进行比对。正如引言所述，深度学习领域的最新突破已在多个领域引发革命性变革，为数据处理与生成技术开辟了新可能。在图像分析领域，分割算法、检测算法及生成算法已取得显著进展。生成式人工智能（主要通过现代扩散网络实现）能够仅基于文本描述（即提示词）生成高度逼真的图像，这给图像篡改检测带来挑战——由于缺乏原始图像作为对比基准，生成图像往往无法与原始内容进行直接比对。生成式图像的创作基于生成网络训练数据集中数百万样本所学的模式特征，因此并非简单复制，而是受现有范例启发而产生的全新构图[9,14,20]。
本文旨在系统梳理保障图像完整性的核心方法论，涵盖被动式解决方案（通过分析图像自身特性）与主动式解决方案（以水印技术等为核心）。研究方法论基于对现有文献的系统分析，综合理论框架与实践案例，从而有效评估各类技术方案的实施效果与局限性。作者的核心贡献在于：精准把握深度神经网络在自动化图像篡改检测领域的发展趋势，并对现代算法训练与测试所采用的数据集进行深入探讨。
本文结构安排如下：第二部分首先定义核心概念，并系统阐述最常用的图像处理技术类型；第三部分详细说明验证解决方案所使用的数据集，同时附有数据集关键参数汇总表；第四部分重点探讨被动与主动策略，通过深度学习应用案例进行说明，并采用表格化对比方法便于评估效果；第五部分对研究进行总结，提炼主要结论，并为数字图像完整性保护领域的未来研究方向提出建议。

3.图像篡改数据集

图像篡改检测方法的有效性在很大程度上取决于训练和测试模型时所使用的数据集质量与多样性[21]。近年来，多个包含原始图像与篡改图像的专用数据集相继问世，使研究人员能够对比不同检测方法与技术方案[22]。本节将系统梳理图像篡改检测领域最重要的数据集，重点解析其特征属性、应用场景及数据可获取性。

CoMoFoD（复制-移动伪造检测）数据集[23]由Trali‘c等人于2013年开发，专门用于研究数字图像中复制-移动篡改检测方法。该数据集包含按尺寸划分的两组图像：尺寸为512×512像素的小型图像和尺寸为3000×2000像素的大型图像。小型图像类别包含10,000个样本，其中5000个为原始图像，5000个为采用复制-移动方法生成的伪造图像；大型图像类别包含3000个样本，分为1500个原始图像和1500个篡改图像。
伪造图像生成过程采用了多种几何变换技术，包括平移、旋转、缩放、畸变及其组合应用，从而显著提升了图像处理的多样性和真实感。所有图像（无论是原始图像还是经过处理的图像）均经过系列后期处理操作，具体包括：采用不同质量因子（范围20至90）的JPEG压缩、设置不同参数的高斯模糊处理、使用不同尺寸中值滤波器添加噪声、亮度调节、色彩还原以及对比度控制。这套完整的后期处理流程能够有效验证检测算法在应对实际应用场景中可能出现的各种图像畸变和变换时的鲁棒性。
CoMoFoD数据集的优势在于其多样性和复杂性。真实标注掩码的可用性使得能够在像素级别精确评估操纵检测方法。然而，其缺点在于缺乏关于所应用几何变换具体参数的信息。

CASIA [24]是检测数字图像篡改（特别是拼接或复制图像部分）研究中最重要的公共数据集之一。该数据集由中国科学院开发，提供两个版本： CASIA V1.0和 CASIA V2.0。

CASIA V1.0是该数据集的原始版本，包含分辨率相对较低的图像。该版本包含800张原始图像和921张经过处理的图像。该版本中图像尺寸的统一性便于处理与分析。
CASIA V2.0是数据集的扩展版本，图像分辨率显著提升且多样性增强。该版本包含7491张原始图像和5123张经过处理的图像。各版本图像分辨率存在差异——详见表1。

CASIA 数据集中引入的图像处理技术包括拼接、复制粘贴等操作，这些技术可对同一图像内的元素进行修改。为增强伪造图像的真实感并增加检测难度，对处理区域还进行了额外的后期处理，包括模糊处理、对比度调整和噪声添加。
CASIA 数据集的一个缺点是缺乏经过处理图像的真实掩码，这使得难以在变化定位层面准确评估检测方法的有效性。研究人员主要依赖于评估图像是否为原始或经过处理的分类指标，而无法精确识别干预区域。
尽管存在这一局限性， CASIA 仍被众多科学研究用作基准数据集。

MICC（媒体整合与通信中心）[25]是最早且最著名的数字图像篡改检测数据集之一，尤其适用于涉及复制-粘贴操作的方法研究。该数据集由佛罗伦萨大学团队开发，包含多个子集： MICC -F220、 MICC -F2000、 MICC -F600及 MICC -F8multi。

MICC -F220包含220张高分辨率图像，其中半数为原始图像，半数通过复制粘贴技术进行处理。这些处理通常包含旋转、缩放等几何变换，增加了检测难度。
MICC -F2000是扩展数据集，包含2000张图像，其中1300张为原始图像，700张为处理图像。
MICC -F600包含600张高分辨率图像，涵盖多样化场景和物体。与前两个子集类似，处理方式涉及图像部分复制粘贴，包含440张原始图像和160张处理图像。
MICC -F8multi是包含八张图像的小型子集，每张图像均经过多次处理。该子集可用于测试算法在单张图像包含多个独立伪造场景下的表现。

该数据集的一个缺点（与 CASIA 数据集类似）是缺乏能指示像素级精确操作区域的基准真实掩膜。

NIST16数据集[26]由美国国家标准与技术研究院（NIST）于2016年创建，旨在支持数字图像篡改检测研究。该数据集包含3032个文件，其中1422张为.jpg格式的测试图像（探针图像），其余为参考图像、真实掩码和元数据文件。数据集以高分辨率图像为特征，分辨率范围从360×480到4032×3024像素。数据集主要分为三大篡改类别：篡改、移除和拼接。每个类别代表不同类型的伪造行为：

图像处理技术包含对图像进行细微调整的操作，例如对照片特定区域进行修改或通过视觉优化提升外观效果。该类别包含143个真实标注掩膜，可精准显示像素级编辑区域。
去除处理涉及对图像中特定元素进行删除的操作，该组包含101个真实标注掩膜。
嵌入合成通过整合不同来源的图像片段，生成逼真但经过人工合成的图像构图，该类别包含146个真实标注掩膜。

除经过处理的图像外，该数据集还包含1244张原始图像，用作与修改后图像进行对比的基线数据。同时提供元数据文件，其中列明了对图像所应用的变换方法，但未包含详细的变换参数。

coverage [27] 是一个专为研究数字图像中复制-粘贴篡改检测而设计的数据集。该数据集由上海交通大学研究团队创建，包含高质量图像，可用于测试多种伪造检测算法的有效性。
该数据集包含100幅图像，其中50幅为原始图像，其余50幅通过复制-粘贴方法进行处理。处理过程涉及多种几何变换，包括旋转、缩放和透视变化。此外，图像中包含相似但真实的物体，这增加了算法的复杂性——算法必须区分真实相似性与人为处理产生的相似性。
该数据集中的图像具有相对较高的分辨率，为400×486像素。每张处理后的图像均配有真实掩膜数据。

DEFACTO数据集是由Mahfoudi等人[28]开发的综合性数据集，旨在支持图像与人脸篡改检测研究。该数据集包含超过20万张图像，这些图像通过自动化生成方式涵盖图像篡改的四大主要类别：

拼接：该技术通过将外部元素从一张图像插入另一张图像，生成合成图像。数据集中包含105,000张经过此类处理的图像。
复制-移动（同一图像内）：将同一图像中的元素复制并放置到同一图像的其他位置。为保持真实感，复制对象的位置会根据其尺寸沿特定轴（垂直或水平）进行控制。采用Alpha遮罩技术优化对象边缘。数据集中包含19,000张经过此类处理的图像。
移除对象（图像修复）：通过图像修复技术移除图像中的对象。该方法通过基于周围像素合成背景来填补空白区域，实现平滑自然的图像补全。被移除的对象通常位于相对均匀的背景中。数据集中包含19,000张经过此类处理的图像。
变形（面部变形）：通过变形并合并两张图像，生成融合两者的特征的单一图像。对于面部图像，这包括面部融合与置换。使用Dlib库[29]检测面部标志点，实现面部的精确对齐与融合。此外，应用色彩匹配技术确保合成图像间肤色与光照的一致性。数据集中包含80,000张经过此类处理的图像。

为生成这些伪造图像，该事实数据集以 MSCOCO 数据集[30]作为图像源和初始对象标注。然而， MSCOCO 提供的原始分割掩膜精度不足以支持高质量操作。因此，作者采用alpha遮罩技术对掩膜进行优化，从而改善对象边缘质量并消除明显的人工痕迹，例如锐利边缘或光照不一致等问题。
该数据集中每张图像均配有二值化真实掩码，以及以 JSON 文件形式记录的元数据，其中包含图像变换过程的详细描述。

Columbia图像拼接检测评估数据集[31]是数字图像拼接篡改检测研究领域最早且最知名的基准数据集之一。该数据集由哥伦比亚大学 DVMM 实验室开发，旨在支持无需图像或元数据附加信息的被动伪造检测技术发展。数据集包含1845张图像，所有图像均为128×128像素的固定尺寸。这些图像提取自CalPhotos图像库[32]中的大幅照片，以及少量数码相机拍摄的照片。数据集中原始图像与篡改图像数量相当。篡改行为主要涉及拼接操作，数据根据特定特征进行分类：

光滑表面与纹理表面对比：呈现均匀表面的图像与具有复杂纹理的图像。
任意物体边界与简单边界对比：对不规则复杂边缘的处理方式与直线分割线的对比。

该数据集的一个局限性在于缺乏像素级真实掩模数据。

IMD2020数据集[33,34]是由Novozamsky团队开发的综合性数据集。该数据集包含多个子集，涵盖多种图像处理类型及大量真实图像样本，为检测方法在真实场景下的全面测试提供了理想平台。
数据集第一部分为IMD2020真实场景篡改图像集，收录了2010张源自互联网的伪造图像。每张篡改图像均配有原始版本，便于精确对比分析处理痕迹。此外，每个伪造图像均附有手动创建的二值掩膜图，可实现像素级篡改区域定位。另一组成部分IMD2020大规模真实图像集包含35,000张真实（未篡改）图像，采集自2322种相机型号。所有图像均经过人工审核，剔除存在明显数字处理痕迹的样本。
IMD2020大规模图像修复数据集包含35,000张经过处理的图像。该子集采用图像修复技术进行处理，通过随机选取区域并使用Jiahui Yu团队[34]提出的方法进行填充。IMD2020真实图像验证集包含来自32种不同相机（19个型号）的2759张真实图像，该子集专门用于分析传感器噪声（PRNU）及其他与图像真实性相关的特征。所用相机的多样性使得研究不同传感器对图像修复检测的影响成为可能。

4.篡改防护与检测方法

图像篡改检测方法不仅能识别图像中的篡改痕迹，还能精准定位被修改的具体区域[35,36]。部分先进算法甚至能在篡改前重建原始图像的近似版本[37]。在深度学习革命兴起前，经典图像处理算法曾被用于检测图像篡改[18,38,39]，但这些方法在有效性和泛化能力方面存在明显局限。如今，深度学习技术的突破性进展主导了篡改检测领域的研究与实际应用[19,40]。基于神经网络的方法能更高效准确地检测修改痕迹，即便在复杂场景下也能保持精准度。
主动式方法需要在图像中嵌入额外信息，例如数字水印或数字签名。数字水印通过在图像中隐藏不可察觉的数据，这些数据可作为识别篡改区域的冗余信息，甚至能部分还原原始图像。此外，水印可能包含作者信息、来源数据、版权信息或唯一标识符等元数据。若怀疑存在篡改行为，可提取这些嵌入信息以验证图像真实性。而数字签名则采用加密技术为图像生成唯一标识符，其原理类似于电信系统中的安全解决方案[41]。任何图像篡改都会导致签名改变，从而更容易发现未经授权的修改痕迹。主动式方法在图像创作与分发全流程可控时效果尤为显著。被动式方法（又称盲检测方法）仅依赖图像分析本身，无需额外数据或预置信息。这类方法利用图像的统计特征与结构特征，如色彩直方图、纹理分布、噪声模式或压缩伪影等。通过分析这些特征，被动式方法能够识别出表明图像被篡改的异常现象。例如，它们能够识别光照、阴影或透视效果中的差异——这些要素在后期编辑时往往难以精准复现。得益于深度学习技术，被动检测方法通过提取高度抽象且复杂的图像特征，已具备识别图像篡改的能力[42]。参数量庞大的神经网络可实现多层次数据表征学习，能捕捉传统方法难以察觉的细微异常与模式特征。
在本节后续小节中，我们将重点分析基于深度学习的主动与被动图像完整性保障方法。

4.1.ManTra-Net

被动检测方法中的重要研究方向之一是ManTra-Net[43]提出的概念，该研究首次提出了基于全卷积网络的端到端解决方案。研究者通过将架构划分为两个核心模块实现：其一是“图像操作轨迹特征提取器”，负责生成统一特征表示；其二是“局部异常检测网络”（LADN），专注于异常定位。该架构无需额外后处理即可直接检测篡改区域（见图2）。

图2. ManTra-Net high level架构

根据作者提供的信息，所提出的方法能够区分高达385种已知的图像处理操作，包括由其他神经网络生成的操作，例如图像修复。对于该架构的主干网络，测试了以下三种类型的网络：VGG [44]、ResNet [42] 和 DnCNN [45]。研究人员通过“IMC-7”（图像操纵分类）任务对骨干网络进行评估，该任务包含压缩、模糊处理、形态学操作、对比度调整、噪声添加、重采样及量化等攻击手段。 VGG 网络表现最佳，在验证集上达到92.1%的准确率，ResNet和DnCNN分别达到90.8%和91.2%。此外，研究还对比了SRMConv2D、BayarConv2D与经典二维卷积层作为首层网络结构的影响，不同层型结果相似，差异约1%。作者在 LADN 组件中引入Conv- LSTM 模块，有效建模特征向量间的空间依赖关系。该模块采用逐行顺序处理图像数据的方式，在异常检测过程中充分考虑局部上下文信息，从而使网络能更精准识别图像结构中的细微异常（如纹理或颜色的微小变化），这些特征可能暗示图像被篡改。 LADN 的另一关键要素是Z分数函数，用于特征标准化并突出偏离均值的区域。Z分数可识别图像中与周围环境显著不同的像素或区域，这正是图像篡改的典型特征。经过卷积 LSTM 处理后，数据会通过额外的卷积层进行处理，这些层能进一步优化并整合空间信息，从而提升网络识别复杂篡改模式的能力。在 LADN 训练过程中，研究团队采用基于预测定位掩码与实际掩码差异的损失函数，使网络能够掌握精准的异常检测技术。实验结果表明，ManTra-Net通过结合卷积 LSTM 模块与 LADN ，展现出在各类数据集上检测和定位伪造内容的卓越效果。该网络不仅能有效识别单一类型篡改行为，还能应对复杂组合篡改及新型伪造样本的检测挑战。

4.4.ObjectFormer

在被动检测方法领域中，ObjectFormer[52]是一种引人注目的图像篡改检测方法，由复旦大学、马里兰大学、Huya公司及Meta AI的研究团队共同提出。该方法的独特之处在于其多模态篡改检测技术，可同时在RGB域和频域进行分析。该方法的架构基于transformers模型[32,33]，用于建模图像中的空间依赖关系（图5）。通过融合RGB颜色表征与频率表征的优势，ObjectFormer显著提升了对细微复杂图像篡改痕迹的检测能力。

图5. ObjectFormer high level架构

许多图像篡改检测方法通常将图像分类为真实或被篡改，而往往不考虑图像中物体的结构。然而，有效检测视觉修改不仅需要识别像素级别的异常，还需要评估图像中各个物体之间是否相互一致。输入的RGB图像首先通过离散余弦变换（DCT）转换到频域。随后应用一个高通滤波器，仅保留可能包含图像篡改信息的成分（低频部分被移除）。经过这一处理后，图像再被转换回RGB域。该架构首先包含两条并行处理路径：空间域（颜色域）与频率域。在数据表征提取阶段，采用基于EfficientNetb4[53]（在ImageNet[54]上预训练）的两种特征提取器。
这两种源自RGB域和频率域的表征随后被分割为空间嵌入向量，这些向量组合形成多模态嵌入。在下一阶段，物体编码器通过注意力机制和可学习的物体原型来分析图像中元素间的一致性。这些原型使模型能够识别图像中的各类物体并分析它们的相互关系。随后，补丁解码器利用这些信息优化补丁嵌入，通过融入物体知识来丰富其表征。应用的 BCIM 模块（边界敏感上下文不连贯建模）旨在检测像素级别的上下文不一致性。该模块通过分析局部像素相似性并将信息融入生成的特征表征，提升被篡改区域边界检测的精确度，增强其锐度。最终阶段包含一个由插值和卷积操作组成的后处理网络，旨在将矩阵上采样至与输入图像尺寸匹配，并生成单通道输出以创建二值篡改检测掩膜。提取的图像特征还会通过一个简单的全连接层[55]，该层将图像分类为真实或篡改。

5.结论

本文系统梳理了近年来针对数字图像完整性验证的前沿方法，这些方法主要针对日益复杂的图像篡改技术。通过对比分析被动式与主动式验证策略，重点阐述了各自的优势、局限性及实际应用场景。研究深入探讨了神经网络结构与架构的发展趋势，从传统卷积模型到注意力模块，再到基于透明水印技术的创新方案，全面展现了伪造检测领域的技术演进。这种研究方向与本课题的核心目标高度契合。特别值得一提的是，文中对主流数据集进行了详尽解析，为科研人员快速筛选适用数据集提供了重要参考。同时，研究也揭示了现有图像库的局限性及其数据类型特征。
当前面临的挑战之一是构建可靠的测试环境，以在模拟真实场景的条件下，对异常检测算法的性能进行精准有效的评估。尽管像defacto这样的数据集已存在，但其规模、数据质量及标注精度仍难以完全匹配现代高阶图像篡改技术的复杂程度。因此，负责创建多媒体内容的机构之间的协作对于开发更多高质量参考数据集以评估伪造检测系统至关重要。
另一个常被忽视的方面是模型的效率及其应用场景。例如，许多研究论文未提及处理时间与硬件配置要求，这会阻碍方法的实际应用。此外，部分模型采用低分辨率（如200像素）运行，降采样过程可能导致大量信息丢失。视频材料分析同样至关重要，必须考虑时空特征及标注工作的高成本与复杂性。
未来应重点研发能抵御先进AI模型自动化篡改的解决方案，并将多种技术整合为协同检测系统——根据具体需求和应用场景量身定制。确保这些技术在移动平台和嵌入式系统中的可用性，对推广应用和保障信息完整性具有关键作用。另一个核心挑战是高效处理日益易受篡改的高分辨率图像与视频素材。
最终，有效打击视觉伪造需要先进技术支撑，同时需提升公众对潜在威胁的认知，并通过教育培养批判性多媒体内容分析能力。