OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep Image Watermarking

摘要

​  随着生成式AI的迅速发展及其在图像编辑领域的广泛应用,数字内容的真实性与完整性面临新的风险。现有的多种水印技术在篡改定位的精确度与视觉效果之间存在权衡。由于早期框架灵活性有限,这些水印在所有图像中必须保持固定。在AIGC编辑下,他们的版权提取准确度也不令人满意。为了解决这些问题,我们提出了一种新的增强型多功能水印技术——OmniGuard。该技术结合了主动嵌入与被动、盲目的提取方法,旨在实现强大的版权保护和篡改定位。OmniGuard采用了一种混合的取证框架,不仅支持灵活选择水印位置,还引入了一个退化感知的篡改检测网络,确保在复杂条件下也能实现精准的定位。此外,设计了一个轻量级的AIGC编辑模拟层,以增强全球和本地编辑的稳健性。广泛的实验表明,OmniGuard在保真度、稳健性和灵活性方面表现优异。与最近的最先进方法EditGuard相比,我们的方法在容器图像的PSNR(峰值信噪比)上提高了4.25dB,在噪声条件下的F1分数提高了20.7%,平均比特准确率提高了14.8%。

1.引言

​  在海量数据集的支持和大规模模型技术的推动下,生成式AI已经赋能众多行业,开发了大量文本转图像模型[16,45,46]和图像编辑算法[7, 32,40, 65]。这种强大的生成和编辑能力是一把双刃剑,对信息的真实性和完整性构成了重大威胁。例如,非法侵权者可能会窃取他人生成的图像并声称拥有版权,这使得保护知识产权变得越来越困难。此外,欺诈者可能利用AI工具篡改在线图片,生成误导性内容,给法庭取证带来了新的挑战。
​  作为一种经典且广泛采用的技术,水印技术因其在保护图像版权、检测未经授权的使用以及追踪篡改方面的重要作用而受到越来越多的关注。例如,强健的水印技术注重其韧性,旨在即使在显著的失真(如JPEG压缩[25]或屏幕截图[12])后,也能保持嵌入的水印完整且可检测。相比之下,脆弱水印技术更注重敏感性,确保即使面对细微或特定的修改,嵌入的水印也能作出响应[27,34,35,44]。近年来,随着深度学习技术的发展,深度水印在容量[54]、鲁棒性[20]和保真度[26]方面展现出显著优势。它不仅能够抵御多种AI生成内容编辑方法,还能实现像素级别的篡改定位。值得注意的是,一些水印方法能够同时解决篡改定位和版权保护任务[23,27,49]。例如,AudioSeal [48]采用了零比特水印策略,实现了样本级音频篡改定位,并具备强大的位嵌入能力。SepMark [52]首次引入了用于稳健版权保护和深度伪造检测的深度可分离水印。EditGuard [66,68]利用图像嵌入图像隐写术的局部性,设计了一种串行编码和并行解码的水印框架。
​  然而,现有的通用深度图像水印方法仍然面临一些挑战。
​  1)准确度:
​  多用途图像水印技术在篡改定位的准确性和水印图像的保真度之间面临不可避免的权衡。这是因为当前的方法,如[66,68,71],依赖于预定义的定位水印与重建水印之间的残差来生成掩码。因此,为了确保定位的准确性,必须牺牲水印图像的保真度。
​  2)灵活性:
​  由于在解码阶段必须知道预定义的定位水印才能提取掩模,因此定位水印倾向于在所有图像中保持固定,这大大限制了信息嵌入的灵活性。
​  3)鲁棒性:
​  现有的多种水印技术在鲁棒性方面存在明显不足:局部水印恢复在严重退化条件下往往失效,而版权水印则可能被全局AIGC编辑算法清除。

​  为解决上述问题,我们提出了一种全面增强的通用水印方法,称为OmniGuard。
​  首先,我们提出了一种结合主动水印嵌入与被动网络盲提取的混合取证方法。该方法能够在没有预先添加水印的情况下,从重建的局部水印中输出篡改的掩码,实现了编码与解码的分离。同时,我们训练了这种掩码提取器,即使在重建不准确的情况下也能实现精确提取,从而使水印网络能够专注于提高水印图像的质量。
​  此外,我们还研究了局部水印的选择模式,并设计了一种自适应的水印变换,使网络能够以内容感知的方式嵌入局部信息。
​  最后,我们提出了一种轻量级的AIGC编辑模拟层,该层提高了网络在版权提取方面的准确性,确保了在全球性编辑(如Instructpix2pix[7])和局部修复(如Stable Diffusion Inpaint[46])等场景下的稳健性能。
​  图1展示了我们在最先进的多功能水印技术[66]上的显著改进。

image-20250701104337419

​  简而言之,我们的贡献可以概括如下。

  • 我们提出了一种混合操作定位和鲁棒版权保护框架OmniGuard,它包括一个主动的双水印网络和一个被动的提取器,改进了现有的多功能水印。
  • 为了将主动水印与被动提取整合到一个统一的框架中,提出了一种深度退化感知的篡改提取器,该提取器融合了重建的局部水印与被篡改图像中的伪影,在严重退化条件下实现了更高的精度。
  • 为了增强主动双水印网络,设计了自适应水印变换和轻量级AIGC编辑模拟器,分别提高容器图像保真度和版权提取精度。
  • 实验验证,我们的OmniGuard在保真度、灵活性和鲁棒性方面均优于现有的多功能水印技术,并且在被动定位方法和鲁棒水印技术上也全面超越。

2.相关工作

2.1.图像篡改检测与定位

​  被动方法:
​  被动图像篡改检测与定位网络主要关注识别异常区域,如伪影、噪声和分辨率不一致[21,24,28,29,47,51,53,55-58]。例如,MVSS-Net [11]通过多尺度监督和多视角特征学习来捕捉噪声和边界差异。TruFor [17]采用了一种对噪声敏感的指纹,并通过变压器驱动的融合机制结合了高级和低级痕迹提取。HiFi-Net [18]结合了多分支特征提取与专门的定位模块,有效检测来自CNN生成或编辑的图像的修改。同时,IMLViT [43]将Swin-ViT整合到其框架中,采用了FPN结构和边缘损失约束以提高准确性。受扩散模型启发,DiffForensics [64]采用了扩散去噪预训练,以提高对篡改图像中细微细节的检测能力。

​  主动计划:
​  主动篡改检测与定位[3,5,6,62,71]通过在图像原始状态中嵌入信息,这有助于网络检测篡改或进行归属。尽管传统的脆弱水印方法[10,23,27,34,35,44]能够实现块级篡改定位,但其精确度和灵活性仍有待提高。最近,MaLP [4]通过利用两分支架构估计的局部和全局特征来学习模板,并从恢复的模板中检测出被篡改的区域。Imuge [61,63]采用了自嵌入机制和高效的攻击层,实现了篡改定位和自我恢复。在RAW图像中嵌入[21]水印,以增强被动篡改定位网络对JPEG压缩、模糊和重新缩放等有损操作的抗性。EditGuard [66]和V 2AMark [68]利用可逆网络嵌入双重水印,实现了像素级定位和版权保护。虽然这些主动机制已经显示出了良好的结果,但在保真度、稳健性和定位精度之间实现平衡仍然是一个开放的挑战。

2.2.深度图像水印

​  水印技术是一种被广泛认可的经典版权保护手段[30,39,59,67-69]。传统方法通常将秘密信息嵌入空间域或自适应域[9],往往选择数据位于不太显眼的位[15]或区域,这限制了隐藏信息的容量。近期,深度图像水印技术备受关注。例如,HiDDeN [72]通过引入深度编码器-解码器网络,实现了位流数据的隐藏与检索功能。此外,基于流模型的[13,42]技术因其固有的信息隐藏能力而受到青睐,进一步提升了水印图像的保真度。JPEG和截图[2,12,38,52]已被开发以增强其稳健性。SSL [14]在自监督潜在空间中对图像进行水印处理,通过学习到的图像表示来提升安全性和韧性。TrustMark [8]提出了一种适用于任意分辨率图像的通用水印技术。然而,这些方法无法有效支持AIGC编辑。最近,Robust-wide [20]提出了一种部分指令驱动的去噪采样指导模块,以增强对指令驱动图像编辑的鲁棒水印效果。VINE [41]引入了SDXL-Turbo [50]和解码器,实现了极高的比特精度。然而,这些方法需要在网络训练中加入多步骤迭代扩散过程,这显著降低了训练速度。

3.方法

3.1.多功能深度图像水印技术综述

​  我们首先回顾了深度多功能水印[6,52,66,68,71]领域的现有方法。以EditGuard [66]为代表,当前的多功能水印采用串行编码与并行解码框架,使得局部和版权水印能够在同一图像中共存而不互相干扰。

image-20250701104815359

​  具体而言,如图2所示,给定二维局部水印\({\bf W}_{\mathrm{loc}}\in\mathbb{R}^{H\times W\times3}\)和一维版权水印\(\mathbf{w}_{\mathrm{cop}}\in\{0,1\}^{L}\),原始图像\({\bf I}_{\mathrm{ori}}\in\mathbb{R}^{H\times W\times3}\)输入到图像位联合嵌入网络中,生成容器图像\(\mathbf{I}_{\mathrm{con}}\)。随后,若接收到的图像\(\mathbf{I}_{\mathrm{rec}}\)已进行局部编辑或通道退化处理,可将其输入图像比特解码网络以恢复双重水印\(\mathbf{\hat{W}}_{\mathrm{loc}}\),\(\mathbf{\hat w}_{\mathrm{cop}}\)。AIGC编辑与退化流程可建模如下。 \[\mathrm{I_{rec}}={\cal D}_{\mathrm{deg}}(\mathbf{I}_{\mathrm{con}}\odot(1-\mathbf{M}_{\mathrm{gt}})+{\mathcal{E}}_{\mathrm{edit}}(\mathbf{I}_{\mathrm{con}})\odot\mathbf{M}_{\mathrm{gt}})\] ​  其中,\({\mathcal{E}}_{\mathrm{edit}}(\cdot)\)\({\cal D}_{\mathrm{deg}}(\cdot)\)\(\mathbf{M}_{\mathrm{gt}}\)分别代表编辑函数、退化函数和篡改掩码。需要注意的是,这些多功能方法[66,68,71]仅考虑局部编辑,即\(\mathbf{M}_{\mathrm{st}}\neq0\)。恢复的版权\(\mathbf{\hat w}_{\mathrm{cop}}\)预期与\(\mathbf{w}_{\mathrm{cop}}\)保持一致。最后,我们通过残差减法比较\(\mathbf{\hat{W}}_{\mathrm{loc}}\)\(\mathbf{W}_{\mathrm{loc}}\),以计算篡改区域\(\mathbf{\hat{W}}_{\mathrm{loc}}\in\mathbb{R}^{H\times W}\)\[\hat{\mathrm{M}}_{\mathrm{loc}}=\Theta_{\tau}(|\hat{\mathrm{W}}_{\mathrm{loc}}-\mathrm{W}_{\mathrm{loc}}|),\] ​  其中\(\Theta_{\tau}(z)=1(z\geq{\boldsymbol{\tau}})\)。|·|表示绝对值运算。然而,我们总结指出,这种逐像素残差减法存在三大主要缺点。

  • \(\mathbf{\hat{W}}_{\mathrm{loc}}\)的恢复与\(\mathbf{I}_{\mathrm{con}}\)的生成存在相互制约关系。由于检测精度高度依赖于\(\mathbf{\hat{W}}_{\mathrm{loc}}\)的恢复精度,因此\(\mathbf{I}_{\mathrm{con}}\)的质量不得不大幅降低。
  • \(\mathbf{\hat{M}}_{\mathrm{loc}}\)的提取需要了解\(\mathbf{W}_{\mathrm{loc}}\),因此它不是盲的。为了便于解码端和编码端之间的协作,一个简单的方法是选择一个固定的\(\mathbf{W}_{\mathrm{loc}}\)。然而,固定的局部水印无法为所有图像提供最佳保真度。
  • 如果\(\mathbf{\hat{W}}_{\mathrm{loc}}\)的未改变区域包含由于严重退化而产生的伪影,则这些区域也可能被错误地视为篡改,从而对检测的稳健性造成威胁。

3.2.OmniGuard总体框架

​  为了解决上述问题,我们提出了一种混合取证框架OmniGuard,该框架结合了主动的双水印网络和被动的、深度的、退化感知的篡改提取器(图3)。

image-20250701111018844

​  该框架利用主动水印的强大泛化能力,克服了被动提取网络的准确性限制,同时通过被动网络进一步增强定位的鲁棒性。此外,OmniGuard通过精心设计的定位水印提高了容器图像的保真度,并通过在退化层中有效模拟AIGC的全局和局部编辑,增强了版权提取的鲁棒性。

image-20250701111151567

​  具体来说,如图3和图4(a)所示,我们首先采用自适应前向变换(第3.4节)将原始图像\(\mathbf{I}_{\mathrm{ori}}\)嵌入到局部水印\(\mathbf{W}_{\mathrm{loc}}\)中,使变换后的水印\(\mathbf{\tilde W}_{\mathrm{loc}}\)获得一些内容感知性和合理的纹理,这已被证明有助于有效隐藏。随后,将定位标签\(\mathbf{\tilde W}_{\mathrm{loc}}\)和版权水印wcop嵌入到\(\mathbf{I}_{\mathrm{ori}}\)中,生成容器图像\(\mathbf{I}_{\mathrm{con}}\)。同样地,我们从Irec中提取wcop,并通过本地化水印解码模块和逆变换(第3.4节)获得伪影图Wloc。这里的本地化水印隐藏和解码网络采用了[66]中的可逆网络结构。版权水印隐藏和解码网络的结构则受到了[8]的启发。最后,伪影图Wloc和被篡改的图像Irec被输入到深度篡改提取器中,生成篡改掩模Mloc。
​  OmniGuard的主要改进集中在两个关键点上。
​  首先,我们介绍了一种深度篡改提取器,该提取器结合了Irec和ˆWloc数据来分析篡改痕迹。通过将ˆWloc的重建任务重新定义为分类任务,提取器只需区分篡改痕迹与其他区域,从而大大简化了训练过程。
​  其次,我们扩展了EditGuard支持的降级范围。在版权解码方面,我们设计了一个轻量级的AIGC模拟层,使OmniGuard能够支持全局编辑和局部篡改。对于本地水印解码,我们的检测技术能够应对JPEG(Q=50)、色彩抖动和严重噪声等条件。我们已在表1中列出了与EditGuard的对比。

image-20250701111650324

3.3.被动降解-防篡改提取器的动机:

3.4.自适应局部水印变换的动机

3.5.轻量级AIGC编辑模拟器

3.6.训练详情

4.实验结果

4.1.实验设置

​  我们使用AdamW优化器,在MIRFlickR数据集[22]上训练版权水印网络,初始学习率为4×10−6,批量大小为32,采用余弦退火策略。随后,我们在DIV2K [1]数据集上优化整个主动双水印网络,使用Adam优化器,学习率为1×10−5,批量大小为8。基于窗口的transformer主干网络是ViTB,该网络通过MAE [19]在ImageNet-1k上进行了预训练。窗口大小和填充大小分别设置为14和1024。篡改提取器在20000个构建的配对{W^loc,Irec,Mgt}上进行了训练。训练过程中使用的篡改类型为稳定扩散修复,但我们的方法可以适应几乎任何类型的局部修改。所有实验均在NVIDIA GTX 3090Ti服务器上完成。

4.2.与定位方法的比较

​  为了评估我们的OmniGuard在防篡改定位上的精度,我们将其与一些最先进的被动方法进行了对比,包括PSCC-Net [37]、MVSS-Net [11]、CATNet [29]、HiFi-Net [18]、IML-ViT [43],以及主动方法EditGuard [66]。我们使用F1分数和AUC作为评估指标。在COCO [36]测试集的1000个样本上,我们比较了我们的方法与其他竞争方法。我们选择了三种独特的局部编辑方法,即稳定扩散修复、ControlNet修复和图像拼接,以实现等式1中的\({\mathcal{E}}_{\mathrm{edit}}(\cdot)\)功能。退化函数\({\cal D}_{\mathrm{deg}}(\cdot)\)从高斯噪声(σ=1-10)、JPEG(Q=70-85)、亮度、对比度和饱和度的色彩抖动,以及椒盐噪声中随机选取,以验证其鲁棒性。

image-20250701112139661

​  如表2所示,我们的方法在AIGC和简单篡改场景下均实现了最佳的定位性能,F1分数超过0.95,AUC接近1。尽管EditGuard在干净条件下与我们的表现类似,但我们观察到在嘈杂条件下EditGuard的定位精度显著下降,F1下降了约0.2。这是因为EditGuard依赖于像素级别的对比,这使得其定位结果高度依赖于水印恢复的性能。相比之下,OmniGuard在面对常见的退化情况时几乎不会影响性能。图5进一步展示了我们方法的优势。对于一些野外篡改样本,被动方法如PSCCNet和IML-ViT难以有效检测到篡改痕迹。主动方法如EditGuard会产生不准确的掩码,并且当篡改图像经历全局退化时,对阈值设置非常敏感。相比之下,我们的OmniGuard能够稳健且准确地识别篡改区域。需要注意的是,对于像Instructp2p这样的全局编辑,OmniGuard仍然能够稳健地恢复版权并检测到篡改;然而,它倾向于将整个图像视为篡改。这与我们的预期功能一致,因为我们的水印技术更侧重于解决像素级别的篡改问题,而不是语义上的修改。

4.3.与水印技术的比较

4.4.消融研究

5.结论

​  OmniGuard提出了一种创新的混合取证框架,该框架结合了主动水印嵌入与被动提取技术。这一方法集成了深度退化感知的篡改检测器、自适应局部水印变换以及轻量级的AIGC编辑模拟器,使OmniGuard在保真度、灵活性和鲁棒性方面表现出色。实验结果表明,OmniGuard通过生成更高保真度的图像,减少伪影,并在严重退化和生成式AI编辑的情况下实现更准确的篡改定位和版权提取,超越了现有的最先进方法。作为对抗AIGC操纵的有效防御手段,OmniGuard对社区而言是一个重要的进步,为未来的版权保护和数字内容真实性发展做出了贡献。