记录5月22日讲座~

题目:面对AIGC的多功能数字水印与版权保护研究

讲师:张建

图像重建

  1. Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model

​  大多数现有的图像恢复(IR)模型都是特定于任务的,不能推广到不同的退化算子。在这项工作中,我们提出了去噪扩散零空间模型(DDNM, Denoising Diffusion Null-Space Model),这是一种新的零样本框架,用于解决任意线性IR问题,包括但不限于图像超分辨率、着色、修复、压缩感知和去模糊。DDNM只需要一个预先训练的离架扩散模型作为生成先验,而不需要任何额外的训练或网络修改。通过在反向扩散过程中仅细化零空间内容,我们可以产生满足数据一致性和真实性的不同结果。我们进一步提出了一个增强和稳健的版本,称为DDNM+,以支持噪声恢复并提高硬任务的恢复质量。我们在几个红外任务上的实验表明,DDNM优于其他最先进的零样本红外方法。我们还证明了DDNM+可以解决复杂的现实世界应用,例如旧照片恢复。

图像条件生成

  1. FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

​  最近,条件扩散模型由于其卓越的生成能力而在许多应用中受到欢迎。然而,许多现有的方法都是需要培训的。他们需要训练一个与时间相关的分类器或与条件相关的分数估计器,这增加了构建条件扩散模型的成本,并且不方便在不同条件下转移。目前的一些工作旨在通过提出无训练的解决方案来克服这一限制,但大多数只能应用于特定类别的任务,而不能应用于更一般的条件。在这项工作中,我们提出了一种用于各种条件的训练自由条件扩散模型(FreeDoM)。具体来说,我们利用现成的预训练网络,如人脸检测模型,来构建与时间无关的能量函数,该函数在不需要训练的情况下指导生成过程。此外,由于能量函数的构造非常灵活,能够适应各种条件,因此我们提出的FreeDoM比现有的无训练方法具有更广泛的应用范围。FreeDoM的优势在于其简单、有效和低成本。实验表明,FreeDoM在各种条件下都是有效的,适用于不同数据域的扩散模型,包括图像域和潜在代码域。

图像精准控制生成

  1. T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion Models

​  大规模文本到图像(T2I, text-to-image)模型令人难以置信的生成能力已经证明了学习复杂结构和有意义语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型所学到的知识,尤其是在需要灵活准确的控制(如结构和颜色)时。在本文中,我们的目标是“挖掘”T2I模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。具体而言,我们建议学习低成本的T2I适配器,以使T2I模型中的内部知识与外部控制信号相一致,同时冻结原始的大型T2I模型。这样,我们可以根据不同的条件训练各种适配器,从而在生成结果的颜色和结构上实现丰富的控制和编辑效果。此外,所提出的T2I适配器具有可组合性和泛化能力等有吸引力的实用价值。大量实验表明,我们的T2I转换器具有良好的生成质量和广泛的应用。我们的代码可在https://github.com/TencentARC/T2I-Adapter.

  1. DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

​  尽管现有的大规模文本到图像(T2I)模型能够从详细的文本描述中生成高质量的图像,但它们往往缺乏精确编辑生成的或真实图像的能力。在本文中,我们提出了一种新的图像编辑方法,DragonDiffusion,可以在Diffusion模型上进行Drag风格的操作。具体来说,我们基于扩散模型中中间特征的强对应性来构建分类器引导。它可以通过特征对应损失将编辑信号转换为梯度,以修改扩散模型的中间表示。基于这种制导策略,我们还构建了一个多尺度制导,同时考虑语义和几何对齐。此外,增加了跨分支的自关注,以保持原始图像和编辑结果之间的一致性。我们的方法通过高效的设计,实现了对生成或真实图像的各种编辑模式,如对象移动、对象大小调整、对象外观替换和内容拖动。值得注意的是,所有编辑和内容保存信号都来自图像本身,并且该模型不需要微调或附加模块。我们的源代码将在这个https URL上提供。

  1. DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

图像视频隐写

  1. Robust Invertible Image Steganography

​  图像隐写术旨在将秘密图像隐藏到容器图像中,在容器图像中隐藏秘密,并在必要时进行恢复。以前的图像隐写方法在隐藏能力和鲁棒性方面受到限制,通常容易受到容器图像失真的影响,如高斯噪声、泊松噪声和有损压缩。本文提出了一种新的基于流的鲁棒可逆图像隐写框架,称为RIIS。我们引入了条件归一化流,以容器图像为条件对冗余高频分量的分布进行建模。此外,精心设计的容器增强模块(CEM)也有助于稳健的重建。为了调节不同失真水平的网络参数,我们提出了一种基于流的块上的失真引导调制(DGM),使其成为一个一刀切的模型。在干净和失真图像隐写方面,大量实验表明,所提出的RIIS有效地提高了鲁棒性,同时保持了不可见性和容量。据我们所知,我们是文献中第一个增强图像隐写术鲁棒性的基于学习的方案。隐写术鲁棒性的保证大大拓宽了隐写术在现实应用中的应用。

  1. Large-Capacity and Flexible Video Steganography via Invertible Neural Network

​  视频隐写术是一种在封面视频中不引人注目地隐藏秘密数据,然后在接收器端通过解码协议恢复秘密数据的技术。尽管已经进行了几次尝试,但大多数都局限于低容量和固定的隐写术。为了弥补这些不足,本文提出了一种大容量、灵活的视频隐写网络(LF-VSN)。对于大容量,我们提出了一种可逆管道,通过单个可逆神经网络(INN)来执行多个视频的隐藏和恢复。我们的方法可以在1个封面视频中隐藏/恢复7个秘密视频,性能良好。为了灵活性,我们提出了一种密钥可控方案,使不同的接收器能够通过特定的密钥从同一封面视频中恢复特定的秘密视频。此外,我们通过提出一种可扩展的多视频隐藏策略,进一步提高了灵活性,该策略可以用单个模型和单个训练会话在封面视频中隐藏可变数量的秘密视频。大量实验表明,随着视频隐写性能的显著提高,我们提出的LF-VSN具有高安全性、大隐藏容量和灵活性。源代码位于https://github.com/MC-E/LF-VSN.

定制化溯源水印