Model Synthesis for Zero-Shot Model Attribution

Tianyun Yang , Danding Wang , Juan Cao , and Chang Xu , Member, IEEE

摘要

当前，生成模型正在艺术、设计和人机交互等领域引发变革，但同时也伴随着版权侵权和内容管理难题。针对这一挑战，现有研究致力于识别生成图像的独特特征指纹，从而实现对生成图像的源模型归属。然而，现有方法仅能识别分类器训练中静态集合内的模型，无法动态适应新出现的未知模型。为填补这一空白，本文提出一种通用模型指纹提取器，能够在零样本归属场景下有效识别未接触过的模型。该方法的核心在于模型合成技术——通过生成大量模拟真实生成模型特征指纹的合成模型。该合成技术的设计基于对基础生成模型架构模块和参数影响特征指纹模式的观察，并通过设计的评估指标验证合成模型的保真度。实验表明，仅基于合成模型训练的指纹提取器在多种真实生成模型上展现出卓越的零样本泛化能力，相较于现有方法，对未知模型的识别准确率提升超过40%，验证准确率提升15%。

索引术语—模型指纹、模型归因、模型合成、零样本适应。

1.引言

近年来，先进的生成式（视觉）模型在艺术创作、设计及人机交互等领域引发了革命性变革[1] [2] [3] [4]。尽管这些模型带来了积极影响，但也引发了版权侵权和内容监管等新问题。为解决这些问题，模型溯源技术——即识别生成内容来源模型的过程——正受到越来越多的关注[5] [6] [7] [8] [9] [10]。该机制能有效遏制未经授权的复制与传播行为，使内容创作者和权利持有人能够证明所有权并采取法律行动应对侵权行为。此外，模型归属机制使监管机构能够识别并针对那些利用生成模型从事有害、非法或不道德行为的实体采取行动。
模型归属识别技术通过分析源模型生成图像中的独特特征指纹，能够追溯生成图像的原始模型。当前主流的模型归属范式将任务定义为多分类问题[6] [8] [9] [10]。具体而言，训练阶段使用有限且静态的模型集合生成图像，每个图像都标注有唯一的模型ID。测试时，若测试图像来自训练集中的已知模型，分类器就能根据其学习到的模型指纹识别出对应的模型ID[6] [8] [9]。虽然这种框架颇具前景，但存在重大缺陷：传统方法无法对训练数据中未出现的模型进行归属，导致对新模型的分类标签错误。在当今模型快速迭代的环境中，这种局限性难以接受。尽管部分研究[10] [11]尝试通过为新模型分配“未知”标签来应对开放集场景，但这些方法仍难以动态适应新出现的未见模型。
为应对模型灵活性挑战，我们致力于开发一种更通用的模型归因方法，该方法能够实现零样本模型归因——无需在这些模型上进行任何训练，即可高效归因未见过的模型。不同于依赖分类头将生成图像分类到训练中包含的静态已知模型集合，我们将模型归因视为测试样本与模型库中各模型指纹之间的“指纹”距离比较。该框架使我们能够轻松处理新出现的模型：只需采集新模型样本，使用指纹提取器生成其指纹，并动态更新模型库，无需对这些模型进行任何训练。
如何训练一个能泛化到未见过模型的有效指纹提取器？传统观点认为应仅用有限的真实世界模型进行训练。但这种方法在未见过模型上的泛化能力较差，如图1所示。

图1. 现有方法（上）与我们方法（下）对比示意图。现有方法依赖有限的真实世界模型进行训练，难以有效区分Stable Diffusion（SD）和DALL-E系列等新兴未见模型。相比之下，我们的方法通过大量合成模型训练，这些模型能复现更广泛的模型特征指纹，从而有效区分并识别未见模型。

为解决这一问题，我们提出使用数量大幅增加的合成模型（例如实验中增加100倍）对提取器进行预训练。这类合成模型虽然与真实世界模型具有相似的指纹特征，但其多样性要强得多。
我们的模型合成策略基于频域分析，该方法受先前研究[12] [13]启发，这些研究证实指纹特征在空间域不可观测，但在频域中显著显现。为理解现实世界生成模型独特指纹模式的形成机制，我们从生成模型的基本构建模块角度进行分析。研究结果表明：

基础网络组件的类型——包括上采样、激活函数、归一化及卷积层参数——对生成图像的频谱模式具有显著影响。
由于上采样层会自然衰减前几层的高频成分，大型模型中最后几个生成模块对输出频谱模式的决定性作用更为突出。

基于这些发现，我们提出假设：通过组合不同基础组件构建浅层生成模块，能够有效表征未见过模型的特征空间。为此，我们开发了一种简单高效的模型合成策略。
受上述分析启发，我们采用较典型生成模型更少生成模块的浅层自编码器架构来构建合成模型。通过调整基础组件（包括上采样层类型、激活函数、归一化层、这些层的数量与顺序以及训练种子），我们显著提升了合成模型的多样性。通过最小化重构损失，最终在288种不同架构中获得了5760个合成模型。该合成策略在保真度与效率方面均具有优势。通过对比合成模型与真实世界模型的频谱分布，我们的研究结果表明：所提出的合成方案能使合成模型的频谱分布更贴近真实生成模型的特征。此外，使用单个3090 GPU合成模型平均仅需83秒，这比从头训练最先进的生成模型（即朴素的模型合成方案）快得多。例如，训练一个生成256×256分辨率图像的StyleGAN[14]模型需要14天22小时，明显慢于我们的方法。
我们利用这些合成模型训练指纹提取器，从模型中提取指纹特征并进行区分。通过结合分类任务与度量损失函数，我们提升了学习到的指纹嵌入的区分能力。实验结果表明：
1）尽管我们的指纹提取器仅基于合成模型训练，但在包括经典生成对抗网络（GAN）、 VAE 、Flow模型以及新兴扩散模型（如Stable Diffusion和DalleE-3）在内的广泛生成模型上，仍展现出强大的零样本归因能力。部分可视化结果如图1（下图）所示。
2）我们研究了两种模型归因场景，包括模型识别与模型验证。该方法在未见过的模型上显著优于现有方法，分别实现了超过40%和15%的准确率提升。
3）仅通过生成图像，我们的方法就能将LoRA变体追溯至其基础模型，为防范模型知识产权侵权提供了高效防御工具。

我们的主要贡献可归纳为以下两点：
1)我们提出解决零样本模型归因问题，将归因目标扩展至训练集之外的未见模型。
2)我们通过训练大量模拟真实生成模型特征指纹的合成模型来解决零样本归因问题。该合成策略的灵感源自对生成模型架构组件及参数如何影响特征指纹模式的观察研究。该策略在保真度和效率方面具有优势。
3)实验结果表明，基于合成模型训练的指纹提取器在多种真实生成模型上均展现出强大的泛化能力。与现有方法相比，我们在未见过的模型上分别提升了超过40%的模型识别准确率和15%的验证准确率。

2.相关工作

A.模型归因

本质上，模型归因方法依赖于生成模型内部状态与生成图像之间的某种关联。本文主要聚焦于基于指纹的模型归因方法，该方法通过生成模型输出图像上的独特指纹模式进行识别。Marra等人[5]采用平均噪声残差作为模型指纹的表征，发现这些指纹具有周期性特征。后续研究[6] [8] [9]不仅验证了这些指纹的存在，还通过固定有限模型集的闭集分类方法实现了高精度。Asnani等人[15]将研究拓展至追踪生成图像模型的架构组件，这已超出本文研究范围。在实际场景中，图像常源自训练过程中未涉及的未知模型。近期研究[10] [11]采用开放集方法，通过归因已知模型并排除训练未包含的未知模型来解决这一问题。然而随着生成技术的持续发展，未知模型的多样性不断扩展，现有方法在动态适应现实场景时面临挑战。为弥合这一差距，我们的目标是开发一种更通用的模型指纹提取器，能够实现零样本模型归因——无需对未知模型样本进行任何训练即可高效完成归因。表I总结了本方法与上述相关工作的差异。

B.生成模型的频谱差异

尽管指纹在空间域中不可见，但在频域中更为显著，常表现为频谱中的差异。现有研究[13]、[16]、[17]、[18]、[19]、[20]、[21]试图解释生成图像与真实图像之间的频谱差异，特别是通过研究上采样层和卷积层的影响。
[16]、[17]、[18]的研究表明，上采样操作会导致真实图像与生成图像在高频段产生显著差异。Zhang等人[16]发现，上采样层会在频谱中形成周期性网格结构。Durall[17]指出，上采样层引发的高频偏差使得生成模型难以准确拟合真实图像的分布特征。Schwarz等人[18]揭示，不同上采样方式会使生成器偏向特定频谱特性。其他研究[19]、[20]通过分析卷积层的影响发现，真实图像与生成图像的频率差异源于卷积滤波器频谱中的线性依赖关系，这种特性会阻碍高频信号的学习。
现有研究主要聚焦于真实图像与生成图像的差异，而针对不同模型生成图像间频率差异的分析则相对较少。本研究进一步探究了不同类型激活层与归一化层的影响，以及各类卷积参数的作用。我们新发现不同生成模块的差异性影响，为模型特征指纹的形成机制提供了新的见解。

C.基于合成数据的预训练

我们的研究聚焦于利用合成数据提升模型泛化能力。Baradad[22]发现，多样化的噪声数据能捕捉真实数据的特定结构特征，在图像分类任务的自监督学习中展现出优异性能。Baek[23]通过借鉴自然图像在功率谱分布、结构特征及显著性分布等通用属性，开发出创新的数据合成策略。基于合成数据集预训练的生成对抗网络（GAN）可有效实现小样本适应。Mishra[24]提出任务感知合成策略，通过优化光照、姿态、材质等参数来适配下游任务需求。
与这些研究不同，我们的创新点在于通过合成模型而非图像，来模拟模型特征指纹的分布模式，而非直接模仿自然图像。

3.方法

本研究的主要目标是设计一种指纹提取器，使其能够泛化到开放世界中未见过的模型。为实现这一目标，我们提出了一种新方法，即利用合成模型来模拟真实世界生成模型的指纹模式。通过这种方法，我们显著拓宽了指纹提取器的训练数据范围，从而有效缩小了泛化差距。接下来，我们首先分析生成模型影响指纹模式的关键因素（详见第三节A部分）。基于分析结果，第三节B部分将设计模型合成策略。最后在第三节D部分，我们利用合成模型训练指纹提取器完成模型归因任务。

A.模型指纹的初步分析

本研究的灵感源自近期多项研究[5] [6] [13]，这些研究表明：不同架构或参数的生成模型会在生成图像上留下独特的模式，即模型指纹。虽然这些指纹在空间域通常难以察觉，但在频域中则更为明显。

图2. 生成模型生成的图像（上）及其对应的（平均）傅里叶频谱（下）。傅里叶频谱的独特特征可视为生成模型的指纹特征，可用于模型归属。该频谱通过高通滤波图像经去噪处理后获得。

如图2所示，每个生成模型在平均傅里叶频谱中均呈现独特的特征模式。为深入理解这些模式的复制机制，我们首先探究生成模型为何会表现出独特的频谱特征。
图像生成模型的通用架构通常包含多个核心组件，这些组件旨在从潜在表示或输入数据中生成高质量图像。目前应用最广泛的架构包括生成对抗网络（GANs）、变分自编码器（VAEs）、扩散模型等。无论具体类型如何，图像生成模型通常由一系列生成模块构成。每个模块通过多次运算逐步将噪声/潜在向量转化为图像。为构建统一的数学基础，我们可以考虑一个常见的生成模块架构：该架构包含上采样层、卷积层、激活层和归一化层，这些层作用于高斯噪声输入z。模块的输出y可表示为： \[\mathbf{y}={\mathcal{N}}(\phi\,(F(U{\mathbf z}))),\] 其中：U：上采样算子。F：卷积算子，其核为Wconv，偏置为b。 φ ：非线性激活函数。N：归一化函数。

下文将探讨这些基础组件及不同生成模块对输出频谱模式的影响。为验证理论推论，我们在附录中使用ProGAN、 SNGAN 和StyleGAN2模型进行实验，通过调整网络组件分析其对输出图像频谱的影响。

1)上采样的影响：
在空间域中，上采样操作Uz相当于对输入信号z进行零插值处理，再施加标准卷积运算，其表达式为： \[U\mathbf{z}=\mathrm{Zerofinier}(\mathbf{z})\otimes\mathbf{K}_{\mathrm{up}},\] 其中ZeroInter(z)表示输入信号z的零插值处理，即在空间采样点之间插入零值。⊗表示空间域中的卷积运算。Kup代表上采样核。
根据卷积定理，频域中的上采样操作可表示为： \[{\mathcal{F}}\{U\mathbf{z}\}(\omega)=\operatorname{Repeat}_{2,2}({\mathcal{F}}\{\mathbf{z}\})(\omega)\cdot{\mathcal{F}}\{\operatorname{K}_{\mathrm{wp}}\}(\omega),\] 其中\(\operatorname{Repeat}_{2,2}\)表示将输入频谱F{z}沿两个频率维度进行2倍复制。F{Kup}表示上采样核Kup的傅里叶变换。·表示频域中的逐点乘法。
指纹特征：上采样核Kup决定了复制频谱的加权方式。其幅值\(|{\mathcal{F}}\{\operatorname{K}_{\mathrm{wp}}\}(\omega)|\)直接塑造输出信号。现有研究探讨了不同类型的上采样方法以保留不同的频谱特性[16] [18]。基础核函数如最近邻核或双线性核对应低通频率响应，会衰减高频成分。相比之下，学习转置卷积核既能保留、增强，也可选择性滤除特定频段，因此更倾向于保留高频成分[16]。因此，上采样“指纹”本质上是通过上采样核的频率整形形成的特征性频谱模式。

2)卷积的影响：
应用卷积定理，空间域中的卷积F在频域中转化为乘法运算： \[{\mathcal{F}}\{F\mathbf{x}\}(\omega)={\mathcal{F}}\{\mathbf{W}_{c o m v}\}(\omega)\cdot{\mathcal{F}}\{\mathbf{x}\}(\omega)+\mathbf{b}\cdot\delta(\omega),\] 其中x为输入信号，Wconv和b分别为卷积运算符的核函数与偏置项。
指纹特征：输出频谱的形态由\(|{\mathcal{F}}\{\mathbf{W}_{c o m v}\}(\omega)|\)决定。每个训练得到的卷积核如同频率选择性滤波器，既能增强特定频段又可抑制其他频段，由此形成由卷积核频率响应决定的频谱“指纹”。

3)非线性激活的影响：
在空间域中， φ (x)的计算是逐元素进行的。而在频域中，逐元素的非线性效应并不等同于简单的逐点操作，而是对应着类似卷积的频率混合过程。为简化分析，非线性效应可通过泰勒级数展开进行近似。对于较小的x值，ReLU、Sigmoid和Tanh等常见非线性激活函数均可通过其泰勒级数展开进行近似：

relu扩展是：

\[R e L U({\bf x})\approx\frac{\log({\bf2})}{10}+\frac{1}{2}{\bf x}-\frac{5}{4}{\bf x}^{2}+\frac{5}{4\bf x}{\bf x}^{3}+{\mathcal O}({\bf x}^{4}).\]

Tanh扩展是：

\[\operatorname{tanh}(\mathbf{x})\approx\mathbf{x}-{\frac{\mathbf{x}^{3}}{3}}+{\mathcal O}(\mathbf{x}^{5}).\]

Sigmoid扩展是：

\[{\mathrm{sigmoid}}(\mathbf{x})\approx{\frac{1}{2}}+{\frac{\mathbf{x}}{4}}-{\frac{\mathbf{x}^{3}}{48}}+{\mathcal O}(\mathbf{x}^{5}).\]

在频域中，高阶项（如x²）会导致输入信号的傅里叶变换H（ω）与其自身重复卷积： \[{\mathcal{F}}\{\mathbf{x}^{n}\}(\omega)=\underbrace{H(\omega)*H(\omega)*\cdot\cdot\cdot*H(\omega)}_{n{\mathrm{~imes}}},\] 其中\(H(\omega)={\mathcal{F}}\{\mathbf{x}\}(\omega)\)。该卷积运算会在输入频率 ω 的整数倍处生成谐波。例如，\(H(\omega)*H(\omega)\)会引入偶次谐波（如 2ω）以及直流分量（ω =0）。
指纹特征：非线性激活函数的频域“指纹”表现为谐波与频率混合模式的引入，将输入信号转化为更宽泛的频谱分布。例如，ReLU函数因二次项（\(\frac{5}{4}{\mathrm x}^2\)）引入显著的偶次谐波；而Tanh和Sigmoid函数则添加微弱的奇次谐波（\(\frac{\mathrm x^3}{3}\)和\(\frac{\mathrm x^3}{48}\)）。

4)标准化的影响：
标准化技术通过调整数据的均值和方差来实现数据的标准化。在频域中，不同类型的数据正态化具有相同的公式如下： \[{\mathcal{F}}\{\hat{\mathbf{x}}\}(\omega)={\frac{\gamma}{\sigma}}{\mathcal{F}}\{\mathbf{x}-\mu\}(\omega)+{\mathcal{F}}\{\beta\}(\omega),\] 其中 μ 和 σ 分别表示均值和标准差。 γ 和 β 是可学习的缩放和平移参数。 μ 和 σ 的计算方式因方法而异，例如批量归一化[25]会针对整个批次进行计算，而实例归一化[26]则针对每个样本单独计算。
指纹特征：尽管采用相同的频率公式，但由于所构建的优化景观存在差异，不同类型的归一化处理可导致参数分布的显著差异[26]，进而产生不同的频谱模式。

5)不同生成模块的影响：
前文讨论主要聚焦于基础组件的作用。接下来需要重点分析的是，生成过程中各个模块如何共同作用，最终形成图像的光谱特征。生成模型通常由多个生成模块组成，其中上采样层作为这些模块之间的连接器发挥关键作用，可使输入特征图的分辨率翻倍。如前所述，常用的上采样层（如双线性插值和最近邻插值）本质上具有低通滤波特性。这一特性会导致它们衰减前层的高频成分。现有研究表明[6]，模型指纹特征主要存在于高频成分中。由此可见，模型架构中后置模块对输出图像的指纹特征影响更为显著，因为前层高频模式可能已被滤除。

图3. (a)–(c) 最后生成模块在生成模型指纹中的重要性验证。在训练阶段(a)中，使用两个模型生成的图像训练二元分类器。第一个测试场景(b)中，我们使用来自两个模型的非重叠测试样本进行测试。第二个测试场景(c)中，我们使用由两个模型的最后生成模块参数互换构建的组合模型样本进行测试。
> (d)–(e) 第一和第二测试场景的混淆矩阵。模型1和模型2分别缩写为M1和M2，组合模型1和组合模型2分别缩写为CM1和CM2。

为验证这一假设，我们设计了如图3所示的实验方案，包含三个关键步骤：

训练：使用具有相同架构的两种不同生成模型（模型1和模型2）生成的图像傅里叶频谱，训练分类器。
测试I：使用模型1和模型2生成的测试集图像测量分类结果。
测试II：从第i个区块开始，依次将模型1的后续区块交换到模型2，反之亦然。每次交换后，使用组合模型生成新图像集，并评估分类器在该新数据集上的分类结果。图3(c)展示了交换最后一个区块的操作过程。

图3(d)、(e)展示了两个实验在测试I和测试II中的混淆矩阵。我们为模型1和模型2分别采用了两种ProGAN模型：在(d)中，我们使用最近邻上采样层构建模型；在(e)中，则采用双线性上采样层。如图所示，在测试I中，分类器表现出高准确率，这从混淆矩阵中对角线值的高值可以明显看出。然而在测试II中，当交换最后几个模块后，混淆矩阵揭示了模型归因结果的显著反转。具体来说，当交换最后两个模块时，反转准确率达到了0.9。这些变化结果表明，区分模型的最显著频谱模式主要由模型的最后两个模块生成。相比之下，随着生成过程的推进，早期模块留下的模式似乎变得越来越不明显。

B.模型综合策略

在本节中，我们将介绍用于创建指纹特征提取器训练模型的合成策略。直观来说，优秀的合成策略应当生成与真实生成模型指纹模式高度相似的模型，使这些合成模型能在开放环境中有效模拟新模型。根据第三节A部分的讨论，需要重点考虑以下因素：首先，输出图像的最后几个生成模块对可区分频谱模式的影响更为显著。因此，采用少量生成模块的合成架构能确保对指纹特征的精准模拟。其次，通过多样化上采样层类型、激活函数、归一化层及参数设置来提升模型多样性至关重要。我们明确将这些考量因素纳入方法体系。此外，为进一步增强多样性，我们还考虑了层数与层序的变体。

图4. 我们提出的模型合成策略。合成模型以真实图像作为输入，生成包含与该合成模型相关联的独特指纹特征的指纹图像。

总体而言，我们的模型合成策略如图4所示。该合成模型的结构可视为一个浅层自编码器，由K个下采样模块和K个上采样模块组成。根据上述讨论，K值可选择较小数值（如1或2）。每个下采样模块采用固定架构：通过池化层将输入分辨率降低一半，再通过两个卷积层提升特征维度。下采样模块输出的特征随后输入上采样模块，这些模块与标准生成模型中的生成模块共享相同组件，但提供了多种架构选择。
综上所述，合成模型的架构由选项{K，L，U，A，N，S}定义。

K表示合成模型中下采样/上采样模块的数量，可为1或2个。
L代表每个模块的卷积层数，可为1或2层。
U表示上采样操作类型，包括最近邻上采样、双线性上采样或步长2转置卷积层。
A是激活函数类型，可选用ReLU、Sigmoid、Tanh或不激活。
N表示归一化类型，可采用批量归一化、实例归一化或不归一化。
S表示相对于卷积层的激活与归一化顺序。

通过调整这些配置参数，我们可在构建空间内获得2×2×3×4×3×2=288种不同架构。针对每种架构，我们采用不同训练种子对M个模型进行训练，从而为每个架构生成M个参数各异的独立模型。实验中M值设定为20。
我们深知速度是模型合成的关键要素。在本方案中，我们将目标简化为聚焦重建过程，通过生成式神经网络专门负责最小化输入图像的重建损失。这种方法不仅易于实现，还能快速完成训练。其他训练方法的探索将留待后续研究。我们将最小重建残差约束设定为 η =0.005，以减少输出图像中的伪影。最终生成的合成模型总数达5760个，可广泛模拟具有不同架构和参数的各类生成模型。

C.模型综合的有效性

我们从保真度和效率两个维度评估模型合成策略的有效性。保真度用于衡量合成模型对真实生成模型频谱/指纹模式的复现程度，效率则用于考察在大量合成模型上进行训练的速度。

图5. (a) 单一模型上的谱图模式表示。(b) Frechet频率距离的计算过程。

保真度Fidelity：目前尚无现成工具能定量衡量合成模型与真实模型在指纹分布上的差异。为填补这一空白，我们提出一种名为Frechet 频率距离（FFD，Frechet Frequency Distance）的新指标，其灵感源自Frechet初始距离（FID，Frechet Inception Distance）[27]。选择Frechet 距离是基于其实用价值和广泛认可度，尤其适用于比较分布特征，特别是在均值和协方差能有效反映数据平均含量与变异性的场景。不同于通过比较初始特征分布距离来评估生成图像保真度的FID（特征信息距离）， FFD 通过比较谱特征分布距离来评估合成模型指纹的保真度。该 FFD 的计算主要分为两个步骤：

（步骤I）频谱模式表征：我们提取生成图像的频谱模式，用以表征每个合成模型与真实模型的特征指纹。如图5(a)所示，针对每个模型，我们首先生成N张图像（例如100张），然后参照文献[13]的方法，通过应用噪声提取器[28]去除图像中的语义内容来增强频谱模式。随后，利用这些经过降噪处理的图像，通过方位积分（AI）技术对二维傅里叶频谱的径向频率进行处理，计算出简化的1维功率谱[17]。最终，我们从这N张图像中计算平均频谱，作为各模型的频谱模式表征。
（步骤II）Frechet距离计算：如图5(b)所示，我们首先计算表III中所有现实世界模型的频谱表示的均值和协方差，该表涵盖了从GAN、 VAE 、Flow到Diffusion等主流生成模型。随后，我们以相同方式计算第III-B节中合成模型的频谱表示的均值和协方差。最后，计算这些分布之间的Frechet距离。具体而言，对于真实分布的均值 μr 与协方差 Σr ，以及合成分布的均值 μs 与协方差 Σs ，它们之间的距离由以下公式给出：

\[\mathrm{FFD}=\|\mu_{r}-\mu_{s}\|^{2}+\mathrm{Tr}\left(\Sigma_{r}+\Sigma_{s}-2\left(\Sigma_{r}\Sigma_{s}\right)^{1/2}\right)\]

其中Tr表示矩阵的迹。低 FFD 值表明合成模型在频谱模式方面与真实模型高度相似。

在表II中，我们通过对比不同合成方案与真实模型的弗雷歇频率距离（Frechet Frequency Distance），评估了合成模型的性能差异。架构变化包括：“无K”和“无L”分别表示仅使用单个下/上采样模块和单层结构；“无S”采用单一序列处理方式——卷积后仅进行归一化和激活；“无U”仅使用双线性插值进行上采样；“无A”和“无N”则分别表示省略激活层和归一化层。我们还设置了“无种子”组别，即不为各架构设置不同种子。数据显示，减少合成选项数量往往会增大弗雷歇频率距离（FFD），表明分布对齐效果变差。值得注意的是，取消激活函数和上采样方法的多样性会导致 FFD 显著增加。这可能是因为这些因素在变化时，主要会提升合成模型的多样性。