InfoNCE Induces Gaussian Distribution

约 4588 字大约 15 分钟

2026-03-03

Roy Betser, Eyal Gofer, Meir Yossef Levi, Guy Gilboa
Technion - Israel Institute of Technology

摘要

对比学习已成为现代表征学习的基石，它使得任务特定模型和通用（基础）模型都能利用海量未标注数据进行训练。对比训练中的典型损失函数是InfoNCE及其变体。本研究揭示，InfoNCE目标函数会诱导对比训练中表征呈现高斯结构。我们通过两种互补方法验证了这一结论：首先，在特定对齐和集中性假设下，高维表征的投影会渐近趋近于多元高斯分布；其次，在更宽松的假设条件下，通过添加一个渐近趋近于零的正则化项（该项促进特征范数降低和特征熵增加），也能获得类似的渐近结果。我们在合成数据集和 CIFAR -10数据集上对多种编码器架构和尺寸进行了实验验证，结果均显示一致的高斯行为。这一视角为对比表征中普遍观察到的高斯特性提供了理论依据。由此构建的高斯模型不仅为学习表征的理论分析提供了方法论支持，更有望在对比学习的广泛应用中发挥重要作用。

1.引言

基于对比目标的自监督学习彻底革新了现代表征学习领域，使得无需标注数据即可实现编码器的规模化训练(Oord et al., 2018; Chen et al., 2020; He et al.,2020; Radford et al., 2021)。其中，InfoNCE损失函数巧妙平衡了双重压力：既保持正样本对的对齐，又通过批次排斥机制促进表征的均匀分布（Wang & Isola ，2020）。这种均匀性常被形象地描述为表征在超球面上的“扩散”（Chen & He ，2021），但更深层次的概率问题依然存在：采用InfoNCE训练得到的表征究竟呈现怎样的实际分布？
回答这个问题不仅具有理论意义。高斯特征描述的提出直接源于最新实证研究——研究表明“更接近高斯分布”的表征可能与下游性能提升相关（Eftekhari & Papyan ，2025）。该理论还为实际应用提供了理论基础，例如将对比表征建模为高斯分布的方法，可应用于分类、不确定性估计和测试时自适应等任务（Baumann等，2024；Morales-Alvarez等，2024）。此外，假设高斯结构可使熵、似然和KL散度等量值以闭合形式存在，这为基于密度的诊断方法奠定了理论基础（Lee 等，2018； Betser 等，2025）。这些优势已在应用研究中得到利用，近期研究通过实证观察并利用了自监督表征中的近似高斯行为（Baumann 等，2024； Balestriero 等，2025； Betser 等，2026）。然而，尽管取得这些进展，关于为何像InfoNCE这样的对比目标会在表征空间中产生高斯结构，仍缺乏基于原理的群体层面的解释。
在分析InfoNCE目标函数的群体层面时，我们通过两种互补的分析路径，系统阐释了渐近高斯表示的形成机制。核心要素是基于Hirschfeld-Gebelein-Renyi（HGR）最大相关性的新型对齐边界，该边界通过增强温和性（第3.1节）限制了可实现的对齐程度。在经验理想化路径中，受经验训练动态驱动，对齐过程达到平台期，目标函数转化为超球面上的约束均匀性问题；结合范数集中性，这使得归一化（至单位范数）与未归一化表示均呈现高斯结构（第4.1节）。
在正则化路径中，群体层面的分析表明，添加一个消失的凸正则化项优先选择各向同性解，从而在不依赖训练动态的情况下产生相同的渐近高斯行为（第4.2节）。这些分析共同揭示了为何在群体层面，InfoNCE目标下会出现高斯结构。
我们通过合成数据和 CIFAR -10（Krizhevsky 等人，2009）图像的实证研究，结合日益复杂的编码器（线性层、非线性激活的多层感知机MLP以及ResNet-18（He 等人，2016））对理论分析进行补充。通过对比对比学习与监督学习，我们成功将训练目标的作用从数据或架构的影响中分离出来。进一步观察发现，包括DINO（Caron 等人，2021）在内的通用自监督基础模型所学习的表征也呈现相似的高斯统计特性，这促使我们更广泛地考察自监督目标间的高斯结构。
我们的主要贡献包括：

有界对齐。在大规模数据处理场景下，由InfoNCE目标函数引发的对齐效果会受到数据增强强度的限制。
球面均匀性。通过两种分析路径，我们发现归一化表示会收敛至单位球面上的均匀分布。
渐近高斯结构。在此框架下，归一化与非归一化表示在InfoNCE目标函数作用下均呈现渐近高斯特性。
实证支持。我们通过合成数据与真实数据的有限维度实证研究，验证了高斯行为在不同场景和编码器架构中的普遍性，为渐近分析提供了有力佐证。

2.相关工作

对比学习与InfoNCE
InfoNCE损失函数（Oord等人，2018）是自监督表征学习的标准目标函数，支撑着SimCLR（Chen等人，2020）、MoCo（He等人，2020）和CLIP（Radford等人，2021）等方法。该函数通过正样本配对的对齐与批量排斥机制，促进表征空间的均匀性（Wang & Isola，2020；Chen & He，2021）。前期研究从几何与优化角度探讨了这些效应，发现了超球面均匀性与特征集中等现象（Chen & He，2021；Caron等人，2021；Draganov等人，2025）。其他实证研究将对比表征建模为近似高斯分布（Baumann等人，2024；Morales-Alvarez等人，2024）。然而，InfoNCE目标函数本身诱导的概率规律在理论上仍未得到解释。

各向同性与高斯结构
多项研究通过显式正则化或架构设计，包括基于白化的优化目标、方差-协方差控制及神经坍缩现象，来促进各向同性或类高斯表征（Ermolov等人，2021；Papyan等人，2020；Bardes等人，2022）。基于联合嵌入预测架构（JEPA）的相关自监督方法同样能生成高度规则的表征，且已被证实可编码与密度相关的结构，这些结构可被高斯模型利用（Assran 等，2023； Bardes 等，2024； Balestriero 等，2025； Balestriero & LeCun ，2025）。然而，这些研究主要观察或利用类高斯结构，而非解释其来源。我们的工作则揭示了高斯性如何直接源自InfoNCE目标的群体。

超球几何与高斯性
经典研究领域深入探讨了球面上高维均匀测度的几何特性及其与高斯分布的关联（Vershynin ，2018； Wegner ，2021）。相关几何思想也体现在超球变分族和径向贝叶斯先验中，这些方法利用了超球面上近似均匀分布的特性（Davidson 等，2018； Farquhar 等，2020）。该领域的核心成果当属麦克斯韦-庞加莱球面中心极限定理，该定理表明当维度增大时，固定维度投影的‘球面S d−1上的均匀分布会收敛为高斯分布(Maxwell, 1860; Poincare, 1912; Diaconis & Freedman, 1987)。尽管这些成果独立于对比学习发展，但它们为理解球面均匀性如何在高维表征中诱导高斯结构提供了数学基础。我们的分析通过识别信息非对称对比学习（InfoNCE）目标诱导此类均匀性的特定情形，将经典理论与对比学习相联系。

其他理论视角
补充性研究则聚焦于对比学习目标所学表征的理论特性。可识别性分析用于界定在数据生成过程的结构假设下，潜在变量或语义因子何时能够被唯一恢复（Hyvarinen & Morioka ，2016； Hyvarinen et al.，2019； Zimmermann et al.，2021； Roeder et al.，2021； Reizinger et al.，2024）。这些研究关注条件结构或成分层面的结构特征，但并未对表征的边缘分布提出主张。另一方面，任务驱动分析为对比表征建立了类别可分离性或聚类保证（Saunshi et al.，2019； HaoChen et al.，2021），其研究重点在于类别条件几何而非整体分布。具体而言，即使整体嵌入分布近似高斯分布，特定类别的聚类仍可能保持良好分离。本研究不涉及表征恢复或类别结构，而是分析由群体信息非共轭嵌入（InfoNCE）目标所诱导的边缘分布。

3.设置

数据域
设(X，B(X))为标准Borel空间（概率论中的标准设定），其基础概率为pbase。我们将X0∼pbase作为单个数据项（例如图像）进行抽取。

通过增强技术生成样本对
对比学习以相关样本对而非单个样本为核心构建。为形成此类样本对，我们采用增强通道A，该通道以基础样本X0∼pbase为输入，生成其随机变体。具体而言，给定X0后，我们抽取两个独立的增强样本。

X , Y \; \sim \; A ( \cdot \mid X _ { 0 } ) .

此处X和Y为同一基础示例的两种视图（例如不同作物或色彩抖动）。我们用pX表示单次增强的边际分布，并假设其为非原子性（一种通过无穷小抖动在实践中可实现的温和技术条件）。pXY表示增强对(X，Y)的联合分布。

InfoNCE损失
设$f : \mathcal { X } \to \mathbb { R } ^ { d } , d \geq 2 $为Borel可测编码器，用于将输入数据映射为表示。InfoNCE作用于 ℓ2 归一化表示，定义为：若∥f(x)∥>0，则$ { \hat { f } } ( x ) : = f ( x ) / | f ( x ) | $；否则$ { \hat { f } } ( x ) : = c _ { 0 } $（其中$ c _ { 0 } , \in , \mathbb { S } ^ { d - 1 } $为固定常数）。给定从pXY独立同分布抽取的N个成对增强样本$ { ( x _ { i } , y _ { i } ) } _ { i = 1 } ^ { N }$，定义ui:=f ˆ (xi)和vi:=f ˆ (yi)。经验InfoNCE损失为

\mathcal { L } _ { \mathrm { I n f o N C E } } = - \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \log \frac { \exp \left( \frac { 1 } { \tau } \left\langle u _ { i } , v _ { i } \right\rangle \right) } { \sum _ { j = 1 } ^ { N } \exp \left( \frac { 1 } { \tau } \left\langle u _ { i } , v _ { j } \right\rangle \right) } ,

在固定温度 τ >0的条件下，由于ui和vj经过单位归一化处理，⟨ui，vj⟩等于余弦相似度。分子衡量正向对（ui，vi）的相似度，分母将每个锚点ui与所有候选vj进行比较（Nj=1，其中j=i作为负样本）。这种softmax函数促使ui将其真实配对排在首位，同时保持与负样本的区分度，从而避免模型坍塌。

InfoNCE群级
等式(2)中的经验性InfoNCE损失取决于批量大小N。当N→∞时，经验平均值收敛于期望值。

\mu : = \hat { f } _ { * } p _ { X } , \qquad \pi : = ( \hat { f } , \hat { f } ) _ { * } p _ { X Y } ,

上述公式分别表示为表示的边际分布和正对的联合分布。这里 $\hat { f } _ { * } p _ { X }$ 表示通过 $\hat { f }$ 对 $p _ { X }$ 的前推测度，即 $\hat { f }(X)$ 的分布。如Wang & Isola (2020，定理1，等式(2))所示，在无限负数极限N → ∞时，经验InfoNCE损失（除加性log N项外）收敛于以下群体泛函。当 α = 1/ τ（固定 τ > 0）时：

\mathcal { L } ( \mu , \pi ) \; = \; - \alpha \mathbb { E } _ { ( u , v ) \sim \pi } [ u \cdot v ] \; + \; \Phi ( \mu ) , \qquad \Phi ( \mu ) : = \mathbb { E } _ { u \sim \mu } \, \log { \mathbb { E } _ { v \sim \mu } \exp ( \alpha \, u \cdot v ) } .

第一项衡量正向配对的对齐程度，而第二项是仅依赖于 µ 的均匀性势能

3.1 对齐约束

我们现在引入一个量化增强程度的新术语。增强通道A限制了可诱导的正对齐对数量。我们通过增强温和性参数对此进行量化。

\eta _ { 2 } \; : = \; \operatorname* { s u p } _ { g \in L ^ { 2 } ( p _ { X } ) ;\mathrm { V a r }(g)>0} { \frac {\mathrm { V a r } \big (\mathbb { E } [ g ( X ) \; | \; X _ { 0 } ]\big ) } {\mathrm { V a r } \big ( g ( X ) \big )}} \; \in [ 0 , 1 ] ,

该指标用于衡量视图X相对于基底X0的函数可预测性。该量等于Hirschfeld-Gebelein-Renyi（HGR）最大相关系数的平方，记作‘ ρm (X，X0)，即 $\eta _ { 2 } = \rho _ { m } ^ { 2 } ( X , X _ { 0 } )$ (X，X0)（Hirschfeld ，1935； Gebelein ，1941； Renyi ，1959）（参见附录A.1）。直观上，当X（实质上）独立于X0时（即极强/含噪声的增强），’ η2 =0；当X完全由X0决定时（无增强噪声）， η2 =1。

示例
考虑高斯信道 $X \, = \, A X _ { 0 } + { \sqrt { 1 - A ^ { 2 } } } \, \varepsilon ,$ ，其中X0∼N(0,1)且 ε ∼N(0,1)相互独立。此时X与X0呈联合高斯分布，Pearson相关系数为A，最大相关系数满足 $\rho _ { m } ( X , X _ { 0 } ) = | A |$ ，因此 $\eta _ { 2 } = A ^ { 2 }$ （附录A.2）。

命题1（增强控制对齐边界）
设X、Y在给定基础样本X0的条件下独立服从分布$ A ( \cdot \mid X _ { 0 } )$，并令u=f ˆ (X)，v=f ˆ (Y)为Sd−1空间中的归一化表示，即∥u∥=∥v∥=1。

\begin{array} { r } { \mathbb { E } _ { ( u , v ) \sim \pi } [ u \cdot v ] \; \le \; \eta _ { 2 } \; + \; \left( 1 - \eta _ { 2 } \right) \| m ( \mu ) \| ^ { 2 } , \qquad m ( \mu ) : = \mathbb { E } [ u ] = \mathbb { E } [ v ] , } \end{array}

其中 $\eta _ { 2 } = \rho _ { m } ^ { 2 } ( X , X _ { 0 } )$ 表示视图与基准之间的最大相关 HGR 平方， µ 表示u的边际分布。

该证明详见附录A.3。该界限将正向配对的对齐与增强通道诱导的统计依赖结构相关联。尽管 HGR 最大相关性已在统计依赖分析中被研究（Huang & Xu ，2020； Zhang 等，2024），但此前尚未被用于对比学习中的对齐控制。现有研究通过实证方法探讨增强技术（如 Tian 等(2020)），但未推导出此类形式的界限。本研究首次系统阐明：数据增强的强度如何从根本上制约InfoNCE目标下可实现的对齐程度。

4.来自INFONCE的高斯性

我们研究了为何最小化群体信息非对称性目标（等式4）会产生（近似）高斯低维投影的学习表征，这既适用于球面上的归一化表征，也适用于Rd中的未归一化表征。我们的分析沿着两条互补路径展开，这两条路径在所需假设强度上有所不同。

经验理想化。我们首先分析一个理想化场景，其中数据无限、环境维度d→∞且优化充分。基于经验观察，我们假设对齐平台期和薄壳集中现象；这些假设使得高斯投影的简单推导成为可能。

正则化路径。为了减少对训练动态的依赖，我们研究了群体目标的正则化变体。引入一个消失的凸正则化项并假设在均匀性下可实现对齐，确保了唯一最小化器并产生相同的渐近高斯结构。这条路径提供了一种独立于训练行为的替代解释。

。。。

6.讨论和结论

我们通过两条路径证明了InfoNCE训练得到的表征符合渐近高斯分布：一是采用具有薄壳集中效应的对齐平台分析，二是使用假设条件更宽松的正则化替代模型。在合成数据集 CIFAR -10、预训练模型（MS-COCO和ImageNet-R）上的实验结果均支持这些假设及高斯分布假说，揭示了范数集中效应、对齐饱和现象以及近似高斯投影。这些结果表明，高斯收敛特性在无限维极限出现前就已具备信息价值。这种高斯视角不仅为常见建模选择（如似然评分、 OOD 检测）提供了理论依据，还暗示显式各向同性正则化器可作为InfoNCE隐性偏置的合理替代方案。但研究仍存在局限：我们的结论基于渐近分析，依赖高维极限和理想化假设，可能无法涵盖所有实际场景。因此我们视渐近框架为理论起点，而非所有实际场景的完整描述。当维度d和批量大小N有限时，投影结果趋近高斯分布，其偏差随d、N→∞而趋近于零。定量界限可从高维经典Berry-Esseen速率（Vershynin ，2018）和经验目标的大量定律（Wellner 等，2013）中推导得出。根据Wang和Isola（2020年，定理1）的研究，经验性InfoNCE损失的最小化器与总体最小化器的偏差为O(N−1/2)；而 Diaconis 和 Freedman（1987年）指出，固定k投影的分布与高斯分布的偏差为O(d−1)（详见附录C.1中的定理2）。因此，当d和N较大但有限时，高斯极限可作为具有代表性和实用价值的经验性近似。此外，我们并未分析优化动态过程，也未证明训练过程在实践中能达到这些最小化器；我们的结果是渐近性的，仅在既定假设下表征总体最优解。总体而言，我们为对比表征中的高斯性提供了理论性渐近解释，既为经验观察提供了理论依据，也为分析和实际设计开辟了新方向。