3.2 深度生成表示学习

​  另一种深度无监督表示学习方法在于生成模型。生成方法假设数据푥是由潜在表示ℎ生成的,然后从数据中反向推导出表示\(p(h|x)\)的后验。其中,最典型的方法是变分自动编码器(VAE)[102]。VAE采用方差推理技术,最大化数据似然值的证据下界(ELBO,the evidence lower bound): \[\log p(x)\geq\mathbb{E}_{q(h|x)}\left[\log p(x|h)\right]-D_{K L}(q(h|x)\|p(h))\] ​  其中\(D_{K L}(\cdot\|\cdot)\)表示两个分布之间的kl-散度,\({p}(h)\)是潜在表征的先验分布,\(q(h|x;\varphi)\)是表征的变分后验来近似真后验(即\(q(h|x;\varphi)~\approx~p(h|x)\)),可以用识别网络\(\varphi\)进行建模。利用再参数化技巧[102]和蒙特卡罗近似[97],可以通过反向传播从方程(1)中有效地学习后验。
​  分析。深度生成模型具有一些优点,如灵活、可解释和能够重新创建数据点。将生成式表示模型转换为深度聚类任务,使聚类模型能够继承这些优势。

3.3 互信息最大化表示法学习

​  互信息(MI,Mutual information)[103]是度量随机变量\(X\)\(Y\)之间依赖性的一个基本量,其表述为: \[T(X;Y)=\int\log{\frac{d\mathbb{F}_{X Y}}{d\mathbb{E}_{X}\otimes\mathbb{P}_{Y}}}d\mathbb{P}_{X Y}\] ​  其中,\(\mathbb{P}_{X Y}\)为联合分布,\(\mathbb{F}_{X}=\int_{Y}d\mathbb{P}_{X Y}\)\({\mathbb{P}_{Y}}=\int_{X}d\mathbb{P}_{X Y}\)为边际分布,P푋⊗P푌为边际分布的乘积。传统的互信息估计[106]只适用于离散变量或已知的概率分布。最近,MINE [9]被提出用于用深度神经网络来估计互信息。广泛使用的互信息估计是Jensen-Shannon散度(JSD,Jensen-Shannon divergence)[143],其公式为: \[{\cal I}_{J S D}(X;H)=\mathbb{E}_{\mathbb{R}_{X H}}\left[-\operatorname{sp}(-D(x,h))\right]-\mathbb{E}_{\mathbb{R}_{X}\times\mathbb{R}_{H}}\left[\operatorname{sp}(D(x,h))\right]\] ​  其中,\(\operatorname{s p}(x)\;=\;\log\left({1}+e^{x}\right)\)是软加函数。\(D\)是一个由神经网络建模的判别器函数。另一个流行的互信息估计是InfoNCE [148],它将在第3.4小节中介绍。受益于神经估计,互信息在无监督表示学习[7,75]中被广泛应用。更具体地说,通过最大化不同层[7]或数据实例[75]的不同部分之间的互信息来学习表示,从而保证表示的一致性。这可以被看作是对自我监督学习的早期尝试,这对后来的工作有广泛的影响。
​  分析。互信息作为相关性和依赖性的基本度量方法,有几个优点。深度聚类任务的主要优点是,由互信息度量的变量不局限于相同的维度和语义空间,如实例和聚类。详细的应用程序将在第4.4小节和第5.4.2小节中进行介绍。与基于自动编码器的深度生成表示学习类似,互信息最大化方法的目标也是实例化的,这在捕获实例之间的关系方面也可能存在上述问题。然而,互信息估计中的边际分布依赖于所有的观测样本。换句话说,实例之间的关系是隐式捕获的,这也提高了深度聚类的性能。

3.4 对比表示学习

​  对比学习是近年来最流行的无监督表示学习技术之一。其基本思想是将正对拉近,而将负对推远,这也被称为实例辨别。对比学习的代表性目标是InfoNCE损失[148],公式为: \[\mathcal{L}_{I n f o N C E}=-\log\sum_{i=1}^{N}\frac{\exp\left(f\left(h_{i},h_{i}^{^{\mathcal{T}}}\right)/\tau\right)}{\sum_{j=1}^{N}\exp\left(f\left(h_{i},h_{j}^{^{\mathcal{T}}}\right)/\tau\right)}\] ​  其中\(h_{i}\)为锚定样本的表示,\(h_{i}^{\mathcal{T}}\)为正样本表示,\(h_{j}^{\mathcal{T}}\)为负样本表示,\(f\)为相似函数,\(\tau\)为温度参数[74]。正样本通常通过数据增强进行,数据类型不同。例如,图像数据[30]的翻转、旋转和裁剪增强,图数据[113,217]的节点下降、边缘扰动、属性掩蔽和子图采样。负样本是从数据集[30]中其他实例的增强视图或旧的负表示[72]的动量更新内存库中选择的,这可以看作是噪声的近似。
​  分析。对对比学习进行了理论分析,大量证据表明,对比学习学习的表征有利于聚类任务。在[196]中,对比学习用两个特性来解释:正对特征的对齐和超球面上特征分布的均匀性。对齐属性鼓励具有相似特征或语义类别的样本在低维空间中保持接近,这对聚类至关重要。这种鉴别能力也在监督方式[101]中得到了证明。