Neural Clustering based Visual Representation Learning
Neural Clustering based Visual Representation Learning
Guikun Chen1 , Xia Li2 , Yi Yang1 , Wenguan Wang1*
1 ReLER, CCAI, 浙江大学
2 ETH Zurich
https://github.com/guikunchen/FEC/
摘要
我们深入探究机器视觉的核心课题——特征测量,通过重新审视机器学习与数据分析领域经典方法中的聚类技术展开研究。现有视觉特征提取器(包括卷积神经网络、视觉图卷积网络和多层感知机)通常将图像表示为矩形区域。尽管这种网格化范式应用广泛,但其构建基于工程实践,缺乏对数据分布的显式建模。本研究提出“聚类特征提取”(FEC)框架,这是一个概念精妙却出人意料地具有自适应可解释性的神经聚类系统。该框架将特征提取视为从数据中筛选代表元素的过程,从而自动捕捉数据的底层分布规律。在图像处理中,FEC算法通过两种交替操作实现:首先将像素分组为独立簇以提取抽象特征,随后利用当前特征向量更新像素的深度特征。这种迭代机制通过多层神经网络实现,最终生成的特征向量可直接应用于下游任务。各层间的聚类分配过程可供人工观察验证,使得FEC的前向计算过程完全透明化,并赋予其出色的自适应可解释性。针对多种视觉识别模型和任务的大量实验验证了FEC的有效性、普适性和可解释性。我们期待这项研究能促使学界重新审视当前主流的网格式架构。
1.引言
特征测量,探索如何从高维图像数据中提取抽象、有意义的特征,是机器视觉历史上一个持久感兴趣的话题[1–3]。这种追求最初由人工设计的描述符[4–9]主导,在深度学习范式的影响下,从卷积景观[10,11]发展到注意力驱动机制[12,13]和基于MLP的方法[14,15]的前沿。卷积神经网络(ConvNets,图1a)将图像视为矩形区域,并采用滑动窗口的方式进行处理。基于注意力机制的方法(图1b)通常将图像分割为多个不重叠的块,并使用额外的[CLS]标记来表示整个图像。基于多层感知机(MLP)的骨干网络(图1c)同样遵循网格式架构,但在特征提取过程中不使用卷积或注意力机制。

在观察图1所示的视觉主干网络阵列后,自然会产生以下疑问:❶这些网络之间存在何种关联?更重要的是,❷如果这些神经网络确实隐含地捕捉到了图像数据的某些内在属性,是否可能存在一种更透明、更易解释的方式来测量视觉特征?
对问题❶的探索揭示了图像数据分析领域中对网格中心观点的持续坚持[16–18]。具体来说,现有骨干网络在前向处理过程中涉及的基本元素是矩形图像区域,例如基于卷积的骨干网络中的内核(滤波器)、滑动窗口和感受野,以及视觉Transformer(ViTs)和MLP中的图像块。这种广泛采用的范式虽然在卷积网络及其后续发展过程中起到了关键作用,但似乎更多是基于工程惯例而非对自然图像结构的模仿。现有大多数研究预计会随着网络层数的增加生成更抽象的特征,但没有人知道它们是如何实现的[19]。因此,问题❷变得更加根本:❸这种网格式架构存在哪些固有局限性?❹我们能否超越基于网格的统一假设,该假设无法体现图像的有机结构?
在问题❸的驱动下,我们发现了两个关键的限制:
- 首先,网格模型与像素组织的真实性质不一致,因此无法把握数据分布的复杂性[20]。
- 其次,深度特征提取器的黑盒特性阻碍了可解释性,掩盖了特征选择和显著性背后的原理。
这引出了两个核心问题:❹探究当前方法论的不透明性及其与人类感知认知的差异[21–23],后者具有将视觉场景分解为语义成分的独特能力。我们的目标是构建能够更精准捕捉像素数据分布特征、并模拟人类视觉认知过程的特征提取器,从而提升模型的可解释性和透明度。为弥合已发现的差距,必须进行根本性的范式转变:i)从图像表征的网格视图转向更灵活的模型,以包容视觉数据的动态特性;ii)从黑盒模型转向雄心勃勃的混合模型,整合强大的表征学习和可解释的特征编码。
在此脉络中,我们引入了FEC(第3节),这是一种基于聚类原理的机制可解释主干网络。其核心始于基于窗口的池化操作,生成作为初始元素的像素块。随后,FEC通过两个关键流程迭代运行:
i)基于聚类的特征池化。利用神经聚类算法对输入数据(像素块或先前聚类)进行建模,从而形成更抽象(不断扩大的)聚类结构。由于具有聚类特性,每个代表(聚类)能明确表征任意位置的像素集合,这正是FEC区别于网格式架构的关键所在。
ii)基于聚类的特征编码。在此阶段首先估计代表点,再根据像素与其代表点之间的相似度,将特征重新分配至各像素。
在这样的聚类框架下,FEC前向传播过程中的基础单元正是逐步扩大的聚类结构。
FEC具有几个引人注目的特点:
- 首先,增强的简洁性和透明度。精简的设计,结合特征提取过程中聚类的语义意义,使得FEC在概念上既优雅又易于实现。代表模型的构建机制确保了FEC的前向过程完全透明。
- 其次,实现底层数据分布的自动化分配。确定性聚类方法能够揭示图像数据像素间的潜在关联,捕捉到标准主干网络可能忽略的语义粒度差异。如图1d所示,FEC算法无需人工监督即可自主学习区分非网格结构的语义区域。
- 最后,ad-hoc可解释性。通过深入分析各特征池化过程中的聚类分配并整合这些结果,FEC算法能在前向处理阶段基于聚合后的聚类结果进行预测解释,让用户直观掌握语义组件的构成。这种ad-hoc可解释性在安全敏感场景中具有重要价值,为人类理解特征提取的前向过程提供了切实可行的解决方案。
通过回答问题❶-❹,我们在基于神经聚类的全透明框架中实现了视觉特征提取的理论化,弥合了经典聚类算法与神经网络可解释性之间的鸿沟。我们在第4节进行了文献综述及相关讨论。FEC作为直观且多功能的特征提取器,无需任何修改即可无缝兼容现有的视觉识别模型和任务。第5.1节的实验结果表明,仅需550万个参数,FEC在ImageNet [24]数据集上就能达到72.7%的前1名准确率。第5.2节通过建模代表展示了FEC如何捕捉数据分布特征。第5.3和5.4节则通过三个基础识别任务验证了FEC的迁移性和通用性。最后,我们在第6节总结了研究结论。
2.现有视觉特征提取器作为固定网格式解析器
问题陈述
本文研究标准分类场景。设X为输入空间(即视觉识别的图像空间),Y={猫、狗等}表示语义类别集合,例如ImageNet-1K[24]的类别数为|Y|=
1000。
标准流程
当前常用的分类方法是将深度神经网络\(h:{\mathcal X}\mapsto{\mathcal
Y}\)分解为特征提取器\(f:{\mathcal
X}\mapsto{\mathcal F}\)和分类器\(g:{\mathcal F}\mapsto{\mathcal
Y}\),满足\(h = g\circ
f\)。其中,f和g分别表示特征提取器和分类器。给定输入图像X时,特征提取器f将其映射到d维表示空间\({\mathcal F}\in{\mathbb R}^{C}\),即\(f=f(x)\in{\mathbb
R}^{C}\);而分类器g则基于中间特征f预测类别结果\(\hat y\),即\(\hat y=g(f)\in{\mathcal
Y}\)。本研究重点聚焦于特征提取器f的优化。
ConvNets
基于卷积的特征提取器多年来一直主导着学术界和工业界,其详细架构如下所述。形式上,给定输入图像\(X\in{\mathbb
R}^{3×H×W}\),卷积神经网络(ConvNets)会提取特征嵌入\(\{F^{l}\}^4_{l=1}\),其中分辨率分别为原始图像的1/4、1/8、1/16、1/32。这四个特征嵌入由四个独立阶段生成,每个阶段都包含网格式特征池化和编码。以ResNet18
[11]的第二阶段为例,给定第一阶段输出的\(F^1\in{\mathbb
R}^{64×56×56}\),将生成如下低维特征图: \[\hat{F}^{2}={\mathrm {grid\_pool}}
(F^{1})\in\mathbb{R}^{128\times28\times28}\]
其中网格池表示步长为2的卷积层,也可以用最大池化、平均池化等实现,之后进行特征编码得到该阶段的输出:
\[{F}^{2}={\mathrm {encode}}
(\hat{F}^{2})\in\mathbb{R}^{128\times28\times28}\]
其中,encode表示多个卷积层,这些层能保持输出分辨率的一致性。这一步骤是区分不同骨干网络的关键所在,具体实现方式包括ViTs中的自注意力机制和MLP中的标记混合器。ViTs
[13]和MLPs[14]都通过为图像中所有非重叠区域生成视觉标记嵌入来启动运算流程:
\[E=\mathrm{token\_emb}(X)\]
在此之后,ViTs使用[CLS]标记来表示整个图像,而MLP则通过计算所有图像块嵌入的平均值来实现这一目标。由于在整个特征提取的前向过程中都使用了图像块序列,我们也将其归类为网格式范式。
总体而言,现有视觉模型主要基于刚性网格的计算建模构建,这种模式通过规则区域来呈现图像。然而,该范式低估了视觉场景的动态特性,其假设的空间均匀性与像素数据的实际分布存在矛盾。此外,它还忽视了人类感知的本质——人类感知并不局限于刚性网格,而是能够灵活地在语义上下文中进行导航[25]。
在解决了问题❸之后,我们将在下一节详细阐述基于聚类的透明视觉特征提取器,这将是对问题❹的有力回应。
3.基于聚类的特征提取(FEC,Feature Extraction with Clustering)

算法概述
FEC是一种基于神经聚类的视觉特征提取框架,其核心思想是采用分层选择代表的方法。具体来说,当输入图像进入FEC时,系统首先使用标准卷积层进行处理,其核尺寸和步长均设为4。随后基于生成的4×4像素块进行特征提取。接下来,FEC会针对每个输入特征交替执行以下步骤:
- 基于聚类的特征编码,即\({\mathbb R}^{C\times W\times H}\mapsto{\mathbb R}^{C\times W\times H}\)。它通过将像素特征投影到相似性空间,并使用自适应(步长和核尺寸自动选择以适应所需的分辨率)平均池化来初始化聚类中心,将特征图中的像素划分为多个不重叠的簇。因此,可以根据像素与中心点之间的相似度进行聚类分配。随后,通过聚合像素特征构建聚类表征。接着采用特征调度技术——利用聚合后的中心点重新分配聚类内的像素特征,从而实现像素级特征编码,即信息传递过程。这样一来,同一聚类内的像素元素在特征空间中就会呈现出更高的一致性。
- 基于聚类的特征池化,即\({\mathbb R}^{C\times W\times H}\mapsto{\mathbb R}^{C^{\prime}\times W/2\times H/2}\)。与特征编码过程类似,该模块通过聚类获得簇分配。其核心区别在于直接输出簇表示,无需进行特征编码即可生成低维特征图。这种策略不仅保留了不同语义层级的组合结构,还能将聚类概念无缝融入前馈特征提取流程。
简而言之,我们将目标任务——为视觉输入提取深度特征——形式化为表示选择。通过这种方式,中间代表可以自然替代\(\;\mathrm
{grid\_pool}\;\)。由于这些代表是根据每个输入的上下文计算得出的,因此也可以用于通过特征调度传递信息,这与\(\;\mathrm
{encode}\;\)操作具有相同的功能。然后,我们将详细阐述FEC核心模块的具体操作流程。
中心初始化阶段
给定输入特征图\({\boldsymbol F}\in{\mathbb R}^{N\times
C}\)(其中N=W×H),我们首先通过1×1卷积层将其投影到键空间和值空间,分别得到\({\boldsymbol K}\in{\mathbb R}^{N\times
C^{\prime}}\)和\({\boldsymbol
V}\in{\mathbb R}^{N\times C^{\prime}}\)。这里\(C^{\prime}\)是用于控制维度的超参数。随后,我们使用这些键和值特征来初始化聚类中心:
\[\begin{aligned}&[C_1^k;\cdots;C_O^k]
=\mathrm{ada\_pool_O}(\boldsymbol{K})\in\mathbb{R}^{O\times C^{\prime}},
\\&[C_1^v;\cdots;C_O^v]
=\mathrm{ada\_pool_O}(\boldsymbol{V})\in\mathbb{R}^{O\times
C^{\prime}},\end{aligned}\] 其中\(\mathrm{ada\_pool_O}\)表示在投影空间中使用自适应平均池化生成O特征中心。因此,这些中心会根据每个输入进行自适应初始化,并且梯度可以传递到所有索引。
表示建模
要将每个元素都分配到一个集群中,计算相似性矩阵M:
\[M=\langle\boldsymbol{K},[C_{1}^{k};\cdot\cdot\cdot\cdot
C_{O}^{k}]\rangle\in\mathbb{R}^{N\times O}\]
其中⟨·,·⟩表示余弦相似度。每个元素根据\(\mathrm{arg
max}(M)\)被唯一分配到一个簇中,从而生成包含N个独热向量的分配矩阵A。通过簇分配,第o个代表(簇)的深度特征将通过以下方式聚合:
\[R_{o}=\left(C_{o}^{v}+\Sigma_{n=1}^{N}A_{n
o}\,V_{n}\right)/\left(1+\Sigma_{n=1}^{N}A_{n
o}\right)\in\mathbb{R}^{C^{\prime}}.\]
到目前为止,我们已经获得了低维特征R=[R1,…,RO](即表示),它可以无缝地替代网格式范式中的网格式架构。
特征匹配
基于“同一簇内的元素应具有相似属性”这一认知,我们提出通过在各簇内部传播信息来增强这种特性。具体而言,我们选择采用与对应中心[26,27]的相似度相关的调制传播方式来实现这一目标。对于簇o中的元素n,其特征函数\({\boldsymbol F}_n \in {\mathbb
R}^{C}\)的更新公式为: \[{\boldsymbol
F}_{n}^{\prime}={\boldsymbol F}_{n}+\mathrm{MLP}(\sigma(\alpha
{\boldsymbol M}_{n o}+\beta){\boldsymbol
R}_{o})\in\mathbb{R}^{C},\]
其中σ表示S型函数。参数α和β是可学习的参数,用于调整相似度的缩放和偏移量。更新后的特征\([{\boldsymbol F}_1^{\prime};··;{\boldsymbol
F}_N^{\prime}]\)是FEC \(\;{\mathrm
encode}\;\)操作的输出(该过程可重复多次)。由于中心特征是从一组元素中自适应采样得到的,这种调度机制实现了簇内元素与簇中心元素之间的有效通信,从而整体理解图像底层数据分布及上下文信息。从更高维度来看,FEC可视为自注意力机制(非重叠簇)的专属变体,例如:中心初始化与键值矩阵、代表性建模与注意力分数、特征调度与加权聚合的对比。更多实现细节详见附录。
潜在数据分布的自动发现
聚类分配不仅阐明了元素与其表示之间的关系,而且还阐明了特征图中潜在的数据分布。在第l层\(\{n|{\boldsymbol
A}_{no}^l=1\}\)中分配了第o个质心的像素会聚合成一个簇(分割)\({\boldsymbol
S}_o^l\),从而将整个特征图分解为O个可识别的段,这些段位于第l层。通过以下方式将连续层中的集群链接起来:
\[\bar{S}_{h}^{l}=\mathrm{Uninon}(\{S_{o}^{l-1}\mid
{\boldsymbol A}_{o h}^{l}=1\}),\] 我们构建了一个分层金字塔\([\bar S^1,\bar S^2,···,\bar
S^L]\),它将像素合并为越来越大的片段,并明确揭示了底层数据分布。
Ad-hoc可解释性
该配置通过直接前向处理过程\(l = 1→L\),生成链式空间分解\([\bar S^1,\bar S^2,···,\bar
S^L]\),直观地将图像解析呈现给观察者。相比之下,早期技术(如Grad-CAM
[28])需要通过回溯过程来突出激活区域。这些方法通常需要复杂的后处理才能揭示隐藏的解析机制。然而,FEC具有机制可解释性,因为其基于逐步增长的聚类(片段)的前向处理过程完全透明。详见文献[29]获取更详细讨论。
通用性
在用特征代表建模特征提取过程后,人们可能会质疑这种新范式在密集预测任务中的适用性。例如,在检测任务中,YOLO
[30]和Faster-RCNN等常用模型的训练过程依赖于基于网格的标签分配(锚点)。为了保留必要的网格信息,我们在特征代表的特征中引入了残差连接[11]:
\[R_{i}=\mathrm{Rescorn}(F_{i})+R_{i}\in\mathbb{R}^{C^{\prime}}.\]
这一改进使得每个\(R_{i}\in\mathbb{R}^{C^{\prime}}\)既能表示网格式范式中的矩形区域,也能代表我们基于聚类范式中选定的代表性区域。如图2a所示,我们在特征提取过程中采用了与现有标准骨干网络相同的四个阶段,从而确保输出特征具有相同的分辨率。简而言之,FEC标志着视觉特征提取领域的一次根本性范式转变,同时完全兼容以往的研究成果。计算流程的具体细节将在第5.2节中详细阐述。
适应下游任务
如前所述,通过引入残差连接机制,FEC可以无缝集成到检测、分割等密集预测任务中,无需对架构进行任何修改。在分类任务方面,我们在最终特征图\(F^L\)上使用标准分类头,即单层多层感知机(MLP),该模型采用所有代表点的平均值作为输出。更多细节详见附录。我们预计近期的集合预测架构(例如DETR
[32])能够更有效地利用建模代表,这将作为未来的研究方向。
4.相关工作
聚类
聚类作为机器学习领域的基础技术,其核心在于根据数据点的内在特征进行分组。面对海量数据时,聚类的目标是构建具有实际意义的集群模型(无论是否预设数量),这些集群可视为原始数据的综合呈现。通过量化分析,能够准确衡量每个数据点与集群表征之间的相似度。该技术已广泛应用于多个领域,例如场景理解[33–36]、点云分析[37-39]、图像分割[40–44]以及人工智能在科学领域的应用[45–48]。
与以往将聚类机制作为辅助手段来实现特定任务的研究不同,我们的方法开创性地提出了从聚类视角学习通用视觉表征的创新思路。所提出的基于聚类的特征提取方法与经典视觉技术中相似像素聚类[49]存在共性,但其创新点在于能够捕捉数据分布的底层规律,并为下游任务生成连续表征。通过将整个特征提取过程重构为聚类方式选择代表元素,FEC在保留聚类固有透明特性的同时,充分发挥了端到端表征学习的鲁棒性。受生物系统同时处理多模态输入的启发,感知器[50,51]模型构建了一组与输入相关的潜在向量。FEC的理论基础源于经典聚类思想,其中间元素具有明确含义,即分段(公式8)。
5.实验
6.结论与讨论
在机器视觉领域,如何在保持数据分布可解释性和显式建模的同时,为视觉数据提取强大的分布式表征,始终是业界面临的重大挑战。尽管视觉主干网络已取得显著进展,但主流解决方案仍受限于处理矩形图像块的计算能力——这与人类感知中像素的组织方式形成鲜明对比。本研究通过将特征提取重构为代表性选择,实现了突破性进展,从而构建出透明且可解释的特征提取器。我们的目标是为视觉系统开辟新路径:这些系统不仅性能卓越,更能深入理解视觉场景底层的数据分布规律,从而提升其应用的可信度和清晰度。