Unsupervised_Semantic_Segmentation
1. Boosting Unsupervised Semantic Segmentation with Principal Mask Proposal
摘要
无监督语义分割的目的是通过在没有任何形式注释的图像语料库中识别全局语义类别,自动将图像分割成语义上有意义的区域。基于自监督表示学习的最新进展,我们关注于如何利用这些大型的预训练模型,用于无监督分割的下游任务。我们提出了PriMaPs-Principal Mask Proposals-基于图像的特征表示将图像分解为语义上有意义的掩模。这使得我们可以通过使用随机期望最大化算法PriMaPs-EM将类原型拟合到PriMaPs中来实现无监督语义分割。尽管PriMaPs-EM概念简单,但它在各种预训练的主干模型,包括DINO和DINOv2,以及不同的数据集,如城市景观、coco-st-Stuff之间导致竞争结果。重要的是,当PriMaPs-EM正交应用于当前最先进的无监督语义分割管道时,它能够提高结果。代码可在https://github.com/visinf/primaps上找到。
PriMaPs: Principal Mask Proposals
在本文中,我们利用了自监督表示学习的最新进展(Caron等人,2021;Oquab等人,2024年),用于无监督语义分割的特定下游任务。我们的方法是基于观察到,这些预先训练过的特征已经表现出内在的空间相似性,捕获语义相关性,从而为拟合全局伪类表示提供指导。
简单的baseline
考虑一个简单的基线,将K-means聚类应用于DINO ViT特征(Caron et al.,2021)。令人惊讶的是,这已经导致了相当好的无监督语义分割结果,例如,大约15 %的平均IoU分割27个类别(Cordts et al.,2016),见Tab 1。然而,在相同的特征空间和地面真实标签之间的监督线性探测——理论上界——导致明显优于近36 %的平均结果。鉴于这一差距和该方法的简单性,我们得出结论,与之前的工作不同,直接获得语义分割有宝贵的潜力(汉密尔顿等人,2022;Seong等人,2023)。
从K-means到PriMaPs-EM
当检查K-means基线和最先进的方法时(汉密尔顿等人,2022;Seong等人,2023),见图4,可以定性地观察到,在各自的预测中,更多的局部一致性已经导致更少的错误分类。我们的灵感来自(Drineas et al.,2004;Ding & He,2004),他指出,由主成分跨越的PCA子空间是K-means聚类的松弛解决方案。我们观察到,主成分对对象-和以场景为中心的图像特征具有较高的语义相关性(cf。图1)。我们利用优势特征模式对图像进行迭代分割,通过图像特征与各自的第一主成分的余弦相似性来识别。我们命名得到的类不可知的图像分解PriMaPs-主掩码建议。我们观察到,主成分对对象-和以场景为中心的图像特征具有较高的语义相关性(cf。图1)。我们利用优势特征模式对图像进行迭代分割,通过图像特征与各自的第一主成分的余弦相似性来识别。我们命名得到的类不可知的图像分解PriMaPs-主掩码建议。PriMaPs直接起源于SSL表示,并指导无监督语义分割的过程。如图3所示,我们基于优化的方法,PriMaPs-EM,在从冻结的深度神经网络主干计算出的SSL特征表示上操作。该优化实现了在PriMaPs指导下的聚类目标的随机EM。具体来说,PriMaPs-EM通过优化两个相同大小的向量集,以全局一致的方式适合于类原型,其中一个是另一个的指数移动平均(EMA)。我们证明,PriMaPs-EM能够精确地无监督地分割图像到语义上有意义的区域,同时相对轻量级,并正交于大多数以前的无监督语义分割方法。
派生PriMaP
我们从一个冻结的预先训练的自监督主干模型\({\mathcal F}:\mathbb{R}^{3\times h\times
w}\longrightarrow\mathbb{R}^{C\times H\times
W}\)开始,它将图像\(I\in\mathbb{R}^{3\times h\times
w}\)嵌入到一个密集的特征表示\(f\in\mathbb{R}^{C\times H\times W}\):
\[f={\mathcal{F}}(I)\,\]
这里,C表示密集特征的通道维数,H=h/p,W=w/p,p对应主干的输出步幅。基于此图像表示,下一步是将图像分解为具有语义意义的掩模,为拟合全局类原型提供局部分组先验。
初始主掩码建议。为了识别图像I中的初始主掩模方案,我们利用主成分分析分析了其特征的空间统计相关性。具体地说,我们考虑了经验特征协方差矩阵
\[\Sigma={\frac{1}{H
W}}\sum_{i=1}^{H}\sum_{j=1}^{W}\Bigl(f_{:,i,j}-\bar{f}\Bigr)\left(f_{:,i,j}-\bar{f}\right)^{\mathsf{T}},\]
其中,\(f_{:,i,j}\in\mathbb{R}^{C}\)为位置(i,j)处的特征,\({\overline}\in\mathbb{R}^{C}\)为平均特征。为了识别捕获特征分布中最大方差的特征方向,我们通过求解来寻找Σ的第一个主成分
\[\Sigma v=\lambda v\,\]
我们得到了第一个主分量作为最大特征值λ1的特征向量v1,利用平坦特征f可以用奇异值分解(SVD)有效地计算出来。
为了识别一个候选区域,我们的下一个目标是计算一个到主导特征方向的空间特征相似度图。我们观察到,直接使用主方向这样做并不总是会导致足够好的定位,也就是说,图像中多个视觉概念的高度相似性,在附录A.1中进行了更详细的阐述。这可以通过首先在特征图中锚定主要的特征向量来避免。为此,我们将归一化特征空间fˆ中的余弦距离考虑为,得到了第一主分量v1的最近邻特征\({\tilde{f}}\in \mathbb{R}^{C}\)