RankMatch: Exploring the Better Consistency Regularization for Semi-supervised Semantic Segmentation

Huayu Mai1∗ ，Rui Sun1* ，Tianzhu Zhang1,2† ，Feng Wu1

1中国科学技术大学
2深空探测实验室

摘要

半监督语义分割的核心挑战在于如何充分挖掘海量未标注数据，通过构建有效的监督信号来提升模型的泛化能力。多数方法倾向于直接采用对比学习来获取额外监督信息，以补充独立的像素级一致性正则化。然而这些方法往往因设计复杂、内存占用大且容易产生确认偏误而难以被广泛采用。本文针对对比学习方法中存在的瓶颈问题展开研究，提出基于像素间关联的新视角来构建更安全有效的监督信号，这与语义分割的本质特征相契合。为此，我们开发了连贯的RankMatch网络，通过构建代表性代理模型来超越常规像素级一致性，进一步挖掘代理间的关联潜力，最终实现基于排序感知的关联一致性。大量实验结果表明，RankMatch在包括线粒体分割在内的多个基准测试中表现优异，优于现有最先进方法。特别是在低数据条件下，RankMatch实现了显著提升。

1.引言

语义分割作为计算机视觉的基础任务，致力于在像素级别解析视觉语义，近年来得益于深度神经网络[28]的突破性进展，已在视觉理解[11]、自动驾驶[12]等领域取得显著成果。然而，其数据驱动的特性使得收集大量像素级标注作为训练数据既费时又费力。为缓解数据饥渴问题，已有大量研究[19,44,57]将注意力转向半监督语义分割任务。然而，由于可获取的标注数据有限，如何通过构建有效的监督信号来充分利用大量未标注数据，从而提升模型的泛化性能，这确实是一个极具挑战性的难题。

在先前的研究文献中，伪标注[1,22]和一致性正则化[2,21]已成为利用无标签数据进行半监督语义分割的主流范式。近年来，这两种范式通常被整合到教师-学生架构中[46]（其中教师与学生可为同一实体）。具体而言，教师网络通过弱增强扰动视图生成对应的伪标签，指导学生网络在强增强扰动视图存在时进行训练，该方法采用像素级一致性正则化形式（参见图1(a)）。

图1.动机说明示意图。
> (a)对比了独立像素一致性正则化与相关一致性正则化的差异。显然，充分考虑像素间的丰富相关性能带来更丰富的额外监督。
> (b)展示了相关一致性正则化的直接实现方式，即对每个代理进行独立处理。
> (c)呈现了我们的核心思路——基于代理排名的相关一致性。
> 我们通过考虑所有可能的代理排名排列概率，充分利用代理间的关联关系。

通过对师生方案的深入分析，我们认为在半监督语义分割中构建来自大量未标注样本的额外监督至关重要——这从任务定义本身就能直观理解：即通过增强常规一致性正则化来适应密集像素级预测，而非受制于单个像素层面有限容量的监督信号（图1(a)）。受近期表征学习[8,18]的流行趋势启发，我们自然想到直接将对比学习[33,48,50,52]应用于半监督语义分割，从而在表征空间中构建丰富的正/负样本集，旨在通过补充独立像素级一致性正则化来获取更多监督信息。
尽管这些方法取得了令人鼓舞的成果，但由于需要处理大量临时生成的正负样本，导致模型设计复杂且内存占用过高，这不仅削弱了其实际应用能力，还破坏了教师-学生架构的固有简洁性。更棘手的是，在无标注数据中缺乏真实标签的情况下，模型对正负样本的判定完全依赖于带有偏差的预测结果（即错误的伪标签），从而引发确认偏误[14]。雪上加霜的是，半监督语义分割任务本身存在数据量不足的固有局限，这种误差累积效应在此类场景下会被进一步放大，严重制约了模型的泛化能力。
本文针对基于对比学习方法在提升像素级一致性正则化时存在的瓶颈问题展开分析，并提出一种创新视角——通过探索像素间相关性特征，构建更安全有效的监督信号，从而实现鲁棒的半监督语义分割。直观来看，现有方法往往忽视了密集像素预测任务蕴含的丰富像素间信息，这些信息超越了基础的单像素一致性范畴。这揭示了像素间相关性与一致性正则化（即图1(a)右侧所示的相关一致性正则化）之间存在更紧密的协同关系，为全面挖掘未标注数据提供了新思路。核心思路是：通过一组代表性的参考点（即代理节点）来建立代理层面的相关一致性，以此模拟像素间的关联性（参见图1(b)）。对于弱增强视图或对应强增强视图中的每个像素，我们可通过将其与一组代理进行比对，从而获得代理层面的相关性（即似然向量）。本质上，代理级相关性反映了具有更广感受野的代表性代理之间的共识，因此它编码了高阶一致性正则化，以适应密集像素级预测。然而，在没有监督信号的情况下训练出合适的代理并非易事。直观来看，这些代理需要与原始像素中多样化的语义线索产生积极共鸣，这些线索应涵盖广泛语义对比描述。为此，我们设计了一种正交选择策略，从特征图中筛选最具代表性的代理，尽可能保留原始像素中的关键信息。通过这种方式，借助代理层面相关性对数据分布的丰富描述，我们能够更有效地利用未标注数据。
基于上述讨论，很自然地将生成的代理层面相关性整合到师生方案中，并通过KL散度等方法施加一致性约束（图1(b)）。然而，这种直接的约束方式将每个代理视为独立个体，且过度依赖独立同分布的强假设，这限制了模型的进一步优化空间。实际上，代理之间存在特定关联关系，这些关系也应当纳入代理层面相关一致性正则化考量。例如，如图1所示，代理a和代理b是位于同一辆车内的两个像素，而代理c则位于道路之外。因此，代理a应当与代理b建立比代理c更紧密的合作关系。为更有效地利用代理间关系建模结构信息生成监督信号，我们摒弃了单独处理各代理的传统方法，转而精心设计了基于排名感知的相关一致性机制。通过确保教师网络与学生网络（即弱增强视图与强增强视图，见图1(c)）在代理层面的相关性保持一致，这种机制旨在进一步释放代理的潜力。核心思想是将代理排序视为随机事件而非确定性排列。例如，不同代理与给定像素$p^w$之间的相关性会变化，这可视为排序中的概率。代理a的排名概率为0.3，代理b的排名概率为0.5。从这个角度看，排名排列反映了代理在像素点上的相对位置关系。因此，针对每个像素点，我们会考虑所有可能的代理排名组合（如abc、cba等），并将代理间的关联性转化为代理排名的概率分布。通过约束教师网络与学生网络之间代理排序概率分布的一致性，模型可获得更有效的监督信号引导。最终，我们将最终模型命名为RankMatch。

本研究的主要贡献可归纳如下：
(1)我们深入剖析了对比学习方法在像素级一致性正则化改进中存在的瓶颈问题，并创新性地提出像素间关联分析视角，从而构建出更安全有效的监督信号，这与语义分割的本质特征完美契合。
(2)我们构建了一个连贯的RankMatch网络，通过创建代表性代理来模拟超越常规像素间一致性的跨像素关联，并通过建模代理间关系来实现等级感知的关联一致性，从而充分释放代理的潜力。
(3)我们在三个具有挑战性的基准测试（包括线粒体分割）上进行了大量实验，结果表明我们的RankMatch算法在性能上超越了当前最先进的半监督语义分割方法。特别是在低数据量的情况下，RankMatch能带来显著的性能提升。

2.相关工作

半监督学习
半监督学习[13,37,62]（SSL）是研究较为深入的领域，当前研究主要集中在两大方向：伪标注与一致性正则化。伪标注方法[1,5,22,59]通过使用最新优化模型生成的伪标签对未标注样本进行训练。而基于一致性正则化的方法[21,46,47,55]则利用平滑性假设[32]，促使模型在面对不同扰动下的同一样本时保持一致性。值得注意的是，近期的SSL方法[3,4,15,40,56]已展现出一致性正则化与伪标注的协同效应。典型代表是FixMatch[40]，该方法通过弱增强未标注图像生成伪标签，用于生成强增强版本的图像。这种简洁而强大的方法已在近期的SSL研究中得到广泛应用。

半监督语义分割
基于伪标注与一致性正则化技术的成熟结合，深度神经网络[30,35,41,42,45,51,53,54]和各类半监督语义分割（SSSS）算法[25,27,36,44,60,61]的突破性进展已催生诸多创新成果。其中，充分考虑语义分割任务特性的UniMatch[57]通过在FixMatch框架中引入数据增强技术，成功构建出简洁高效的SSSS基准模型。在此基础之上，受表征学习启发，多项研究[33,48,50,52]将对比学习引入SSSS领域，使其完美适配密集预测任务的特性。本文提出创新视角，通过分析像素间关联性，为构建更安全有效的监督信号，助力实现鲁棒的半监督语义分割。

3.方法论

本节首先将半监督语义分割问题作为预备工作进行建模，随后从相关性视角阐述了RankMatch的核心设计理念。随后，我们详细阐述了如何构建代理级相关性，以便在未标注数据中挖掘更可靠的信息。最后，我们设计了基于排名的相关一致性正则化方法，通过利用代理间的相互关系来生成更有效的监督信号。在算法1中，我们展示了RankMatch的伪算法，以便清晰地总结该方法。

3.1.准备工作

给定一个标注数据集${\mathcal D}^{l}=\{(x_{i}^{l},y_{i}^{l})\}_{i=1}^{N^{l}}$和一个未标注数据集$D^{u}=\{x_{i}^{u}\}_{i=1}^{N^u}$（其中$N^{u}\gg N^{l}$），半监督语义分割的目标是利用有限的标注数据和海量的未标注数据训练分割模型。如图2所示，经典的教师-学生框架包含教师网络fT和学生网络fS。

图2.RankMatch框架示意图。
> 学生网络的训练基于双重监督源：既包含标注数据的真实标签，也包含教师网络为未标注数据生成的伪标签。传统一致性正则化方法通常在像素层面施加约束，而我们的研究聚焦像素间的丰富关联性，转而在关联层面实施一致性约束。
> 此外，我们创新性地设计了基于排序感知的相关一致性机制，从而获得更有效的监督信号。

学生网络的训练由两方面监督信息引导：标注数据的真实标签和教师网络为未标注数据生成的伪标签。教师网络可以与学生网络完全相同，也可以是学生网络的指数移动平均（EMA）版本。具体来说，对于标注数据，监督损失函数${\mathcal L}_{sup}$可表示为： \[\mathcal{L}_{s u p}=\frac{1}{N^{l}}\sum_{i=1}^{N^{l}}\frac{1}{H W}\sum_{j=1}^{H W}\ell_{c e}\left(y_{i j}^{l},f_{S}(x_{i}^{l})_{j}\right),\] 其中H和W分别表示输入图像的高度和宽度，$\ell_{c e}$表示标准像素级交叉熵损失。对于未标注数据，教师网络以弱增强视图$aug(x_i^u)$作为输入，为学生网络生成伪标签${\hat{y}}_{i}^{u}$，具体计算方式如下： \[\hat{y}_{i j}^{u}=\left\{\begin{array}{l l}{\mathrm{arg\,max}\,f_{T}(a u g(x_{i}^{u}))_{j},}&{c_{i j}^{u}\gt \gamma}\\ {\mathrm{ignore\_index},}&{\mathrm{otherwise}}\end{array}\right.\] 其中$c_{i j}^{u}=\operatorname*{max}f_{T}(a u g(\alpha_{i}^{u}))_{j}$表示教师模型对第j个像素的预测置信度，$\gamma$为排除不可靠伪标签的置信度阈值。由此，我们可得到一致性正则化损失${\mathcal L}_{reg}$的表达式： \[{\mathcal{L}}_{r e g}={\frac{1}{N^{u}}}\sum_{i=1}^{N^{u}}{\frac{1}{H W}}\sum_{j=1}^{H W}\ell_{c e}\left(\hat{y}_{i j}^{u},f_{S}(x u g(x_{i}^{u}))_{j}\right),\] 其中Aug（·）表示强增强。通过引入一致性正则化，模型能够从无标签数据中获取可靠信息。常用教师-学生方案的总体损失函数为$\mathcal{L}=\mathcal{L}_{s u p}+\mathcal{L}_{r e g}$。
需要指出的是，上述一致性正则化仍停留在分类任务的思维定式，仅在像素层面进行操作。我们认为图像本身必然存在显著的像素间相关性，这些相关性应当纳入一致性正则化的考量范围。接下来，我们将详细阐述像素间相关性的建模过程。

3.2.代理级相关性

为了从未标注数据中挖掘更可靠的信息，我们自然而然地想到：可以在相关性层面施加一致性正则化，这比像素层面的处理要丰富得多。但直接要求教师模型和学生模型之间的所有像素相关性（即自相关矩阵）保持一致并不理想。自相关矩阵中的大量噪声会干扰模型优化过程，导致结果不尽如人意。
为更精准地模拟像素间关联以实现一致性正则化，我们通过将每个像素与一组代表性的参考点（即代理）进行比对，构建代理级别的相关性。直观来说，这些代理应当能有效响应原始像素中各类语义线索，这些线索包含丰富多样的语义对比描述。为此，我们设计了一种正交选择策略，用于从图像中挑选最具代表性的代理。具体而言，我们通过分割模型的特征提取器，从未标注图像$x^u$中提取出特征图$F~\in~\mathbb{R}^{C\times h\times w}$。随后，我们从F中逐步构建一个由N个代理（$ {A}={ {f}{i}^{a}}{i=1}^{N}{CN} $）组成的集合，确保新代理与已选代理最大程度正交（即余弦相似度最小），初始时随机选取一个像素特征，其中N表示代理数量。这种贪婪策略具有动态特性，它通过分析当前图像的特征来选择代理，从而尽可能保留原始像素中的关键信息。<br/>&emsp;&emsp;通过这种方式，我们可以得到代理层面的相关系数$c^{1N}$（为方便起见省略下标$i,j$），即给定像素特征f时的像素代理层面相关系数为：$$c=s o f t m a x(f A^{\mathsf{T}}),$$ 其中T表示矩阵转置运算。我们可直接采用KL散度作为一致性正则化项，将教师网络的代理级相关系数$c^w$与学生网络的$c^s$进行关联： \[\mathcal{L}_{c o r r}=\frac{1}{N^{u}}\sum_{i=1}^{N^{u}}\frac{1}{H W}\sum_{j=1}^{H W}\ell_{k l}\left(c_{i j}^{w},c_{i j}^{s}\right).\] 然而，这种简单的约束条件会将每个代理视为独立个体，从而限制了模型的进一步优化。接下来，我们将引入基于排名的相关一致性正则化方法，以建模代理之间的特定关系。

3.3.基于排名感知相关一致性

为有效利用代理间的协作关系生成更优质的监管信号，我们精心设计了基于排名的一致性正则化机制。核心理念在于将代理排序视为随机事件，而非确定性排列。也就是说，所有可能的排列组合都以一定概率存在，而不仅仅是从大到小的排列。给定c时，排列$\pi\in{\mathcal{P}}(|{\mathcal{P}}|)=N!)$的概率可推导为： \[P(\pi|c)=\prod_{n=1}^{N}{\frac{c_{\pi(n)}}{\sum_{n^{\prime}=n}^{N}c_{\pi(n^{\prime})}}},\] 其中$\pi(n)$表示该排列的第n个代理索引。例如，假设我们有三个代理：a、b和c。这三个代理的一个排列是$\pi=(a，b，c)$。根据代理层面的相关性c，我们可以推导出排列$\pi$的概率： \[P(\pi|c)={\frac{c(a)}{c(a)+c(b)+c(c)}}\cdot{\frac{c(b)}{c(b)+c(c)}}\cdot{\frac{c(c)}{c(c)}}.\] 从这个角度看，排序排列反映了代理之间的关系。通过计算所有$|{\mathcal{P}}|$种排列的概率，我们将代理层面的相关性c转换为代理排序概率分布$P({\mathcal{P}}|_{C})\in\mathbb{R}^{1\times|{\mathcal{P}}|}$，该分布成功建模了代理间的关联关系。实际上，若要计算所有N个代理的完整排列，其计算开销将难以承受。为提升计算效率，我们专注于每个像素的前四名代理的排列组合。根据观察发现，在所有代理层面的相关性分析中，前四名代理几乎占据了全部权重。因此，可通过以下方式获得基于排名的相关一致性正则化： \[{\mathcal{L}}_{r a n k}={\frac{1}{N^{u}}}\sum_{i=1}^{N^{u}}{\frac{1}{H W}}\sum_{j=1}^{H W}\ell_{k l}\left(P(\mathcal{P}|c_{i j}^{w}),P(\mathcal{P}|c_{i j}^{s})\right).\] 最终，我们RankMatch的整体损失函数可表示为： \[\mathcal{L}=\mathcal{L}_{s u p}+\mathcal{L}_{r e g}+\lambda\mathcal{L}_{r a n k},\] 其中λ为权衡系数。

4.实验

4.1.实验设置

数据集：
(1)pascal VOC 2012[11]是一个以物体为中心的语义分割数据集，包含前景中的20个物体类别和一个背景类别，其中训练集包含1,464张精细标注图像，验证集包含1,449张精细标注图像。许多研究[9,19]通过在原始训练集（即经典数据集）中添加SBD[16]中的9,118张粗略标注图像，构建了blender训练集。
(2)Cityscapes[10]是一个城市场景理解数据集，包含2,975张训练图像和500张验证图像。该数据集的初始30个语义类别在语义分割任务中被重新映射为19个类别。

实施细节：
为确保公平性，我们采用在ImageNet[20]上预训练的ResNet-50/101[17]作为主干网络，并使用DeepLabv3+[7]作为解码器。Pascal数据集的图像裁剪尺寸设为513×513，Cityscapes数据集则为801×801。训练过程中采用随机梯度下降（SGD）优化器，Pascal数据集初始学习率为0.001，Cityscapes数据集为0.005。整个训练周期均采用多项式衰减学习率策略。增强策略中，强增强Aug（·）包含随机颜色抖动、灰度转换和高斯模糊，弱增强aug（·）则包含随机裁剪、尺寸调整和水平翻转。用于构建相关一致性特征的提取来自ASPP模块[6]的输出，通道数为256。所有实验均设置代理数量N=128和权衡权重λ=0.1。模型在Pascal数据集上训练80个周期，在Cityscapes数据集上训练240个周期，批量大小为8，使用8块8×3090显卡（每块显存24G）。

4.2.与最新方法的比较（sota）

在参数效率方面，我们采用广受欢迎的一致性正则化框架UniMatch[57]作为基准模型，即教师网络与学生网络完全相同。我们在Pascal（经典版和Blender）及Cityscapes数据集上，分别使用ResNet-50和ResNet-101骨干网络，通过多种划分协议对方法进行评估，并与当前最先进方法[23-25,33,36,40,44,48-50,52,58,60,61]展开全面对比。所有数据集上不同骨干网络在各类划分协议下始终保持的优异表现，充分证明了我们提出的RankMatch方法的有效性。

在PASCAL数据集上的结果：
表1和表2展示了我们的方法与SOTA方法在pascal的经典集和blender集上的对比。与仅监督学习（Sup.-only）模型相比，我们的方法性能显著提升，这表明我们的方法有效利用了未标注数据中的信息。此外，与基准方法UniMatch相比，我们的方法始终展现出显著的性能提升。具体而言，在经典数据集上使用ResNet-50和ResNet-101骨干网络时，我们的方法在1/16（92）分区下的准确率分别达到71.6%和75.5%，较基准方法分别提升了4.2%和2.0%。这些结果充分证明，RankMatch在极度稀缺的标注数据环境下仍具备强大的信息挖掘能力。

。。。

5.结论

本文提出一种创新视角，通过分析像素间关联性来构建更安全有效的监督信号。为此，我们开发了相干RankMatch网络，该网络不仅构建代表代理模型以超越常规像素级一致性，还通过建模代理间关系实现等级感知的关联一致性，从而充分释放代理潜力。在具有挑战性的基准测试中，大量实验结果验证了该方法的有效性。

6.代码结构

6.1.排名感知的概率计算的代码

可以观察到，这样的计算方式可以捕获顺序概率，上面是具体的流程，下面则展示了在[0,0,0]位置前两个排列最后rank得分的计算过程。

基于此，我们可以认为每一种代理可以视为每一种语义对象，类似于草地、天空、人等等对象，每个位置的最高的四种代理可以视为该像素点最有可能的四种对象，然后其排序概率，则说明每个代理在此像素点上的相对概率，这种设计保留了每种概率之间的相对关系。然后使用KL散度损失来纠正教师模型和学生模型的差距。

6.2.RankMatch的相关疑问和回答

Q1: RankMatch 损失是如何计算的？

A: RankMatch 通过四个步骤计算损失：

从特征图中提取64个正交参考点
2. 计算每个像素与参考点的匹配概率（softmax 归一化）
3. 将匹配概率转换为24种排名概率分布（4! = 24）
4. 使用 KL 散度损失比较学生网络和教师网络的排名概率分布

Q2: p2r_w_rank 的数值代表什么？

A: p2r_w_rank 的每个值代表在特定位置上，所有24种排名顺序的概率分布。例如 [0.6962, 0.0063, 0.2931, ...] 表示： - 排列 [0,1,2,3] 概率 69.62%（道路中心 > 道路边缘 > 路边树木 > 人行道） - 排列 [0,1,3,2] 概率 0.63%（道路中心 > 道路边缘 > 人行道 > 路边树木） - 排列 [0,2,1,3] 概率 29.31%（道路中心 > 路边树木 > 道路边缘 > 人行道）

Q3: 为什么 RankMatch 不只保留最好的排列，而要计算所有排列的概率？

A: 只保留最好的排列会丢失关键语义信息： - 语义合理的排列（如 [0,1,3,2]）应给低损失 - 语义错误的排列（如 [1,0,2,3]）应给高损失
仅用最好的排列无法区分这两种情况，而计算所有排列的概率分布能精确捕捉语义关系。

Q4: 为什么 RankMatch 没有计算参考点之间的余弦距离？

A: 因为参考点是正交提取的（通过 PCA/SVD），它们在特征空间中天然正交，参考点间的余弦距离恒为0。计算这个距离是冗余且无意义的，RankMatch 的核心是像素-参考点匹配，不需要参考点间关系。

Q5: 为什么使用 KL 散度损失？

A: KL 散度是专门为概率分布比较设计的损失函数： - RankMatch 的输出是概率分布（24种排名的概率） - MSE 等其他损失只能看到单个点的匹配，无法区分语义浮动 - KL 散度能精确区分"小语义浮动"（如 [0,1,3,2]）和"大语义错误"（如 [1,0,2,3]）