总结对比学习在语义分割任务上的最新sota

一、语义分割对比的数据集和评价标准

1.数据集

五个公共数据集进行实验：Cityscapes、ADE20K、PASCAL-C 、COCO-Stuff 和CamVid 数据集。

2.评价指标

使用类并联合（mIoU）的平均值作为评价度量。
一个实例级的交叉过联合度量（iIoU），其定义如下： \[\mathrm{i}\mathrm{Io}\mathrm{U}=\frac{\mathrm{i}\mathrm{TP}}{\mathrm{(iTP+FP+iFN)}}\] 其中，iTP、FP、iFN分别表示真阳性、假阳性和假阴性像素的数量。请注意，iTP和iFN是根据每个类的平均实例大小与相应的地面真实实例大小的比值，用加权像素贡献来计算的。

特征级分析，我们采用以下三个指标：
类内对齐评估类内特征紧密聚集，
类间一致性(U)评估多远的质来自不同类的特征分离嵌入空间
类间社区均匀性（Ul）测量l的分离，这表明如何清楚l最近的质心之间的决策边界的区别

二、sota方法的对比

1.Contextrast

Contextrast:Contextual Contrastive Learning for Semantic Segmentation(CVPR2024)

其提出了上下文对比学习，即是使用InfoNCE对比学习在多个尺度上让同一实例对齐；
提出了边界感知负值采样，即首先得到每个类的二进制误差映射\(\mathbf{B^n_i}\)（错误预测的像素为1），然后计算在每个像素点和边缘像素点最近的距离，作为每个像素点的类向距离映射\({\mathbf D_{i}^{n}}\)，最后，在\({\bf B}_{i}^{n}\)中值为1的区域中，我们选择对应于\({\bf D}_{i}^{n}\)中最小距离较低的前百分之K的嵌入向量作为损失函数中第n个代表锚点的负样本。

2.PRCL

PRCL:Probabilistic Representation Contrastive Learning for Semi-Supervised Semantic Segmentation(IJCV 2024)

基于像素级对比学习的半监督语义分割任务的gt中，难免出现噪声，这会影响到无监督的训练部分，为解决这一问题，提出了一种基于概率表示对比学习（PRCL）框架的鲁棒性增强方案，显著提升了无监督训练的稳健性。通过多元高斯分布将像素级表征建模为概率表示（PR），并动态调节模糊表征的贡献度，有效规避了对比学习中引导信息失准的风险。

由于伪标签的不准确性和类内方差导致表征差异，这种做法容易引发相邻迭代中的原型偏移现象。我们认为原型一致性对于建立表征聚合的稳定方向至关重要。负样本表征来自当前小批量数据，而小批量数据规模有限，导致负样本表征的分布呈现碎片化特征。为突破这些局限，我们从全局视角重新构思像素级对比学习方法，基于概率化表征构建全局分布原型。

面对半监督的语义分割任务，存在Nl对有着像素级标签的标注数据集Dl和Nu张未标注图像的未标注数据集，基础分割模型包含编码器f（·）和分割头g（·），我们采用教师-学生框架，并将像素级对比学习融入框架设计。

带标签图像（黑色箭头）和未标注图像（黑色虚线箭头），Ls通过标准交叉熵（CE）损失函数ce构建，Lu通过加权CE损失构建

在传统对比学习中，表征之间的相似性通常通过l2距离或余弦相似度进行衡量，但这种方法无法量化两个分布之间的相似性。为解决这一问题，我们采用互似度评分（Mutual likelihood Score，简称MLS）作为衡量两个分布zi和zj之间相似性的指标，具体计算公式如下： \[\begin{aligned}M L S(z_{i},z_{j})&=\log(p(z_{i}=z_{j}))\\&=-\,\frac{1}{2}\sum_{l=1}^{D}\left(\frac{(\mu_{i}^{(l)}-\mu_{j}^{(l)})^{2}}{\sigma_{i}^{2(l)}+\sigma_{j}^{2(l)}}+\log(\sigma_{i}^{2(I)}+\sigma_{j}^{2(I)})\right)-\frac{D}{2}l o g2\pi,\end{aligned}\] 为解决原型漂移问题，提出了一种从全局视角跨迭代序列化聚合表征的有效策略。具体而言，我们将当前迭代中计算出的原型定义为局部原型，并将其扩展为全局分布原型（GDP）。给定Zl(t)则表示第t次迭代中相同类别表示的集合，即\({\mathcal{Z}}_{g}(t)=\mathcal{Z}_{l}(0)\cup\mathcal{Z}_{l}(1)\dots\cup\mathcal{Z}_{l}(t)\)。

具体来说，GDP可按如下方式更新： \[\begin{aligned}&\rho_{g}(t)\sim{\mathcal N}({\hat{\mu}}_{g}(t),{\hat{\sigma}}_{g}^{2}(t){\cal I}),\\&\frac{1}{\hat{\sigma}_{g}^{2}(t)}=\frac{1}{\hat{\sigma}_{g}^{2}(t-1)}+\frac{1}{\hat{\sigma}_{l}^{2}(t)},\\&\hat{\mu}_{g}(t)=\hat{\sigma}_{g}^{2}(t)\biggl(\frac{\hat{\mu}_{g}(t-1)}{\hat{\sigma}_{g}^{2}(t-1)}+\frac{\hat{\mu}_{l}(t)}{\hat{\sigma}_{l}^{2}(t)}\biggr).\end{aligned}\] 也就是说，最新迭代轮次计算的分布不会因为当前的原型偏移，出现较大变化。

为解决负样本分布零散的问题，提出了一种高效策略来替代传统的记忆库方法，该策略巧妙利用了GDP的分布特性。具体而言，我们通过改进的参数重配置技术(Kingmaand & Welling 2013)，从对应类别c的GDP \(\rho_{(c)g}(t)\sim\mathcal{N}(\tilde{\mu}_{(c)g}(t),\,\hat{\sigma}_{(c)g}^{2}(t)I)\)中生成虚拟负样本（VN）： \[{Z_{c}^{V N}=\hat{\mu}_{(c)g}(t)+\beta\epsilon^{\top}I\hat{\sigma}_{(c)g}^{2}(t),}\]