“Where Does the Devil Lie?”: Multimodal Multitask Collaborative Revision Network for Trusted Road Segmentation

摘要

​  道路分割是导航系统的重要组成部分。尽管近年来道路分割技术有所进步,但失败分割的情况仍然不可避免。对于安全至关重要的任务,如导航,了解道路分割何时何地失败至关重要。本文中,我们提出了一种新的可信道路分割架构,即多模态多任务协作修订网络(M2CRN),以提高道路分割的可信度。我们的方法结合了两种策略来预测和纠正分割错误。首先,设计了一个联合学习框架,在生成道路分割结果的同时估计失败分割掩码。其次,道路分割分支配备了不确定性感知修订模块(UARM),用于消除道路分割中的错误。此外,我们通过一种创新设计——自适应软错误抑制(ASES)——抑制道路分割分支中错误区域的响应。为了验证我们的方法,我们在三个基准道路分割数据集上进行了大量实验。结果表明,实时推理速度达到33.3帧/秒,性能显著提升,再次证实了我们修订模型的可靠性。

1.引言

​  为确保在所有条件下实现一致的道路分割性能,必须通过收集所有可能场景来训练模型。遗憾的是,这些要求在现实道路场景中难以实现。另一种方法是通过不确定性估计来识别道路分割错误[15] [16],类似于检测分类错误的研究[17]。此外,还采用专门训练的模型来检测主模型的错误感知,例如内省感知或质量预测。然而,这些方法主要聚焦于图像分类任务。当应用于道路分割时,它们缺乏对上下文和语义结构的信息。
​  通过结合两种不同范式的优点,我们建立了一个可信的道路分割系统。具体来说,我们提出了一种新的多模态多任务协作修订网络(M2CRN),用于联合学习分割结果和分割误差,如图2所示。M2CRN是一个重复修订的框架,包含两个分支:一个道路分割分支,其中包含一个不确定性感知修订模块(UARM),该模块感知不确定性并通过其他模态修订道路分割错误;以及一个故障检测分支,学习一个误差掩码,即道路分割分支预测与其对应真实值之间的差异。这两个分支通过RGB编码器相互连接,实现同步训练。这种设计使得故障检测分支能够充分利用道路分割中潜在丰富的特征。此外,我们为M2CRN配备了一种创新设计,即自适应软错误抑制(ASES)。 ASES 是在推理阶段的一种后处理方法,它根据故障检测分支的预测结果,抑制道路分割分支中错误区域的响应。与直接抑制方法相比, ASES 的自适应软处理使模型对故障检测结果表现出更高的容忍度。为了验证我们的方法,我们在三个基准数据集上进行了大量实验: KITTI 、 GMRP 和R2D道路数据集。实验结果表明,M2CRN实现了显著的性能提升。
​  贡献总结如下所示:

  • 我们提出了一种多模型多任务协作修订网络(M2CRN),该网络能够同时生成道路分割结果并估计失败分割掩码,这是一个联合学习框架。几个关键设计(即不确定性感知修订模块、失败检测和自适应软错误抑制)显著促进了分割的协作修订,最终提高了道路分割输出的可信度。
  • 道路分割分支配备了不确定性感知修订模块(UARM),通过感知不同模态之间的不确定性来修订潜在的分割错误。
  • 我们还引入了一个失败检测分支,不仅用于判断道路分割结果中是否存在错误,还能定位错误的位置。在推理阶段,我们通过自适应软错误抑制(ASES)宽容地利用失败预测,而不是简单或粗暴的方法。

3.多模态多任务协同修订网络

​  所提出的多模态多任务协作修订网络(M2CRN)框架如图2所示。M2CRN采用了一种联合架构,将道路分割分支与其相应的故障检测分支集成在一起。M2CRN在道路分割数据集上进行端到端训练。简而言之,首先分别通过编码器提取RGB和深度图像的特征表示。随后,RGB特征通过道路分割和故障检测分支处理。特别是,道路分割分支配备了一个不确定性感知修订模块(UARM),该模块在深度特征的引导下获取修订特征。在推理后,采用自适应软错误抑制(ASES)技术,根据故障检测分支生成的故障掩码来修订道路分割结果。

image-20251123150431558

图2. 所提出的多模态多任务协同修订网络(M2CRN)的框架,包含两个分支。RGB特征fr和深度特征fd分别由不同的编码器提取。道路分割分支通过 UARM 进一步修订,故障检测分支生成分割失败掩码。在推理阶段,基于故障检测结果, ASES 自适应地修订道路分割结果的输出。详细结构将在第三节中阐述。

A.框架

​  M2CRN采用部分共享结构设计,使道路分割与故障检测的推理分支保持一定程度的独立性。该设计基于两个考量:首先,由于这两项任务目标不同,完全共享分支可能并不划算;其次,相对独立的配置能为两项任务提供最优设置,包括共享训练数据集。
​  更具体地说,给定一个RGB-深度对(R,D),我们首先使用ResNet-18 [40],这是一种低延迟编码器,来提取两种模态的特征图,记为fr ∈ Rh×w×c,fd ∈ Rh×w×c,其中h、w和c分别表示高度、宽度和通道数。解码器部分之后是三个上采样层,以降低网络复杂度。每一层直接将上采样特征与相应的跳跃连接特征相加。需要注意的是,在编码器的末端使用了无孔空间金字塔池化(ASPP)[42],以捕获多尺度上下文信息。第一层上采样层利用 ASPP 输出作为输入,并解码器输出两个特征图,记为Fr ∈ Rh×w×c,Fd ∈ Rh×w×c。对于道路分割分支,Fr和Fd被输入到 UARM 中,首先通过Softplus激活层激活,分别从RGB输出两对证据图{er 0,er 1},从深度输出{ed 0,ed 1}。之后,我们获得道路概率图P,具体细节将在第三节B部分详细说明。

​  对于故障检测分支,轻量级解码器输出来自RGB的特征图,记为Fr e ∈ Rh×w×c。故障检测分支的任务是直接估计道路分割分支的分割误差。因此,需要一个真实标签Y来表示该故障,以便训练故障检测分支。这里,真实标签Y的生成由误差标签生成器(ELG)完成。

B.不确定性感知修订模块

​  受证据网络[47]的启发,引入主观逻辑来建模狄利克雷分布,设计了一个不确定性感知修订模块(UARM)。如图3所示, UARM 通过最小化模态不确定性实现修订功能,其中不确定性越大表示错误概率越高。

image-20251201111526236

图3. 不确定性修订模块(UARM)的示意图。

​  具体来说,给定轻量解码器的输出,我们首先使用Softplus激活层作为强制所有特征非负性的手段,对于RGB模态记为{er 0,er 1},对于深度模态记为{ed 0,ed 1},狄利克雷强度Dr通过以下公式计算:

5.结论

​  在本文中,我们提出了一种全面的学习网络,称为多模态多任务协作修订网络(M2CRN),该网络利用双重信任机制来提高预测的准确性和可靠性。与先前的方法相比,M2CRN不仅受益于失败的修订,还向导航系统中的下游组件告知预期的道路分割可靠性。特别是,为了确定和修订当前道路分割的不确定性,我们设计了一个不确定性感知修订模块(UARM)。此外,为了进一步精确定位图像中道路分割错误的像素位置,我们提供了一个新的基于故障检测分支的联合学习框架。另外,我们引入了一种设计,即自适应软错误抑制(ASES),以采用错误掩码。为了评估所提出的M2CRN的有效性,我们在三个数据集上进行了广泛的实验。实验结果证明了M2CRN的优越性和可靠性。这项工作从两个方面丰富了道路分割研究:1)可信的道路分割机制,避免了因道路分割过度自信而给用户带来的极端风险;2)一个全面的多任务学习框架,通过使用故障检测来修订预测结果。
​  当前提出的M2CRN模型存在一个主要局限性——训练集不足。在故障检测分支中,我们采用错误标签生成器替代人工标注,但该方法仅生成单一错误模式,导致模型难以泛化到其他场景。对于分割分支,当用于校正学习的两种模态均失效时,模型可能面临崩溃风险。此外,模型固有的重复修订机制会导致识别结果过于保守(即预测出假阴性像素)。未来研究可重点探索多模态处理能力,当前领域适应技术已用于解决标注数据不足问题,将这些方法应用于分割优化将大有可为。另一个值得尝试的方向是采用图像序列作为输入训练M2CRN,通过构建故障高发区域的时间序列作为训练数据,还能预测下一时刻可能发生故障的位置。为了在开放世界中安全导航,我们的方法应扩展到复杂的非结构化道路场景,并将结果整合到运动规划模块中。