Segment all roads:Domain generalized freespace detection by robust surface normal information embedding and edge-aware learning
Segment all roads:Domain generalized freespace detection by robust surface normal information embedding and edge-aware learning
Guangli Liu a,c , Shishun Tian a,c , Muxin Liao a,c , Yuhang Zhang a,c , Wenbin Zou a,b,c,∗ , Xia Li a,
摘要
自由空间检测(FD),又称可驾驶区域检测,在自动驾驶中扮演着关键角色。然而,现有的基于监督学习的FD方法在测试分布外数据时表现不佳。领域泛化是解决这一问题的前瞻性方案,旨在提升对分布外数据(未见过的领域)的泛化能力。本文探索了一个新任务——领域泛化自由空间检测,并设计了一种新颖的方法,能够同时泛化到结构化的城市道路场景和非结构化的越野场景。首先,考虑到表面法线(SN)信息在不同领域的鲁棒性,我们提出了一种鲁棒的信息嵌入模块,将SN信息嵌入RGB特征中。接着,引入了一个跨尺度特征鲁棒性增强模块,用于聚合不同尺度的RGB-SN特征以获得更具领域不变性的特征。此外,还设计了一种 RGBSN 边缘感知学习策略以进一步提升泛化能力。大量实验表明,与现有方法相比,所提出的方法取得了更优的性能。
1.引言
关于自由空间的四个重要观察可以总结如下。首先,正如[23]中指出的,自由空间总是平坦的,这表明语义与几何(例如表面法线)之间的相关性是领域不变的。其次,如图2所示,受过度曝光、阴影和水坑的影响,RGB图像的自由空间表面存在显著的外观差异。然而,表面法线(SN)特征相似,这反映了SN图携带了更稳健的信息。因此,对于
DGFD
来说,将稳健的SN信息嵌入RGB特征中非常重要。第三,如图1和图2所示,自由空间的边缘在不同领域中通常是直线或蜿蜒的,这表明边缘信息是自由空间的另一种泛化表示。最后,非结构化道路的边缘模糊且难以区分,导致边缘分割效果极差。
基于这些观察,我们设计了一种新的
DGFD
方法,通过将稳健的SN信息嵌入RGB特征中,聚合不同尺度的RGB-SN特征,并从较浅层的RGB-SN特征中学习边缘信息。具体来说,考虑到SN信息在不同领域的稳健性,我们首先提出了一种稳健信息嵌入(RIE)模块,该模块温和地将SN信息嵌入到RGB特征中。其次,引入了一个跨尺度特征稳健性增强(CFRE)模块,用于聚合不同尺度的RGB-SN特征,以获得更稳定的特征。最后,采用了一种RGB-SN边缘感知学习(EAL)策略,以进一步提高在不同领域的泛化能力。
我们的贡献总结如下:
- 据我们所知,我们是首个探索领域泛化自由空间检测任务的研究团队,并设计了一种新颖的 DGFD 方法,该方法能够推广到结构化的道路场景和非结构化的越野场景。
- SN信息更具领域不变性和鲁棒性。我们提出了一种RIE模块,将SN信息嵌入RGB特征中以获得鲁棒的RGB-SN特征,并设计了一个 CFRE 模块,用于跨不同尺度聚合RGB-SN特征,以提高RGB-SN特征的鲁棒性。
- 采用了一种RGB-SN边缘感知学习策略,进一步提升泛化能力。大量实验表明,我们的方法在 DGFD 任务上优于现有的 DGSS 和SSS方法。
3.方法
3.1.准备工作
由于我们的方法同时使用了风格幻觉模块(SHM,style hallucination
module)和SHADE [16]的风格一致性损失(SC,style
consistency)来生成各种图像风格并分别学习风格不变信息,我们首先简要回顾一下它们。
许多研究[62,63]简单地使用AdaIN将图像风格转换为任意源风格,同时保留内容,而忽略了源风格的频率和多样性。为了进一步增强风格多样性,SHADE提出了
SHM ,它联合使用了最远点采样(FPS)[67]和AdaIN。
图3. 所提域泛化自由空间检测方法概述
3.2.总览
如图3所示,所提出的 DGFD 框架包含四个相同的鲁棒信息嵌入(RIE)模块、一个跨尺度特征鲁棒性增强(CFRE)模块和一个RGB-SN边缘感知学习(EAL)策略。形式上 ,\(D_{S}=\left\{\left(x_{1}^{r g b},y_{1}^{s},x_{1}^{s n},y_{1}^{e}\right),...,\left(x_{n}^{r g b},y_{n}^{s},x_{n}^{s n},y_{n}^{e}\right)\right\}\) 被用作训练集,其中 \(x_{i}^{r g b}\)是RGB图像 ,\(y_{i}^{s}\)表示其像素级语义注释 ,\(x_{i}^{s n}\)代表相应的表面法线图, \(y_{i}^{e}\)是与语义注释对应的边缘标签。我们方法的整体损失可以定义为 : \[\mathcal{L}=\mathcal{L}_{C E}+\alpha\mathcal{L}_{S C}+\beta\mathcal{L}_{E S},\] 其中\(\mathcal{L}_{C E}\) 、\(\mathcal{L}_{S C}\)和\(\mathcal{L}_{E S}\)分别表示交叉熵损失、风格一致性损失和边缘分割损失。 𝛼 和 𝛽 是权重系数。
3.3. 鲁棒的信息嵌入模块
与RGB图像相比,SN图包含更多领域不变且稳健的信息,但缺乏一些必要的语义特征。因此,对于
DGFD
来说,将SN信息嵌入到RGB特征中以获得稳健的RGB-SN特征非常重要。受注意力机制的启发,该机制能够充分突出重要特征[68-70],我们提出了一种稳健信息嵌入(RIE)模块,该模块利用空间和通道注意力机制,将SN信息微妙地嵌入到RGB特征中。
RIE模块的详细结构如图3所示。在每个特征提取阶段,RGB特征
\(F_{i}^{r g b}\)和SN特征\(F_{i}^{s n}\)作为RIE模块的输入。
3.4. 跨尺度特征鲁棒性增强模块
众所周知,浅层特征可能包含更详细的信息,而深层特征则包含抽象的上下文线索[71,72]。为了同时保留浅层和深层的详细与抽象信息,进一步增强RGB-SN特征的鲁棒性,设计了一个跨尺度特征鲁棒性增强(CFRE)模块,通过空间和通道注意力机制相互作用邻近尺度的特征。
图4. 跨尺度特征鲁棒性增强模块示意图
图4展示了 CFRE 模块的示意图,其中RGB-SN特征 𝐹2 、 𝐹3 和 𝐹4 来自不同尺度,作为输入。为了清晰地展示交互聚合的过程,我们以中间特征 𝐹3 和浅层特征 𝐹2 的操作为例。 𝐹3 和 𝐹4 的融合操作是相同的。
3.5. 边缘感知学习策略
学习边缘信息对领域泛化自由空间检测具有促进作用。一方面,作为自由空间的另一种领域不变表示,边缘信息能够提升泛化性能;另一方面,边缘信息可用于优化边缘分割结果,尤其在非结构化越野场景中效果显著。为此,我们采用RGB-SN边缘感知学习(EAL)策略,进一步提升多领域自由空间检测性能。虽然浅层特征蕴含丰富的细节信息有助于边缘分割,但同时也携带大量噪声[73]。因此,我们利用第一、第二层的RGB-SN特征生成边缘特征,再将其输入边缘分割解码器。具体结构如图3所示。
5.结论
在本文中,我们探索了从合成城市场景到结构化道路场景和非结构化越野场景的域泛化自由空间检测(DGFD)。据我们所知,我们是首个探索 DGFD 任务的研究者。尽管不同域的RGB图像中自由空间表面存在显著差异,但表面法线(SN)信息相似,这反映了SN信息的鲁棒性。自由空间的边缘不仅提供了通常在不同域中呈直线或蜿蜒的域不变信息,还能用于优化边缘分割的结果。基于此,我们提出了一种新的 DGFD 方法。具体来说,我们首先提出一个鲁棒的信息嵌入模块,将SN信息友好地嵌入到RGB特征中,以生成稳定的RGB-SN特征。其次,引入了一个跨尺度特征鲁棒性增强模块,聚合不同尺度的RGB-SN特征,以获得更域不变且鲁棒的特征。最后,我们采用了一种RGB-SN边缘感知学习策略,进一步提高不同域中自由空间检测的性能。与现有的 DGSS 和SSS方法相比,我们的方法在 DGFD 任务中表现优异,在结构化道路场景和非结构化越野场景中均表现出色。然而,从 𝑆𝑆𝐹 到非结构化越野数据集的泛化能力相对较差。未来,我们计划进一步探索RGB图像与超新星(SN)图像之间的关系,以获取更多领域不变且稳健的信息。此外,我们将进一步将该方法推广至更多真实世界数据集。