DVLO

​  DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment

Local Fuser Module

​  受Context Clusters[38]的启发,它提出了一种通用的基于聚类的视觉主干将图像视为一组点,我们对其进行了扩展,并提出了一种新的基于聚类的特征融合模块(Local Fuser),没有任何CNN或transformer。该模块可以局部合并图像中更细粒度的二维纹理和每个聚类内的点的几何特征,如图3所示。

image-20250224215352161

​  我们的基于聚类的方法也保持了高效率,其中总推理时间仅是基于注意力的方法的一半,如表7所示。

image-20250224215442877

从图像到伪点

​  给定图像特征\(F_{I}\ \in\ \mathbb{R}^{H_{I}\times W_{I}\times C}\),我们首先将它们重塑为伪点\(F_{p p}~\in~\mathbb{R}^{M\times C}\)的集合,其中\(M\,=\,H_{I}\,\times\,W_{I}\)是伪点的个数。在这种情况下,图像具有与LiDAR点相同的数据结构,这有利于局部像素到点对点的对应关系的建立和进一步的基于聚类的特征聚合。

伪点聚类

​  我们首先将激光雷达点投影到图像平面上,得到它们在图像坐标系中相应的二维坐标x‘和y’作为聚类中心。中心特征\(F_{c}\in\mathbb{R}^{N\times C}\)是通过基于x‘,y’的FI上的双线性插值计算出来的。然后,根据中心特征Fc和伪点特征Fpp之间的成对余弦相似性,将所有伪点划分为多个簇。在这里,我们将每个伪点分配到最相似的中心,从而得到N个簇。为了提高效率,遵循SwinTransformer[37],我们在计算相似度时使用区域划分。

本地特性聚合

​  在[38]之后,我们根据与集群中心的相似性,动态地聚合同一集群内的所有伪点特征。给定在第i个簇中心周围包含k个伪点的簇,其局部融合特征\(F_{L}^{i}\in\mathbb{R}^{1\times C}\)的计算方法为: \[F_{L}^{i}=\frac{1}{X}\left(F_{c}^{i}+\sum_{j=1}^{k}s i g m o i d\left(\alpha s_{i j}+\beta\right)\cdot F_{p p}^{j}\right),\]

\[X=1+\sum_{j=1}^{k}s i g m o i d\left(\alpha s_{i j}+\beta\right),\]

​  其中\(F_{p p}^{j}\)是第j个伪点的特征。\(s_{i j}\)是第j个伪点与第i个簇中心之间的相似性得分。α和β是可学习的标量来缩放和移动相似度。sigmoid(·)是一个sigmoid函数,用来重新缩放相似性到(0,1)。X是标准化因子。由于我们将激光雷达点投影到图像平面上作为簇中心,以及每个中心的聚合特征,局部融合特征\(F_{L}\,\in\,\mathbb{R}^{N\times C}\)与原始激光雷达点具有相同的维数。因此,我们也可以将局部融合特征FL作为HP×WP×C大小的伪图像,作为全局Fuser模块的输入。