CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation With Transformers(TruFor使用了这个方法)

image-20240516170446816

1、原任务是分割任务,论文提出了一种将RGB图与其他图特征充分融合的方法RGB-X,可以从RGB图与X图提取特征。

2、RGB-X主要由两个部分组成:CM-FRM、FFM。

CM-FRM用于提取图片特征,其可以纠正关于另一个特性的一个特性,反之亦然,将属于同一层次的特征融合成一个单一的特征图。

FFM参考自注意力机制,设计了一种将特征融合的方法最后通过融合特征,完成分割任务。

TruFor使用了cmx来提取融合特征

image-20240516170520387
image-20240516170527564
image-20240516170535748

两阶段的特征融合模块(FFM)来增强信息的交互和组合。

在信息交换阶段(阶段1),两个分支仍然保持不变,并设计了一种交叉注意机制,在两个分支之间进行全局信息交换。

在融合阶段(阶段2),通过混合嵌入通道将连接的特征转换为原始大小。