一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）

laoxiang21 · 发表于 3-12-2023 08:04:45

1 简介

多模态传感器融合意味着信息互补、稳定和安全，长期以来都是自动驾驶感知的重要一环。然而信息利用的不充分、原始数据的噪声及各个传感器间的错位（如时间戳不同步），这些因素都导致融合性能一直受限。本文全面调研了现有多模态自动驾驶感知算法，传感器包括LiDAR和相机，聚焦于目标检测和语义分割，分析超过50篇文献。同传统融合算法分类方法不同，本文从融合阶段的不同将该领域分类两大类、四小类。此外，本文分析了当前领域存在的问题，对未来的研究方向提供参考。

2 为什么需要多模态？

这是因为单模态的感知算法存在固有的缺陷。举个例子，一般激光雷达的架设位置是高于相机的，在复杂的现实驾驶场景中，物体在前视摄像头中可能被遮挡，此时利用激光雷达就有可能捕获缺失的目标。但是由于机械结构的限制，LiDAR在不同的距离有不同的分辨率，而且容易受到极端恶劣天气的影响，如暴雨等。虽然两种传感器单独使用都可以做的很出色，但从未来的角度出发，LiDAR和相机的信息互补将会使得自动驾驶在感知层面上更安全。
近期，自动驾驶多模态感知算法获得了长足的进步，从跨模态的特征表示、更可靠的模态传感器，到更复杂、更稳定的多模态融合算法和技术。然而，只有少数的综述[15, 81]聚焦于多模态融合的方法论本身，并且大多数文献都遵循传统分类规则，即分为前融合、深度（特征）融合和后融合三大类，重点关注算法中特征融合的阶段，无论是数据级、特征级还是提议级。这种分类规则存在两个问题：首先，没有明确定义每个级别的特征表示；其次，它从对称的角度处理激光雷达和相机这两个分支，进而模糊了LiDAR分支中提级级特征融合和相机分支中数据级特征融合的情况。总结来说，传统分类法虽然直观，但已经不适用于现阶段多模态融合算法的发展，一定程度上阻碍了研究人员从系统的角度进行研究和分析。

3 任务和公开比赛

常见的感知任务包括目标检测、语义分割、深度补全和预测等。本文重点关注检测和分割，如障碍物、交通信号灯、交通标志的检测和车道线、freespace的分割等。自动驾驶感知任务如下图所示：

一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w2.jpg

常用的公开数据集主要包含KITTI、Waymo和nuScenes，下图汇总了自动驾驶感知相关的数据集及其特点。
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w3.jpg

4 融合方法

多模态融合离不开数据表达形式，图像分支的数据表示较简单，一般均指RGB格式或灰度图，但激光雷达分支对数据格式的依赖度较高，不同的数据格式衍生出完全不同的下游模型设计，总结来说包含三个大方向：基于点、基于体素和基于二维映射的点云表示。
传统分类方法将多模态融合分为以下三种：

本文则采用下图的分类方式，整体分为强融合和若融合，强融合进一步细分为：前融合、深度融合、不对称融合和后融合。
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w4.jpg

本文使用KITTI的3D检测任务和BEV检测任务横向对比各个多模态融合算法的性能，下图是BEV检测测试集的结果：
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w5.jpg

下图是3D检测测试集的结果：
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w6.jpg

5 强融合

根据激光雷达和相机数据表示的不同组合阶段，本文将强融合细分为：前融合、深度融合、不对称融合和后融合。如上图所示可以看出，强融合的每个子模块都高度依赖于激光雷达点云，而不是相机数据。

前融合

与传统的数据级融合定义不同，后者是一种在原始数据级别通过空间对齐和投影直接融合每种模态数据的方法，早期融合在数据级别融合LiDAR 数据和数据级别的相机数据或特征级。早期融合的一个例子可以是图4中的模型。
与传统分类方法定义的前融合不同，本文定义的前融合是指在原始数据级别通过空间对齐和投影直接融合各个模态数据的方法，前融合在数据级指的是融合激光雷达数据，在数据级或特征级融合图像数据，示意图如下：
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w8.jpg

在LiDAR分支，点云具有多种表达形式，如反射图、体素化张量、前视图/距离视图/BEV视图以及伪点云等等。虽然这些数据结合不同主干网络都有不同的内在特征，但是除了伪点云之外[79]，大多数数据都是通过一定的规则处理生成。此外，相比于特征空间嵌入，LiDAR的这些数据都有很强的可解释性，均可以直接可视化。
在图像分支，严格意义上的数据级定义应该是RGB或灰度图，但是这种定义缺乏通用性和合理性。因此本文扩展了前融合阶段的图像数据的数据级定义，包含数据级和特征级数据。值得一提的是，本文将语义分割预测结果也作为前融合的一种（图像特征级），一是因为有利于3D目标检测，二是因为语义分割的“目标级”特征与整个任务的最终目标级提议不同。

深度融合

深度融合，也称特征级融合，是指在激光雷达分支的特征级融合多模态数据，但在图像分支的数据集和特征级进行融合。例如一些方法使用特征提举起分别获取LiDAR点云和图像的嵌入表示，并通过一系列下游模块融合两种模态的特征。然而，与其他强融合不同的是，深度融合有时会以级联方式融合特征，这两者都利用了原始和高级语义信息。示意图如下：
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w9.jpg

后融合

后融合，也可叫作目标级融合，指的是对多个模态的预测结果（或proposal）进行融合。例如，一些后融合方法利用LiDAR点云和图像的输出进行融合[55]。两个分支的proposal的数据格式应与最终结果一致，但是质量、数量和精度存在一定差异。后融合可以看作是一种多模态信息优化最终proposal的集成方法，示意图如下所示：
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w10.jpg

不对称融合

强融合的最后一种是不对称融合，指的是融合一个分支的目标级信息和其他分支的数据级或特征级信息。上述三种融合方法将多模态的各个分支平等对待，不对称融合则强调至少有一个分支占据主导地位，其他分支则提供辅助信息预测最终结果。下图是不对称融合的示意图，在proposal阶段，不对称融合只有一个分支的proposal，而后融合则是所有分支的proposal。
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w11.jpg

6 弱融合

与强融合的区别在于，弱融合方法不直接从多模态分支中融合数据、特征或者目标，而是以其他形式处理数据。下图展示了弱融合算法的基本框架。基于弱融合的方法通常使用基于一定规则的方法来利用一种模态的数据作为监督信号，以指导另一种模态的交互。例如，图像分支中来自CNN的2D proposal可能会导致原始LiDAR点云中出现截断，弱融合直接将原始LiDAR 点云输入到 LiDAR 主干中以输出最终的proposal。
一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）w12.jpg

7 其他方式融合

还有一些工作不属于上述任何一种范式，因为它们在模型设计的框架中使用了多种融合方式，例如[39]结合了深度融合和后融合，[77]则结合了前融合。这些方法不是融合算法设计的主流方式，本文统一归为其他融合方式。

8 多模态融合的机遇

近年来，用于自动驾驶感知任务的多模态融合方法取得了快速进展，从更高级的特征表示到更复杂的深度学习模型。然而，还有一些悬而未决的问题有待解决，本文总结了如下几个未来可能的改进方向。更先进的融合方法

当前的融合模型存在错位和信息丢失的问题[13,67,98]。此外，平融合（flat fusion）操作也阻碍了感知任务性能的进一步提高。总结如下：

多源信息利用

前视单帧图像是自动驾驶感知任务的典型场景。然而，大多数框架只能利用有限的信息，并未详细设计辅助任务来促进驾驶场景的理解。总结如下：

传感器固有问题

域偏差和分辨率与现实世界的【昂痛?衅鞲叨认喙亍Ｕ庑┤毕葑璋?俗远?菔簧疃妊?澳Ｐ偷拇蠊婺Ｑ盗泛褪凳薄�

[综合] 一文详解自动驾驶中的多模态融合感知算法（数据级/特征级/目标级）

快速发帖