2.1.3 传感器深度融合关键技术难点
随着越来越多自动驾驶汽车难题的出现,挑战难度越来越大。汽车工业正在将传感器融合作为应对日益增加的自动驾驶汽车所需的复杂性和可靠性的最佳选择,为汽车内部如何管理和利用来自多个设备的数据奠定了基础。要求自动驾驶汽车在长寿命内具有零磁场故障的高可靠性,同时这些车辆还必须在所有天气和驾驶条件下都安全,车辆需要以可承受的成本进行此操作。因此,传感器融合已成为人们关注的焦点。
雷达用于在相当远的距离上检测、定位和跟踪物体。激光雷达使用光来测量范围(可变距离),以生成其周围区域的3D图像,视觉传感器捕获穿过镜头的光子以生成“图像”,该图像不仅可以帮助监测,而且可以识别物体、交通标志和行人。实时操作对于AV/ADAS系统至关重要,主要挑战之一是每个传感器捕获的数据“同步”以提取准确和相关的信息。每个传感器用来捕获信息的技术是不同的,必须深入了解每种模式的工作方式,才能有效地“融合”这些多样化的数据集。
2.1.3.1 激光雷达与摄像机融合
基于单目视觉的感知系统以低成本实现了令人满意的性能,但却无法提供可靠的 3D几何信息。双目相机可以提供 3D 几何信息,但计算成本高,且无法在高遮挡和无纹理的环境中可靠工作。此外,基于视觉的感知系统在光照条件复杂的情况下鲁棒性较低,这限制了其全天候的感知能力。而激光雷达不受光照条件的影响,且能提供高精度的 3D 几何信息,但其分辨率和刷新率低,成本高昂。
摄像机-激光雷达融合感知,就是为了提高性能与可靠性并降低成本。这并非易事,摄像机通过将真实世界投影到摄像机平面来记录信息,而激光雷达点云则将几何信息以原始坐标的形式存储。就数据结构和类型而言,激光雷达点云是不规则、无序和连续的,而图像是规则、有序和离散的,这就造成了图像和点云处理算法方面的巨大差异。
自动驾驶汽车中的感知模块负责获取和理解其周围的场景,其输出直接影响下游模块(如规划、决策和定位),感知的性能和可靠性是整个自动驾驶系统的关键。通过摄像机-激光雷达融合感知来加强其性能和可靠性,改善智能网联汽车在复杂场景下的感知(如城市道路、极端天气情况等)能力。图像和点云融合的趋势如下。
(1)2D到3D:随着3D特征提取方法的发展,在3D空间中定位、跟踪和分割对象已成为研究的热点。
(2)单任务到多任务:一些近期的研究结合了多个互补任务,如对象检测、语义分割和深度完成,以实现更好的整体性能并降低计算成本。
(3)信号级融合到多级融合:早期的研究经常利用信号级融合,将 3D 几何图形转换到图像平面以利用现成的图像处理模型,近期的模型则尝试在多级融合图像和激光雷达点云(如早期融合、晚期融合)利用时间的上下文建模。
1.与性能相关的开放研究
(1)加入几何约束(Encoding Geometric Constraint)技术。与其他三维数据源(如来自立体相机或结构光的RGB-D数据)相比,LiDAR有更长的有效探测范围和更高的精度,可提供详细而准确的 3D 几何形状信息。几何约束已成为图像和点云融合流程中的常识,其提供了额外信息来引导深度学习网络实现更好的性能。将点云以RGB-D图像的形式投影到图像平面似乎是最自然的解决方法,但是点云的稀疏性会产生空洞。深度补全和点云上采样可以在某种程度上解决该问题。除此之外,利用单眼图像预测深度信息,以及在连续帧之间引入自我监督学习,也有望缓解这个问题。但是,如何将这种几何信息加入融合流程中仍是当前研究实践中尚需解决的问题。
(2)加入时间上下文(Encoding Temporal Context)技术。还有一些工程问题阻碍了自动驾驶汽车的实际部署,如 LiDAR 与摄像头之间的时间不同步、LiDAR 的低刷新率导致车速高时的点云变形,以及LiDAR传感器的测距误差。这些问题将导致图像与点云、点云与实际环境之间的不匹配。根据深度补全方面的经验,可以采用连续帧之间的时间上下文来改善姿态估计,从而改善特征融合的性能,并使得下游的标头网络受益。在自动驾驶过程中,准确估算周围车辆的运动状态至关重要,时间上下文有助于获得更平滑、更稳定的结果。此外,时间上下文可能有益于在线自校准。因此,应对加入时间上下文进行更多的研究。
在深度学习网络结构设计上,需要回答点云的最佳深度学习网络结构是什么?对于图像处理,卷积神经网络是最佳选择,并已被广泛接受,但点云处理仍然是一个开放的研究问题。同时,没有点云深度学习网络的设计原则被证明是最有效的。大多数传感器融合网络都是基于对应图像的网络结构,或基于经验、实验来进行设计的。因此,采用神经网络结构搜索的方法可能会带来进一步的性能提升。
在无监督或弱监督的学习框架中,人工标注图像和点云数据既昂贵又耗时,这限制了当前多传感器数据集的大小。采用无监督或弱监督的学习框架,可以使网络在更大的未标记/粗标记的数据集上进行训练,从而提升性能。
2.与可靠性相关的开放研究
(1)与传感器无关的融合框架。从工程角度来看,自动驾驶汽车的冗余设计对其安全至关重要。尽管将LiDAR和摄像头融合在一起可以改善感知性能,但是也会带来信号耦合问题。如果在工作时有一条信号路径失效,那么整个流程都可能会发生故障,并影响下游模块。这对于在安全关键环境中运行的自动驾驶汽车而言是不可接受的。这一问题可以通过加入能接受不同传感器输入的多个融合模块,或异步多模数据、多路径的融合模块来解决,但最佳解决方案仍有待进一步研究。
(2)全天候/光线下的工作能力。自动驾驶汽车需要在所有天气和光照条件下工作。然而,数据集和方法主要集中在具有良好照明和天气条件的场景上,这会导致在现实世界中表现不佳,其光照和天气条件要求更加复杂。
(3)对抗攻击和极端状况(Adversarial Attacks and Corner Cases)。针对基于图像的感知系统的对抗已被证明是有效的,这对自动驾驶汽车构成了严重危险。在这种情况下,可以进一步探索如何利用LiADR的准确3D几何信息和图像来共同识别这些攻击。
由于自动驾驶汽车需要在不可预测的开放环境中运行,因此也必须考虑感知中的极端案例(Edge Cases)。在设计感知系统时,应该考虑到不常见的特殊障碍物,如奇怪的行为和极端的天气,以及打印并粘贴在大型车辆上的人和物体(车体广告)及穿着怪异服装的人,利用多模数据传感器来识别这些极端情况,可能会比用单模数据传感器更有效、可靠和简单。在这个方向上的进一步研究可以帮助提高自动驾驶的安全性和加快其商用速度。
3.与工程有关的开放研究
(1)传感器在线自校准。摄像机和LiDAR融合的前提是摄像机和LiDAR之间的精确校准,其中,包括摄像机内部参数和摄像机与LiDAR之间的外部参数。但很难做到校准参数一直准确,即使在对摄像机和LiDAR进行了完美的校准之后,在车辆机械振动、热量等因素的影响下,其校准参数也会随时间变化而变得不准确。由于大多数融合方法对校准误差极为敏感,这会严重削弱其性能和可靠性。此外,校准过程大多需要从头进行,所以不断地人工更新校准参数既麻烦又不切实际。然而,这个问题因在已发布的数据集中不太明显而受到的关注较少。尽管如此,仍然有必要研究摄像机和LiDAR在线自校准的方法。最近的一些研究采用了运动引导和无目标自校准技术,在这个重要方向上应该进行更多研究。
(2)传感器时间同步。明确来自多个传感器数据帧的确切时间对于实时传感器融合至关重要,这将直接影响融合结果。LiDAR和摄像机具有不同的刷新率,并且每个传感器都有自己的时间源;感知系统的许多部分(数据传输、传感器曝光时间等)都可能发生不可控制的时间延迟。缓解该问题的方法:增加传感器刷新率以减小时间偏差;使用GPS PPS时间源与主机保持同步,并且由主机将时间戳同步请求发送到每个传感器,以使每个传感器在同一时间轴上;如果传感器可以由外部信号触发,则带有晶振的特定电路硬件可以记录精确的时间戳,该时间戳可几乎同时触发每个传感器。
2.1.3.2 深度融合的关键技术
1.深度补全
激光点云的稀疏性极大地制约了 3D 感知算法并使之复杂化。深度补全是旨在通过将稀疏的、不规则的深度数据,加上采样密集规则的数据来解决问题的技术。基于摄像机-激光雷达融合感知的方法通常利用高分辨率图像来引导深度上采样,并采用编码器-解码器(encoder-decoder)架构。
大多数研究使用单目图像来引导深度补全。这些方法认为图像的颜色、材质等信息包含几何信息,故可以将其作为深度上采样的参考。与单目图像相比,由立体摄像机的视差计算得到的几何信息更丰富、更精确。在深度补全任务上,立体摄像机和激光雷达在理论上更具互补性,应该能从中计算出更密集、更准确的深度信息。在实际应用中,立体摄像机的有效距离范围有限(与激光雷达的有效距离不匹配),且其在高遮挡、无纹理的环境中不可靠(如部分城市道路),这使其不太适用于自动驾驶。
2.3D目标识别
3D 目标检测旨在 3D 空间中定位、分类并估计具备方向性的目标边界框(bbox)。有两种主要的目标检测流程:双阶段(Two-stage)和单阶段(Single-shot/One-stage)。基于多阶段的模型大体由候选框阶段(Proposal Stage)和 3D 目标边界框回归阶段(3D bbox Regression)组成。在候选框阶段,检测并提出所有可能包含感兴趣对象的区域。在3D目标边界框回归阶段,根据候选区域的特征对区域进行进一步甄别,该模型的性能受到每个阶段的限制。单阶段模型只包含一个阶段,其通常以并行方式处理2D和3D信息。
1)基于2D候选区域(2D Proposal)的多阶段模型
这部分模型首先基于2D图像语义生成2D候选区域,使其能利用现成的图像处理模型。这种方法利用2D图像目标检测器生成2D候选区域,将其投影回3D点云空间中,形成3D搜索空间,并在这些3D搜索空间内进一步完成3D bbox的回归检测。这其中有两种可以将2D候选区域转换到3D点云空间的投影方法。一种方法是将图像平面中的边界框投影到3D点云,从而形成一个锥形的3D搜索空间。另一种方法是将点云投影到图像平面,点云逐点与对应的 2D 语义信息联系起来。但在点云中,远处的或被遮挡的物体通常只由少量的稀疏点组成,这增加了第二阶段中3D bbox回归的难度。
2)基于3D候选区域(3D Proposal)的多阶段模型
基于3D候选区域的多阶段模型直接从2D或3D数据中生成3D候选区域。其通过消除2D到3D的转换,极大地缩小了3D搜索空间。用于3D候选区域生成的常见方法包括多视角方法(Multi-view)和点云体素化方法(Point Cloud Voxelization)。基于多视角的方法利用点云的鸟瞰(BEV Representation)图来生成3D候选区域。鸟瞰图避免了透视遮挡,并保留了对象的方向信息和x、y坐标的原始信息。这些方向信息和x、y坐标信息对于3D对象检测至关重要,鸟瞰图和其他视角之间的坐标转换较为直接,而基于点云体素化的模型,则将连续的不规则数据结构转换为离散的规则数据结构。这让应用标准 3D 离散卷积(Standard 3D Discrete Convolution)使用现有网络模型来处理点云变得可能。其缺点是失去了部分空间分辨率、细粒度的3D结构信息及引入了边界痕迹(Boundary Artifacts)。
单阶段模型将候选区域生成和bbox回归阶段融合为一个步骤,这些模型通常在计算效率上更高,使它们更适合于移动计算平台上的实时应用。
3.2D/3D语义分割
2D/3D语义分割是指用于2D语义分割、3D语义分割和实例分割的现有摄像机激光雷达融合感知方法。2D/3D 语义分割旨在预测每个像素和每个点的类型标签,而实例分割还关心单个实例,3D语义分割网络的时间顺序和对应数据融合的层级相关联。
4.跟踪
多目标跟踪对于自动驾驶汽车的决策是不可或缺的。检测跟踪(Detection-Based Tracking,DBT)框架包括两个阶段:第一阶段为目标检测;第二阶段在时间轴上将这些目标关联起来,并计算轨迹,这些轨迹可被表示成线性程序。