本技术公开了一种基于毫米波雷达与相机图像双分支互融合的3D目标检测方法。该方法从相机和毫米波雷达高效提取各自模态的特有图像特征,并引入互补分支信息。具体来说,本方法生成了几何感知的相机鸟瞰视图(BEV)特征和语义感知的毫米波雷达BEV特征。这两类特征融合后形成全面增强的BEV特征图,随后通过解码处理,实现精确的3D目标检测。本方法显著提高了3D目标检测的准确性与鲁棒性,实验结果显示,即使在复杂场景和恶劣天气条件下,该方法也能有效检测和定位环境中的3D目标。
背景技术
随着自动驾驶技术的快速发展,3D目标检测技术在自动驾驶系统中起到了至关重要的作用。它帮助车辆准确感知周围环境,提供位置、速度等关键信息,从而实现安全驾驶。目前,激光雷达(LiDAR)和相机的融合是三维目标检测的主流方法。LiDAR能够提供高精度的几何深度信息,而相机则能够捕捉到丰富的语义信息,两者的互补性为3D目标检测提供了高效的感知能力。然而,LiDAR传感器价格昂贵,并且在恶劣天气条件下表现不佳。
相比之下,毫米波雷达(4D Radar)因其能够在恶劣天气中稳定工作,且成本较低,逐渐成为自动驾驶感知领域中的一种替代方案。4D毫米波雷达不仅能够提供物体的距离、速度和角度信息,还包含了物体的高度信息,使其在复杂场景中具有更高的分辨率。然而,由于雷达点云数据的稀疏性和噪声较大,这些因素限制了毫米波雷达在目标检测任务中的性能。
现有的多模态融合方法使用丰富的相机图像语义特征,在一定程度上改善了毫米波雷达稀疏且嘈杂的信息,因此在3D目标检测上获得了不错的进展。例如,RCFusion方法通过视角变换将图像特征映射到鸟瞰视图(BEV)空间中,以便更好地结合雷达的几何信息。具体来说,RCFusion通过orthographic feature transform(OFT)提升图像特征至3D空间,但因为固有的3D到2D投影的深度模糊问题,未能准确区分沿投影射线同等存在的图像特征。尽管LXL方法进一步利用单目估计的深度对空间中的图像特征进行区分,但在优化深度估计的准确性时未能有效利用雷达深度图。CRN方法采用lift,splat,and shoot(LSS)并通过雷达占用图来协助图像视角转换,有效地利用了各模态中的互补信息。然而,这些方法均未能充分挖掘雷达和相机之间的互补信息,尤其是对雷达几何信息和相机语义信息的深层交互利用不足。它们往往依赖显式的几何变换或浅层的特征融合,未能充分利用各模态中蕴含的丰富信息。
实现思路