本技术公开了一种基于三维可形变注意力机制增强的3D目标检测方法,旨在提升多模态传感器融合的3D目标检测性能。首先,本发明通过创新设计的跨模态特征融合机制,使雷达和相机特征在鸟瞰视角下的特征融合过程中得到有效的引导与增强,优化了后续三维可形变注意力机制中的特征初始化。其次,本发明结合了轻量化的前景分割与深度估计,实现了三维可形变注意力机制在像素域和深度维度上的导向控制,促使融合特征与图像语义特征之间实现了更深层、更准确的交互,增强了特征的语义信息表达能力。实验结果表明,本发明的方法显著提高了3D目标检测的精度与鲁棒性,尤其在复杂场景中表现优异。
背景技术
随着自动驾驶技术的快速发展,3D目标检测技术在自动驾驶系统中起到了至关重要的作用。它帮助车辆准确感知周围环境,提供位置、速度等关键信息,从而实现安全驾驶。目前,激光雷达(LiDAR)和相机的融合是三维目标检测的主流方法。LiDAR能够提供高精度的几何深度信息,而相机则能够捕捉到丰富的语义信息,两者的互补性为3D目标检测提供了高效的感知能力。然而,LiDAR传感器价格昂贵,并且在恶劣天气条件下表现不佳。
相比之下,毫米波雷达(4D Radar)因其能够在恶劣天气中稳定工作,且成本较低,逐渐成为自动驾驶感知领域中的一种替代方案。4D毫米波雷达不仅能够提供物体的距离、速度和角度信息,还包含了物体的高度信息,使其在复杂场景中具有更高的分辨率。然而,由于雷达点云数据的稀疏性和噪声较大,这些因素限制了毫米波雷达在目标检测任务中的性能。
现有的多模态融合方法使用丰富的相机图像语义特征,在一定程度上改善了毫米波雷达稀疏且嘈杂的信息,因此在3D目标检测上获得了不错的进展。BEVFusion方法通过视角变换将图像特征映射到鸟瞰视图(BEV)空间中,以便更好地结合雷达的几何信息。具体来说,BEVFusion率先在BEV(Bird's Eye View)空间中实现了跨模态信息的融合,但其在构建BEV特征之前未充分利用各模态的特定特征。LXL方法进一步利用单目估计的深度对空间中的图像特征进行区分。然而,这些方法未能充分融合跨模态的鸟瞰图特征,也未能使用注意力机制的强大作用来增强特征表达。BEVFormer方法开创了使用注意力机制融合环视图像特征做3D目标检测的先河,以及FUTR3D方法也是用稀疏query来聚合多模态特征,但是它们均没有考虑并解决query找到对应的标记时遇到的困难,譬如由于固有的3D到2D投影过程中深度不一致的问题,导致query在交互过程中的目标特征模糊、收敛较慢。即使FB-BEV方法以及DFA3D方法一定程度上解决了深度维度目标定位问题,但目前还没有方法能在像素域上加强query与感兴趣的token的关联。
实现思路