本技术领域为单目3D目标检测,特别提出了一种深度感知增强Mamba单目3D目标检测方法。该方法构建的模型包含FMF模块,旨在实现在低计算资源消耗下的有效深度感知增强。
背景技术
单目3D目标检测是通过从单个相机捕获的图像中,检测并识别出三维空间中目标对象的位置和姿态的一种技术。
近年来,基于卷积神经网络的2D目标检测技术发展迅速。它广泛应用于不同的领域,但在机器人导航、自动驾驶和多目标追踪等领域,需要获取更接近现实世界的检测结果,2D目标检测很难做到。因此,为了获取更接近现实世界的检测结果,许多学者采用距离传感器(如激光雷达)或双目摄像为信息输入设备获取精确深度信息,虽然获得较高的性能,但面临高硬件成本的问题。相比之下,从单个图像中获取高精度的3D检测结果,可以大大节省计算和设备成本,目前一些仅使用单目摄像头的方法已经被提出,利用2D与3D之间的几何关系约束取得了一定的效果。然而,由于单张图像无法直接获取深度信息,性能远远无法令人满意,故引起了众多学者的研究关注。
最近几年,深度估计领域发展迅速,单目深度估计模型的精度也随之提高。因此,一些学者使用成熟的单目深度估计模型来生成估计的深度信息,以辅助单目3D目标检测任务。基于伪LiDAR的方法将估计的深度图转为点云,模拟真实的激光雷达信号,然后使用成熟的LiDAR的检测器进行3D目标检测。还有基于融合的方法,将目标的图像特征和深度特征分别提取出来进行融合,以进行3D目标检测。尽管这些方法可以较好的定位目标,但可能面临特征提取过程中丢失有价值的特征,以及估计深度图像不准确的风险。相比之下,近几年提出的基于Transform的检测器,如MonoDTR,可以极大的减少超参数的设置,目前一些工作已经显示其在单目3D物体检测方面的优越性能。MonoDTR使用一张图像进行特征提取,然后采用多尺度融合的输出作为其他模块输入。但在融合的过程中大多采用逐元素相加或拼接的方法,很难完全利用不同尺度的特征信息,同时,这两种操作都容易产生大量的冗余信息,削弱了不同层次特征之间的互补性。MonoDTR提出的Depth-Aware Transformer模块,可以通过自注意力机制更好地捕捉图像信息之间的长距离依赖关系,而且多头注意力机制的并行计算极大地提高了训练和推理的效率,但是可能受到内存限制和效率影响,导致处理效率下降。并且,上述模型仅能处理单向序列数据,无法处理缺乏特定方向的图像数据。并且,Transformer模型在处理更长序列时,资源需求会呈现出急剧膨胀的趋势。
综上,怎样才能在控制成本的基础上,保证单目3D目标检测的准确性和稳定性,从而有效促进机器人导航、自动驾驶和多目标追踪等领域的发展,成为目前亟待解决的问题。
实现思路