本技术提出了一种汽车辅助驾驶领域的单目测距技术,该技术依托轻量占用预测网络实现。首先,通过构建3D占用预测数据集,然后利用多帧时序融合技术和时序立体深度估计方法,开发出单目占用预测教师模型,以提高测距准确性,增强驾驶辅助系统的效能。
背景技术
自动驾驶技术的进步意味着人类在交通领域的一次深刻变革。近年来,随着计算机领域人工智能尤其是深度学习以及传感器技术的快速发展,自动驾驶系统通过实时感知和智能决策,为交通运输带来了更高效、更安全、更环保的前景。目前市场上汽车所搭载的高级辅助驾驶系统(Advanced Driving Assistance System),主要功能包括前车/后车碰撞预警、车距检测警告盲区检测、变道辅助、自适应巡航等功能,这些功能离不开汽车对所处周围3D空间的感知。对3D空间进行感知常采用鸟瞰图(BEV)视角:将安装在车辆不同位置的传感器获取的信息经过特征提取后统一转换到从车辆上方观看的鸟瞰视角,作为后续模块(3D目标检测、路径规划等)的统一视图。BEV的缺点是其压缩了整个三维空间中的高度维,虽然这一维在自动驾驶中信息含量较少,但还是会包含一些信息。因此在BEV模式下,无法感知到高度或深度信息。2022年提出的占用预测网络技术解决了BEV存在的高度空间缺失的问题,其基本思想是将汽车周围的3D空间划分为体素,通过预测每个体素的语义信息实现对汽车周围3D环境的建模。
距离信息在智能驾驶的应用中发挥着重要作用。相比于使用昂贵的雷达设备,使用摄像头的纯视觉测距方案由于价格相对低廉应用较为广泛。纯视觉测距方案包括双目测距和单目测距。双目测距使用左右视图的视差来进行深度估计,其优点在于深度估计精确度较高,缺点在于其双目校正和匹配的过程带来了极大的计算量,且需要对两个相机进行严格的标定和配准,标定和配准的效果直接影响测距的准确性。传统单目测距主要结合目标检测矩形框来进行测距任务,通过目标在图像中的矩形框的宽度和相机矩阵去估算距离,其优点是计算量小、速度快,性价比高,系统结构相对简单,其明显的缺点在于需要针对不同的对象维护样本数据库,距离测算精度低。占用预测网络的出现为测距提供了一个新的思路,其将3D空间划分为预设尺寸的体素,使得距离计算异常简单。同时其预测体素的占用信息避免了显式地预测物体类别:当遇到数据集中从未出现的物体时,占用预测方法通过预测当前体素是否被占用,避免了无法识别出异常物体从而导致的撞车事故。但是目前自动驾驶领域的占用预测网络常含有复杂的深度估计、上下文预测或者基于Transformer的2D到3D的转换模块,对算力要求很高,限制了其在车载芯片端的部署。
知识蒸馏(Knowledge Distillation)是一种深度学习模型轻量化压缩方法,旨在将大型模型(教师模型)的知识迁移到小型模型(学生模型)中,以提高小模型性能和泛化能力。知识蒸馏的核心思想是将复杂模型的知识转化为更精简、更有效的表示,使其在保持高性能的同时,降低计算复杂度和资源需求。为了应对占用预测网络对算力要求高从而导致其难以部署的问题,可以使用知识蒸馏技术:使用一个事先训练好的性能良好但算力要求较高的教师模型指导性能欠佳但算力要求较低的学生模型学习,在提升其性能的同时不增加额外的算力需求。
实现思路