一种新型双目视差至单目深度的知识蒸馏方法,S1:训练视差深度转换模块:第一训练数据输入至预训练的双目立体视差教师模型,得到视差图;第一训练数据包括左眼彩色图像和右眼彩色图像;将视差图和原始的视差参考图输入至视差深度转换模块,得到伪标签深度图;根据伪标签深度图计算损失函数,更新视差深度转换模块的参数;S2:将视差深度转换模块输出的伪标签深度图和原始真标签深度图进行混合,得到混合标签深度图;S3:训练单目深度估计学生模型:通过第二训练数据训练单目深度估计学生模型;第二训练数据包括混合标签深度图和相应的原始参考图,本技术能够在较低数据量的数据集上进行训练,并且提升了全局精度。
背景技术
视觉地理定位是一项用来确定某实体的地理位置的过程。物体的视觉地理定位技术在生活和工业中都具有重要的应用,其需要至少一张实景图像作为输入,即可对图像的拍摄位置或图像中的物体进行定位。实景图像指在真实世界捕获的彩色图像,可以是日常生活中使用相机拍摄的照片,也可以是借由卫星或光电瞄准吊舱拍摄的航拍图像。
在视觉地理定位中,深度估计是定位的关键步骤,其能够确认图像中物体与相机之间的距离,帮助系统理解物体多处的空间位置,从而实现更准确的定位。
目前,深度估计的技术路线主要包括多视角和单视角两种。
其中,多视角的方法会在一些违背以上假设的区域达到性能瓶颈,比如被物体被遮挡的部分或由于纹理模糊和强反射面导致的几何线索不连续区域。除此以外,由于对每个候选深度都需进行计算量较大的推理过程,以及对于相机等传感器硬件设备需要较高的校准成本,现代多目立体视差估计所采用的基于计算像素相似度的范式在低端性能的设备上进行部署仍存在较大局限性。单视角深度估计方法仅能从一张输入图片中获取相关的纹理和信息。基于这一条件,单视角方法通过学习纹理的渐变特征来首先评估图像中物体尺寸的变化,最终估计图像中物体到传感器平面的距离。为了从图像中提取这些线索,现有方法通常使用深度特征提取器来编码这些信息,然后通过监督学习的方法来回归像素级的深度值。对于输入图像数目较低和更快的推理速度使得单视角方法成为了工业界在深度估计问题上实践的有力竞争者。然而,单目深度估计问题具有本质上的内在模糊性,即单张图片只是无数种三维空间物体摆放的其中一种投影结果,一张实景图片可能对应多种物体的布置模式,这也意味着超出训练数据集分布的物体尺寸变化会导致不可预料的深度预测结果,而这种模糊性也进一步限制了当前模型的全局精度和泛化能力。而且现有监督学习方法对于物体和纹理渐变的理解很大程度上取决于深度标签的密度,标签量较少的物体特征往往不能被单目线索正确整合并学习。
因此,如何提高模型的全局精度和泛化能力以及降低对数据量的需求是本领域技术人员亟需解决的问题。
实现思路