本技术涉及一种结合ToF技术和立体视觉的移动设备深度感知技术及其装置。该技术通过构建一个多模态融合网络模型实现深度感知,模型由TM模块和SM模块顺序连接而成,旨在提升移动设备在复杂环境下的深度信息获取能力。
背景技术
准确的深度感知在移动设备的多种三维感知应用中起着至关重要的作用,尤其是依赖深度的任务,如三维重建、三维分割、3D姿态估计、AR和场景理解等,如果没有精确的深度值,应用程序难以提供最佳用户体验。移动设备上的深度感知通常依赖于基于RGB的立体匹配方法或飞行时间(ToF)传感器,但这两种方法的应用均会存在限制,例如立体匹配方法在纹理较弱或光照不均匀的区域中无法识别相应的像素,而移动ToF传感器不能测量具有镜面反射、低反射材料和平行于光轴的物体表面的深度,因而在现实场景中深度感知功能可能会失效,极大地限制了适用性。
而如果要将ToF检测方法与立体匹配方法进行融合,通常是使用以下两种融合方式:
一种是基于深度学习的融合方法,该方法是利用深度学习从数据集中学习多模态数据来估计场景深度。但是基于深度学习的融合方法需要依赖于大量的数据训练过程,泛化能力有限,特别是在遇到显著不同的场景组合、光照变化或表面反射率特性时,性能会显著的下降,且在ToF深度大量缺失的情况下,由于空间结构信息提取能力有效,还会导致深度插值和填充质量较差;
另一种是基于ToF置信度(Time of Flight Confidence)的融合方法,该方法是通过分析RGB图像和ToF深度图的质量来执行深度融合,ToF深度信息与立体匹配深度信息属于不同模态的信息,基于ToF置信度的融合方法仅是简单地使用插值合并跨模态数据,难以充分利用不同模态数据的特异性特征,导致ToF置信度评估方法的实际准确性并不高。
实现思路