本技术公开一种抗遮挡区域的无监督多视图立体重建方法,能够在无需依赖真实深度信息的情况下,通过处理来自多个视角的图像,有效解决遮挡区域的三维重建问题,并计算出具有高精度的点云模型。首先,提取多尺度特征;然后,采用可变形的大核注意力网络聚合全局信息,计算场景的深度图和对应的置信图;其次,计算对比一致性损失和感知一致性损失为深度估计过程提供伪监督信号,优化深度图;最后,融合深度图,即可获得点云模型。本发明充分利用基于多种监督项的无监督多视图立体计算方法,有效挖掘输入图像自身的特征,估计出高质量的深度图,进而计算出精确的点云模型。
背景技术
多视图立体(Multi-view Stereo,MVS)是从多视图图像中重建出场景的点云模型的一种技术。根据输出的重建结果的数据格式,三维重建方法通常可以分为以下几类:(1)直接点云重建;(2)基于体素的方法;(3)基于网格的方法;(4)基于深度图融合的方法。
基于有监督学习的MVS方法需要真实深度(Ground truth)作为训练数据,然而,大规模真实深度数据的获取过程非常复杂,限制了此类方法在未知环境中的泛化能力。无监督方法的出现解决了这一问题,此类方法不需要真实深度作为监督信息,仅依赖于多视角图像即可重建出三维点云模型,显著提高了其在不同场景下的适应性。现有的无监督方法主要基于光度一致性假设,即在不同视角或相邻帧中观察同一场景点时,假设其光度(如灰度值或颜色)在变化时保持一致。然而在低纹理区域或遮挡区域,该假设常常失效。低纹理区域缺乏足够的光度信息进行匹配,而在遮挡区域,场景中的某些部分可能在部分或全部视角中被其他物体遮挡,导致匹配误差。遮挡情况在复杂场景中尤为常见,如城市街景或室内环境。
上述问题严重阻碍了无监督多视图立体重建方法的发展和应用,暴露现有的无监督多视图立体重建方法在处理遮挡区域图像数据时的不足。因此,人们迫切需要一种鲁棒的高精度立体重建方法,以便有效恢复遮挡区域图像的深度值。
近年来,为进一步提高无监督多视图立体重建的准确性,已有相关的研究论文,但是这些现有无监督MVS方法通常依赖于光度一致性假设来进行三维场景的深度估计,但是,当场景中存在遮挡时,这一假设并不成立,从而导致自监督信号的不可靠性。这种不可靠性会进一步损害最终的重建性能。
也就是说,现有的无监督多视图立体重建方法在处理遮挡区域深度估计时,仍然面临以下挑战:(1)现有的无监督多视图立体重建方法基于光度一致性假设,然而在遮挡区域,由于不同视角下同一场景点的光度信息无法保持一致,导致重建精度较低,无法满足复杂场景中的应用需求;(2)现有的无监督多视图立体重建方法在处理遮挡区域时,缺乏有效的遮挡检测和处理机制,导致错误的深度估计,特别是在场景中存在大面积遮挡物或动态物体时,深度估计结果往往不稳定;(3)现有的无监督多视图立体重建方法在处理遮挡区域时,依赖单一监督信号,难以在没有真实深度数据的情况下提供足够的优化信息,影响重建效率和最终点云模型的精度。
实现思路