本技术属于三维重建与机器学习技术领域,公开了一种基于补丁提取的可泛化神经辐射场重建方法,基于多视图立体视觉和神经辐射场的体渲染算法,来隐式学习一个静态三维场景,实现复杂场景任意角度的新视角合成,进行场景的三维重建。首先,提取源视图与目标视图的二维图像特征,通过单应性变换利用平面扫描算法扭曲参考视图特征的坐标系来构造三维的成本体积;其次,对于当前场景所构造的成本体积,将其输入到一个三维卷积神经网络中,得到神经编码体积。将神经编码体积输入到多层感知机内,回归得到体积密度与颜色,从而构建神经辐射场;然后,利用当前神经辐射场渲染得到目标视图,分别提取目标视图与参考视图补丁,利用预训练的VGG‑16低层网络提取参考视图补丁特征与目标视图补丁特征进行对比。最后计算平均绝对误差量化得到目标视图补丁与参考视图补丁的内容特征差异,并作为整体损失函数的正则项来提高模型渲染质量。本发明可用于可泛化的多视图三维重建,能够通过高效的训练机制进行局部特征增强,提高对图像细节与物体边界的渲染能力。
背景技术
随着三维技术的快速发展,三维重建技术在多个领域得到了广泛的应用和快速的发展。三维重建技术能从二维图像中重建出精确的三维模型,可以广泛应用于文化遗产保护、城市规划、虚拟现实等多个领域。而近年来快速发展的基于神经辐射场(NeRF)的三维重建技术在重建与渲染方面取得了巨大的突破。神经辐射场的研究目的是合成同一场景不同视角下的图像,最终重构出这个场景的3D表示,在渲染过程中将不同视角作为输入就可以重建该场景的视图。
NeRF在神经重建与渲染方面取得了巨大的突破,但是它受限于长时间的逐场景渲染,缺乏在新场景上的泛化能力。我们提出了一种基于补丁提取的可泛化神经辐射场重建方法——PMSNeRF。我们的方法能有效提高新视角合成的泛化能力和合成质量。通过引入VGG-16低层网络对目标视图进行补丁特征提取,在训练中进行局部特征增强,我们的模型能够更好的捕捉图像差异,显著提高了重建效果。并且受到TTUR的启发,我们每64个全局训练步骤后执行一次基于补丁的局部训练,提高了训练效率,在保持计算资源高效利用的同时有效优化模型整体性能。我们证明了PMSNeRF在多个合成数据集和真实数据集上的表现优于多种可泛化的NeRF模型,在处理渲染产生的伪影与复杂的几何结构方面有显著优势。
通过图像重建并渲染真实场景对计算机视觉的应用至关重要。近年来,多种基于NeRF的方法被提出并尝试解决模型跨场景训练的问题,这些方式的统一之处在于根据一组视角相近的源视图渲染出的目标视图来训练NeRF网络。尽管这些方法也表现出了对新场景良好的泛化能力,但渲染图像的生成效果仍有不足之处。为了解决这些问题,我们一种基于补丁提取的可泛化神经辐射场重建方法。我们的方法旨在提高新视角合成的合成质量以及泛化能力,引入VGG-16低层网络对参考视图的补丁特征提取,通过高效的训练机制进行局部特征增强,提高对图像细节与物体边界的渲染能力。
实现思路