本申请公开了一种稠密视觉场景重建方法及系统,涉及场景重建领域,该方法包括构建包括3D高斯体表示模块、相机跟踪模块、关键帧管理模块和地图更新模块的稠密视觉场景重建架构;根据待重建的图片数据,采用稠密视觉场景重建架构,重建稠密视觉场景。本申请能够在复杂光照条件下实现高质量的场景重建和快速的场景渲染。
背景技术
同时定位与建图(Simultaneous Localization and Mapping,SLAM)技术是一种解决机械设备在未知环境中进行主体定位定向与环境地图重建任务的技术,被认为是实现真正全自主移动机器人的关键。伴随着计算机视觉、人工智能、自动驾驶等领域研究的持续火热,SLAM的研究不断深入,对定位导航精度和场景重建质量都提出了更高的要求。视觉SLAM(Visual SLAM)依靠相机传感器捕获视觉信息,通过处理连续的图像序列来完成对设备位置的估计和环境的建模,具有成本低廉、功耗较低、体积小巧等优点。视觉SLAM基于相机传感器种类、前端处理方法与后端处理方法等不同的形式已经开展了大量的工作,但是在弱纹理、照度变化和实时性等方面仍需要进一步研究。
神经隐式表示(Implicit Neural Representation,INR)是一种基于坐标的表示方法,可以将信号参数表示为一个连续函数,并使用神经网络来近似模拟信号函数。INR避免了传统方法离散存储数据的缺点,可以进行高精度的插值来计算场景内任意位置的占据情况以及渲染任意视角三维场景,这使得INR在SLAM中处理复杂环境场景、保持高分辨率细节和支持连续时间建图等方面表现出色。比较出色的工作有RDSP-SLAM、Occupancy SLAM以及NeRF-based SLAM。但是,NeRF-based SLAM被人广为诟病的是其训练/渲染速度较慢,不利于实时SLAM系统的应用与部署。部分文献对神经辐射场(NeRF)后续的改进方法进行了详细综述,例如采用哈希或稀疏3D网格等技术来对NeRF-based SLAM进行提升,但仍存在过度平滑化、易受影响性以及计算效率低等问题。3D GS作为一种显性辐射场技术,通过可微分的三维高斯形状基元对三维场景进行建模,一经推出便引起了世界范围内研究人员的广泛关注。不同于NeRF依赖体积射线进行密集采样导致的渲染速度过慢,3D GS独特地融合了可微分管道和基于点的渲染技术的优点,使得3DGS-based SLAM可以保留连续体积辐射场的理想特性同时避免与空白空间渲染相关的计算开销。
但在稠密视觉SLAM方面,3DGS-based SLAM展现出在渲染速度和渲染质量等性能上的巨大提升。尽管3DGS-based SLAM在各项性能上展现出惊人的性能,但是在3D GS应用过程中研究者们往往会依照惯性经验去构建损失函数,如直接使用函数来防止极值和噪声的干扰。这种选择简单有效并且可以减小计算复杂度,然而在复杂光照环境(例如光线昏暗或变化剧烈情况)下的表现却不尽人意。因为损失函数在处理高度非线性和不确定性的全局情况下可能无法有效捕捉到局部光线变化数据的真实分布。SSIM损失函数作为一种新兴的替代方案,在处理图像质量和结构保真度时显示出了更高的敏感性。与损失相比,SSIM考虑了图像的亮度、对比度和结构信息,能够更好地反映图像内容之间的相似性。这一特性使得SSIM损失函数在SLAM中的应用能够有效改善重建和渲染精度,尤其是在处理具有复杂纹理和结构特征的场景时。在3DGS-based SLAM系统中,利用SSIM损失函数可以帮助算法更好地对齐不同视角下的图像数据,减少由环境噪声和动态物体引入的误差。然而,目前对于如何优化SSIM损失函数、优化损失函数的组合策略等研究内容较少,需要进一步挖掘数学机理,合理优化损失函数以提升整体SLAM性能。
因此,在上述问题的基础上,亟需提供一种新的稠密视觉场景重建方法,以能够在复杂光照条件下实现高质量的场景重建和快速的场景渲染。
实现思路