本技术介绍了一种创新的全景图像合成方法,该方法基于块级编码和球面映射技术。首先,系统会捕获全局潜在编码、图像块的潜在特征及其坐标信息。这些图像块将根据全局全景图像的坐标被预先缩放至部分球面块。通过这种方法,可以实现高效的全景图像生成,同时保持图像质量。
背景技术
随着虚拟现实(VR)和增强现实(AR)技术的快速发展,全景图像已成为实现沉浸式视觉体验的关键媒介。全景图像通常通过高分辨率鱼眼相机阵列拍摄,覆盖360°×180°的全景视场(FiledofView,FOV)。由于全景内容的特定格式要求,捕捉和展示全景图像需要专门设计的设备,同时应对海量数据的存储和传输也需高带宽支持。因此,全景图像在获取、传输和展示方面的技术难题,凸显了利用人工智能生成内容(AIGC)来丰富全景图像生成的必要性,以满足多样化的沉浸式体验需求。
深度概率生成模型(ProbabilisticGenerativeModels,PGM)在生成逼真内容方面取得了显著进展,特别是在平面图像生成任务上取得了突破性成果。然而,对于全景图像生成,现有方法通常将全景格式映射为平面图像,再利用平面PGM进行生成,这些PGM通过使用圆柱坐标先验和球形加权损失进行正则化。然而,由于矩形图像边缘的存在,这类方法本质上只能生成伪全景图像,无法确保图像边缘连通性,从而导致在全景视角下内容不一致。为了解决这种不一致性,一些方法引入了全局硬约束,例如采用多视图和整体全景提示作为条件来指导生成。更高级的技术包括在生成对抗网络(GAN)中引入水平移位的圆形填充,以及在扩散模型中使用潜在重组。尽管这些方法通过确保图像最左边缘与最右边缘之间的一致性,缓解了部分问题,但它们在训练和推理阶段需要同时生成整个图像,导致计算资源消耗巨大,尤其是在全景图像生成对高分辨率要求较高的情况下。更重要的是,现有方法大多依赖于额外的信息,如单/多视图和丰富的上下文线索,而这些信息在实际的全景图像生成场景中并不总是可用。因此,开发一种高效且根本的无条件全景图像生成方法,已成为满足新兴高质量沉浸式体验的迫切需求。
实现思路