本技术介绍了一种创新的视频虚拟试衣方法,该方法利用时序增强扩散模型。首先,基于时尚数据集构建视频、姿态、语义和深度序列数据组。然后,通过形变网络技术,实现服装在视频中的动态适配。
背景技术
在虚拟试衣领域的持续发展中,深度学习驱动的图像合成技术已成为实现高度真实感虚拟服装试穿体验的关键,尤其是近些年生成式扩散模型在图像合成任务中取得了引人瞩目的成果。
基于图像的虚拟试衣算法将模型分为两个模块,服装形变模块与合成模块。服装形变模块从基于薄板样条形变的方法开始逐步转向了基于流的算法,实现了目标服装到人体姿态的映射。合成模块的目的在于将形变服装自然地迁移到人体图像上,需要克服诸多如遮挡关系、边界过渡的挑战。近些年来,扩散模型因其在图像生成质量和训练过程稳定性方面相较于生成对抗网络的显著优势而收到广泛关注。合成模块的核心算法也由生成对抗网络转变为扩散模型。
视频虚拟试衣任务涉及输入一系列视频帧及试穿衣物图像,最终输出一个新的视频。由于人物在视频中的姿势、位置和尺寸的连续性变化,视频虚拟试衣不仅要求对复杂的动态场景进行处理,还需要精确捕捉服装与人体动作的协同变化,并确保生成的视频帧之间保持流畅和连续的视觉效果。如果只是使用标准的扩散模型,试图来解决该问题,实验结果表明模型无法直接理解若干输入图像的语义信息及彼此之间的关系,这显然难以实现任务带来的诸多挑战。
(1)服装迁移的保真性:服装迁移需要考虑不同区域的纹理信息及人体姿态信息,既要保证服装在人体上的精准映射,还要正确处理物体之间的遮挡关系。
(2)人物细节的一致性:稳定扩散模型将图像压缩至潜空间表征,造成了图像语义信息的损失。因此关于人物视觉信息的细节保留也成为了视频虚拟试衣的挑战之一。
(3)帧间过渡的连续性:当前主流的扩散模型无法处理与保留帧间的结构信息。如果只是简单地将视频序列逐帧进行处理,则会出现帧间闪烁和上下文语义不一致的现象。
实现思路