本技术介绍了一种结合扩散模型和文本描述的人体动作生成技术。该技术通过大型语言模型将原始文本转化为针对不同身体部位的详细描述,并以此指导动作生成过程,实现精确的动作模拟。
背景技术
人体动作生成是计算机视觉和计算机图形学中的一个重要研究领域,旨在通过计算机模拟和生成逼真的人类动作。随着虚拟现实、增强现实和电影特效等技术的发展,对于高质量人体动作的需求不断增加。近年来,人体动作生成任务变得越来越具有挑战性,出现了相当多的创新方法和技术来应对这一挑战。其中,深度生成模型在人体动作生成领域发挥着重要作用,包括生成对抗网络、变分自编码器和扩散模型等。
然而,现有的人体运动生成方法仍面临一些挑战,尤其是在零样本生成方面的困难。具体来说,现有方法在生成训练数据分布范围之外的复杂运动时,效果不佳。此外,由于人体动作数据集的规模和多样性有限,使得生成数据集分布范围之外的复杂运动更具挑战性。因此,为了增强模型的泛化能力,实现零样本生成,有必要提出一种新的解决方案。
实现思路