本技术公开了一种基于细粒度语义描述的手势动作视频生成方法和装置,包括:对原始视频进行预处理和数据增强后,构建由视频帧和用于描述视频帧中手势动作的细粒度语义描述文本组成的样本数据;构建由视频编码模块、文本编码模块、降噪生成模块、以及视频解码模块组成的训练架构;基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪声之差构建损失函数,利用损失函数仅优化降噪生成模块参数,参数优化后由文本编码模块、降噪生成模块、以及视频解码模块组成视频生成模型;利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本进行手势动作视频生成。这样基于细粒度语义描述文本生成高质量含有手势动作的通用数字人视频。
背景技术
随着人工智能技术的迅猛发展,文生动作(Text2Motion)生成方法逐渐成为研究的热点领域,此类任务是从给定的文本描述生成人体运动序列,其中模型探索从自然语言指令到人体运动的各种映射。这些方法通过将文本描述转化为人体运动序列,不仅为内容创作带来了新的可能性,也为娱乐、教育等多个领域提供了创新的解决方案。
在众多文生动作生成方法中,MotionDiffuse(运动扩散模型)提出了第一个基于扩散模型的文本驱动动作生成的框架,验证了由文本驱动的运动生成具有卓越的运动操纵能力。
FineMotionDiffuse(精细运动扩散模型)在通过学习从细粒度描述到相应基本动作的隐式映射,在生成空间或时间复合动作方面都取得了良好的效果。这些研究工作都证明了由细粒度的语义描述到手势动作生成任务的可行性。
Kalakonda等人提出的Action-GPT(动作-GPT)通过使用GPT3扩展原始的粗粒度文本,探索了由粗粒度文本描述到不同身体部位的运动序列生成方案的有效性。
开源软件TM2T通过将机器翻译(NMT)的神经模型调整到上下文中,促进运动和文本两种模式之间的映射,实现了从输入文本中生成长度可变的非确定性姿势序列。
基于细粒度语义描述的手势动作生成方法属于文本生成动作的方法,旨在利用生成式模型,生成与细粒度的文本语义描述中手部动作一致的高保真数字人视频。现有的工作任务大都集中于粗粒度的动作生成,如走、跑、跳等动作,无法专注于细节的动作生成控制。
但是,文生数字人任务仍处于初步探索阶段,由于手部动作数据的高复杂性,且高质量的特定人物手势动作数据集匮乏,因此生成的数字人在真实性,动作连贯性等方面有待提升,动作可控性是指生成数字人的肢体动作和表情等是否做到细粒度的控制,这需要提高模型对驱动信息的理解能力和对视频结构的调节能力。
实现思路