基于细粒度语义描述的手势动作视频生成方法和装置
2025-02-22 12:24
No.1342834472558796800
技术概要
PDF全文
本技术公开了一种基于细粒度语义描述的手势动作视频生成方法和装置,包括:对原始视频进行预处理和数据增强后,构建由视频帧和用于描述视频帧中手势动作的细粒度语义描述文本组成的样本数据;构建由视频编码模块、文本编码模块、降噪生成模块、以及视频解码模块组成的训练架构;基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪声之差构建损失函数,利用损失函数仅优化降噪生成模块参数,参数优化后由文本编码模块、降噪生成模块、以及视频解码模块组成视频生成模型;利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本进行手势动作视频生成。这样基于细粒度语义描述文本生成高质量含有手势动作的通用数字人视频。
背景技术
随着人工智能技术的迅猛发展,文生动作(Text2Motion)生成方法逐渐成为研究的热点领域,此类任务是从给定的文本描述生成人体运动序列,其中模型探索从自然语言指令到人体运动的各种映射。这些方法通过将文本描述转化为人体运动序列,不仅为内容创作带来了新的可能性,也为娱乐、教育等多个领域提供了创新的解决方案。 在众多文生动作生成方法中,MotionDiffuse(运动扩散模型)提出了第一个基于扩散模型的文本驱动动作生成的框架,验证了由文本驱动的运动生成具有卓越的运动操纵能力。 FineMotionDiffuse(精细运动扩散模型)在通过学习从细粒度描述到相应基本动作的隐式映射,在生成空间或时间复合动作方面都取得了良好的效果。这些研究工作都证明了由细粒度的语义描述到手势动作生成任务的可行性。 Kalakonda等人提出的Action-GPT(动作-GPT)通过使用GPT3扩展原始的粗粒度文本,探索了由粗粒度文本描述到不同身体部位的运动序列生成方案的有效性。 开源软件TM2T通过将机器翻译(NMT)的神经模型调整到上下文中,促进运动和文本两种模式之间的映射,实现了从输入文本中生成长度可变的非确定性姿势序列。 基于细粒度语义描述的手势动作生成方法属于文本生成动作的方法,旨在利用生成式模型,生成与细粒度的文本语义描述中手部动作一致的高保真数字人视频。现有的工作任务大都集中于粗粒度的动作生成,如走、跑、跳等动作,无法专注于细节的动作生成控制。 但是,文生数字人任务仍处于初步探索阶段,由于手部动作数据的高复杂性,且高质量的特定人物手势动作数据集匮乏,因此生成的数字人在真实性,动作连贯性等方面有待提升,动作可控性是指生成数字人的肢体动作和表情等是否做到细粒度的控制,这需要提高模型对驱动信息的理解能力和对视频结构的调节能力。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
耿卫东  林陈健  章腾  金洲  厉向东
技术所属: 浙江大学
相关技术
变压器呼吸器变色检测方法、装置、系统及电子设备 变压器呼吸器变色检测方法、装置、系统及电子设备
基于机器视觉和AR的虫害检测与管理系统 基于机器视觉和AR的虫害检测与管理系统
一种电路板的故障快速检测方法、系统及存储介质 一种电路板的故障快速检测方法、系统及存储介质
遥感影像检测方法、装置、电子设备及存储介质 遥感影像检测方法、装置、电子设备及存储介质
一种基于在网计算的流表压缩方法 一种基于在网计算的流表压缩方法
一种基于分段信道估计的通感一体化系统干扰消除方法 一种基于分段信道估计的通感一体化系统干扰消除方法
一种基于上半身姿态的驾驶员情绪状态检测方法及系统 一种基于上半身姿态的驾驶员情绪状态检测方法及系统
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 一种引入RBU的轻量化皮革表面缺陷显著目标检测方法
一种基于金字塔的SAR图像相干斑抑制方法 一种基于金字塔的SAR图像相干斑抑制方法
一种考虑多层级特征的多类别点云异常检测方法及系统 一种考虑多层级特征的多类别点云异常检测方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利