本申请提供了一种视频驱动数字人表情模型的生成方法、装置及设备,该装置包括:获取样本数据,样本数据包括样本数字人视频以及样本用户视频;基于待训练视频驱动数字人表情模型对样本数字人图像以及用户表情特征进行编码,得到样本编码特征;基于待训练视频驱动数字人表情模型对样本编码特征进行卷积,得到样本卷积特征;基于待训练视频驱动人表情模型对样本卷积特征进行超分,得到输出数字人图像,输出数字人图像包括数字人表情;对输出数字人图像以及样本数字人图像进行计算,得到损失函数值;基于损失函数值对待训练视频驱动数字表情模型的模型参数进行更新。本申请的技术方案,可以实时输出高清的数字人表情图像序列。
背景技术
视频驱动数字人表情的研究是自然人机交互领域的重要内容。其中,数字人为运用数字技术创造出来的、与人类形象接近的数字化人物形象。这些数字人存在于数字空间中,具有拟人或真人的外貌、形态和性格特征。视频驱动数字人表情通过视频获取用户的面部表情,通过用户的面部表情驱动被数字人视频,合成带有用户的面部表情的数字人视频的过程。
相关技术中,视频驱动数字人表情的研究主要集中在表情效果的优化方面。例如,在低分辨率上达到较好的表情迁移效果。
但是,上述视频驱动数字人表情技术,由于是分辨率较低,进而合成的数字人视频中数字人表情的清晰度较低。
实现思路