本系统和方法利用大模型技术,通过收集发音训练数据,分析得到音频和视频资料,并提取教学者三维面部图像。利用生成对抗网络进行图像和音频的知识蒸馏,提取面部和声音特征,并进行时间轴对齐。基于对齐结果,计算联合损失函数值,并更新模型参数,形成第二蒸馏模型,用于生成音视频教学动画,以提升英语学习者的发音学习体验。
背景技术
目前,现有的英语发音教学只能给用户提供标准发音,或者再提供单词场景例句,却不能提供单词场景例句的视频画面,需要用户自行查找,或者人工整理单词场景例句,然而整理单词发音需要抓取海量音视频,需要消耗大量存储空间资源和计算资源从中提取需要的出场景例句画面,使得传统的英语发音教学效率低,用户体验感差。
实现思路