语音驱动口型合成技术与设备 语音驱动口型合成技术与设备
本技术提供一种用于语音驱动的口型生成方法及装置,涉及自然语言处理技术领域。该方法包括:基于ffmpeg工具,根据原始视频数据进行图像处理,获得拼接帧图像数据以及面部特征点;根据原始音频数据,通过深度音频特征提取器进行特征提取,获得音频特征;通过音频‑视频序列特征融合器进行特征融合,获得融合特征;根据面部特征点以及融合特征,通过唇部动作生成器进行视频生成,获得合成视频数据;根据原始视频数据以及合成视频数据对唇部动作生成器优化;基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成,获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。
音频场景识别技术在学生行为日志生成中的应用 音频场景识别技术在学生行为日志生成中的应用
本技术属于音频场景识别技术领域,提供了一种基于音频场景识别的学生行为日志生成方法及系统。该方法包括,获取录制的音频文档,将音频文档分成若干音频片段;基于所述音频片段采用训练好的教育场景识别模型,得到各个音频片段的教育场景预测标签;为各个音频片段标记起始时间点和终止时间点,根据各个音频片段标记起始时间点和终止时间点结合各个音频片段的教育场景预测标签,生成时间分布行为日志;其中,教育场景识别模型预测的过程包括提取音频文档的频谱特征和主题在音频字上的概率分布,基于主题在音频字上的概率分布和音频文档的频谱特征生成主题特征,更新主题特征,基于更新的主题特征进行分类,得到教育场景预测标签。
因果高斯过程在动态声音异常检测中的应用 因果高斯过程在动态声音异常检测中的应用
本技术涉及音频检测领域,尤其是基于因果高斯过程动态系统的声音异常检测方法及系统,所述方法包括如下步骤:获取音频数据的音频特征频谱图;对所述音频特征频谱图进行建模,得到低维潜变量;基于所述低维潜变量,得到音频因果关系图;基于正常音频因果关系图,得到普适因果关系图;计算正常音频因果关系图与所述普适因果关系图之间的均方误差值,并将所述均方误差值作为经验阈值;计算待测音频因果关系图与所述普适因果关系图之间的差值;将所述差值与所述经验阈值相比较,根据比较结果,得到待测音频数据的检测结果。本发明将因果发现方法引入高斯过程动态系统,解决了现有技术对小样本数据异常检测训练困难的问题,并提供了可解释性依据。
创新文本转语音技术:提升合成效率与独立性 创新文本转语音技术:提升合成效率与独立性
本技术公开了一种文本到语音生成方法,属于语音生成技术领域,能够解决现有文本到语音系统语音合成效率低、且依赖对齐信息的问题。所述方法包括:S1、获取参考语音的自监督特征,并对自监督特征进行离散化处理,得到参考语义标记序列;S2、根据文本标记序列和参考语义标记序列,得到目标语义标记序列;S3、对目标语义标记序列进行预测,得到多层声学标记序列,并根据多层声学标记序列生成目标语音。本发明用于生成目标语音。
创新前馈-反馈混合降噪系统及其应用 创新前馈-反馈混合降噪系统及其应用
本技术提出了一种新型前反馈混合降噪装置和方法,其特征在于,装置包括1个参考传声器,1个前馈误差传声器、1个反馈误差传声器、1个次级扬声器和1个控制器,降噪方法的具体步骤为:应用LMS算法分别得到反馈次级路径建模滤波器和前馈次级路径建模滤波器,应用FxLMS或改进的自适应算法得到前馈控制滤波器,应用FxLMS得到反馈控制滤波器,实际降噪中,应用前馈控制滤波器得到前馈抵消信号,应用反馈控制滤波器得到反馈抵消信号,前馈抵消信号和反馈抵消信号在控制器中相加经次级扬声器输出,完成降噪。其显著优势在于,基于两个误差传声器,降噪性能更佳,而且能够扩大空间静区,运算简单、快速,可适用于低功耗低运算能力芯片。
非母语中文语音识别:偏移与卷积自适应技术 非母语中文语音识别:偏移与卷积自适应技术
本技术公开了基于偏移和卷积自适应的非母语中文语音识别方法与系统,涉及语音识别技术领域,方法包括以下步骤:选择预训练模型,添加TBA模块和卷积自适应模块构成非母语中文语音识别模型;利用训练好的非母语中文语音识别模型实现非母语中文语音识别;TBA模块根据语音帧生成重要性权重和偏置项,并输出偏置向量到前馈层;卷积自适应模块将表示向量转换为特征加权向量。本发明结合TBA和卷积自适应模块,提高了模型对语音token重要性的理解以及有效提取编码知识,这种技术组合不仅增强了模型的识别准确性,还提升了其在多语言环境或全球化应用中的适应性,在非母语中文语音识别任务中展现出显著的有益效果。
线性复杂度语音识别模型架构创新 线性复杂度语音识别模型架构创新
本技术公开介绍了语音识别技术领域中一种用于语音识别的线性复杂度模型架构,所述AMLP分支使用MLP替代注意力机制,并在MLP基础上添加注意力平均池化层,在保持线性复杂度的同时,确保注意力权重均匀分布,并获取全面的全局特征,所述卷积分支利用卷积空间门控单元捕获增强的局部特征关系,并通过与AMLP分支交互信息的通道,将局部特征与全局特征进行混合,为全局特征补充局部特征,本发明在提取局部特征和全局特征的同时,适当的在局部特征和全局特征提取处理时进行了提前融合,来解决全局特征和局部特征实时相互影响的问题。
音频数据标注精度提升:时频增强技术与系统 音频数据标注精度提升:时频增强技术与系统
本技术公开了一种基于时频增强的音频数据标注精度增强方法,该方法包括:数据采集流程,对教师的教学音频进行采集,再将教学音频中的原始信号通过线性声谱图的过渡量转化为梅尔声谱图;数据增强流程,使用VoiceAugment音频数据增强算法对输入的需要标注的教学音频进行数据增强,增强技术由频率信道掩蔽块和时间帧掩蔽块组成,增强了教学音频的特征属性;自动标注流程,使用ANNA模型对教学音频实现自动标注,ANNA模型由波谱图特征获取、声谱图特征获取、特征融合和情感标注等模块组成。本发明实现了教师教学情感的自动标注,提高了教学音频的标注速度和标注精度,克服了因人力标注所致的耗时费力等缺陷,为教师课堂的情感预测等服务提供了较为准确的数据标签。
结合双门限法和残差神经网络的声音识别技术与系统 结合双门限法和残差神经网络的声音识别技术与系统
本技术公开了一种双门限法与残差神经网络结合的声音语意识别方法及系统,首先自行收集了一套语音数据,针对这套数据进行了数据规范化等预处理操作;然后基于双门限法端点检测,寻找噪音点,进行降噪处理。同时使用分帧、加窗、傅里叶变换等一连串步骤将原始数据集中的所有音频转换为语谱图,得到图像数据集;最后使用深度残差网络对训练集进行训练,并根据训练到的模型在测试集中测试。本发明的优点在于:应用到船舶中实现了较高准确率的方法优化船舶护航能力,相较于人耳识别笛音具有成本低的特性。另外,本方法创新性的提出将端点检测与深度学习相结合的方式对语音进行语义理解,其效果远超单独利用端点检测或深度学习进行语音分类的方式。
基于GFCC特征的语音信息隐藏技术 基于GFCC特征的语音信息隐藏技术
本技术涉及一种基于语音GFCC特征参数的信息隐藏方法,属于语音识别技术领域。对于N bit的二进制待隐藏信息,选取语音作为待隐藏信息的载体,对载体语音采取无重叠分帧;利用伪随机数发生器产生伪随机数序列,以此确定信息隐藏的位置,将伪随机数序列进行二进制转换,得到密钥K;对隐藏信息的帧信号提取GFCC特征参数并进行二进制编码,再将二进制GFCC编码与待隐藏信息进行异或,得到待隐藏编码;对要隐藏信息的帧信号进行4级DWT分解,并选取4级低频系数构造成两个向量,分别计算向量范数,通过量化向量范数对待隐藏编码进行隐藏,最后进行逆DWT和重组语音帧得到含隐藏信息的载体语音并对其中的隐藏信息进行提取。
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工