噪声干扰下提升说话人识别准确度的模型构建技术
2025-01-08 09:18
No.1326481579719270400
技术概要
PDF全文
本技术介绍了一种在噪声环境中构建说话人识别模型的方法,该方法在识别网络的前端增加了一个去噪模块,通过改进的谱减法对噪声语音进行处理。该技术特别针对谱减法中的两个关键参数(过减因子α和谱下限参数β),利用梯度下降法由神经网络动态调整,以保留对说话人识别任务更为关键的语音信息,有效提升了在噪声环境下的识别准确度。此外,通过选择变窗长的窗函数进行短时傅里叶变换,避免了频谱泄露,确保了说话人识别任务中所需说话人信息的完整性。
背景技术
声纹识别作为生物特征识别的重要组成部分,广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前,在安静的实验室环境下以及语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,实际应用环境无法预测,导致说话人识别系统鲁棒性差。在现实应用中,受到环境中不同噪声影响,系统性能对比纯净环境明显降低,严重阻碍了说话人识别技术的应用发展。 目前大多语音去噪的方案都是基于深度神经网络来进行,体积大,计算量高,不利于加入到具体的语音识别、声纹识别等任务中。因此,目前的声纹识别算法无法很好地满足真实场景下带噪声的说话人识别的需求,其识别准确率有待提高。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张葛祥  陈柯屹  董建平  方祖林  肖东洋  罗标  杨强
技术所属: 成都理工大学
相关技术
一种游戏事件提示方法 一种游戏事件提示方法
语音生成方法、装置、设备、存储介质及产品 语音生成方法、装置、设备、存储介质及产品
深度学习辅助的枪声检测与定位方法 深度学习辅助的枪声检测与定位方法
一种基于多层神经网络的多声音事件检测方法 一种基于多层神经网络的多声音事件检测方法
一种基于模态自适应学习的多模态课堂情感识别方法及系统 一种基于模态自适应学习的多模态课堂情感识别方法及系统
一种基于BERT预训练语言模型的语音指令识别方法 一种基于BERT预训练语言模型的语音指令识别方法
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 基于梯度类激活映射的水下目标噪声源分类模型可解释性方法
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利