本技术介绍了一种在噪声环境中构建说话人识别模型的方法,该方法在识别网络的前端增加了一个去噪模块,通过改进的谱减法对噪声语音进行处理。该技术特别针对谱减法中的两个关键参数(过减因子α和谱下限参数β),利用梯度下降法由神经网络动态调整,以保留对说话人识别任务更为关键的语音信息,有效提升了在噪声环境下的识别准确度。此外,通过选择变窗长的窗函数进行短时傅里叶变换,避免了频谱泄露,确保了说话人识别任务中所需说话人信息的完整性。
背景技术
声纹识别作为生物特征识别的重要组成部分,广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前,在安静的实验室环境下以及语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,实际应用环境无法预测,导致说话人识别系统鲁棒性差。在现实应用中,受到环境中不同噪声影响,系统性能对比纯净环境明显降低,严重阻碍了说话人识别技术的应用发展。
目前大多语音去噪的方案都是基于深度神经网络来进行,体积大,计算量高,不利于加入到具体的语音识别、声纹识别等任务中。因此,目前的声纹识别算法无法很好地满足真实场景下带噪声的说话人识别的需求,其识别准确率有待提高。
实现思路