本技术涉及一种基于联邦学习的声纹识别方法,利用联邦学习分布式特性,基于服务器下发的起始参数组,待处理客户端生成本地个性化起始参数组,再联系模型记忆和动量增量,以基于本地音频数据样本集彼此独立取样的第一样本子集、第二样本子集,实现参数组的迭代训练更新,并最终联系服务器的全局聚合方式,获得声纹识别模型,用于针对音频实现关于预设各音频发出者标签的识别;设计声纹识别方法,有效解决音频数据在不同设备间的数据隐私保护和分布异质性问题,提升系统中声纹识别模型在实际应用中的鲁棒性和泛化能力。
背景技术
声纹识别作为一种生物特征识别技术,具有广泛的应用前景。然而,由于声纹数据具有隐私保护和数据孤岛的问题,传统的集中式学习方法难以满足实际需求。联邦学习(Federated Learning)通过在多个客户端本地训练模型并聚合全局模型,有效解决了数据隐私保护和数据孤岛的问题。然而,由于音频数据的多样性和分布异质性等特点,传统的联邦学习方法在处理声纹识别任务时面临诸多挑战。音频数据的特征包括语言或方言差异、录音内容多样性、环境噪声、设备性能等,这些特征的异质性会对传统的联邦学习模型产生负面影响,导致模型在本地训练和全局聚合过程中难以有效处理和学习这些复杂的音频特征。所以,基于传统的联邦学习的声纹识别系统在面对高度统计异质性的音频数据时,往往表现不佳,难以达到理想的识别性能,并且在传统联邦学习中,各客户端通常采用固定的任务采样策略,而忽略了不同任务之间的差异。
实现思路