一种基于联邦学习的声纹识别方法

123技术园

首页 / 技术内容

一种基于联邦学习的声纹识别方法

2025-02-26 16:41

No.1344348791343685632

技术概要

PDF全文

本技术涉及一种基于联邦学习的声纹识别方法，利用联邦学习分布式特性，基于服务器下发的起始参数组，待处理客户端生成本地个性化起始参数组，再联系模型记忆和动量增量，以基于本地音频数据样本集彼此独立取样的第一样本子集、第二样本子集，实现参数组的迭代训练更新，并最终联系服务器的全局聚合方式，获得声纹识别模型，用于针对音频实现关于预设各音频发出者标签的识别；设计声纹识别方法，有效解决音频数据在不同设备间的数据隐私保护和分布异质性问题，提升系统中声纹识别模型在实际应用中的鲁棒性和泛化能力。

背景技术

声纹识别作为一种生物特征识别技术，具有广泛的应用前景。然而，由于声纹数据具有隐私保护和数据孤岛的问题，传统的集中式学习方法难以满足实际需求。联邦学习(Federated Learning)通过在多个客户端本地训练模型并聚合全局模型，有效解决了数据隐私保护和数据孤岛的问题。然而，由于音频数据的多样性和分布异质性等特点，传统的联邦学习方法在处理声纹识别任务时面临诸多挑战。音频数据的特征包括语言或方言差异、录音内容多样性、环境噪声、设备性能等，这些特征的异质性会对传统的联邦学习模型产生负面影响，导致模型在本地训练和全局聚合过程中难以有效处理和学习这些复杂的音频特征。所以，基于传统的联邦学习的声纹识别系统在面对高度统计异质性的音频数据时，往往表现不佳，难以达到理想的识别性能，并且在传统联邦学习中，各客户端通常采用固定的任务采样策略，而忽略了不同任务之间的差异。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

谢在鹏黄忠苏毅

技术所属：河海大学

相关技术

一种游戏事件提示方法  一种游戏事件提示方法 
 本发明提供了一种游戏事件提示方法，其中方法包括读取UI界面，UI界面包括显示组件；根据显示组件和UI界面构建红点树结构；将红点树结构中的树节点与游戏事件绑定；获取显示模式，若显示模式为提示模式，则对发生事件的树节点关联的界面元素进行红点提示。通过红点树结构组织UI界面中的不同显示组件，可以体现不同显示组件之间的关联关系。由于树节点具有根节点，当树节点发生事件时，该树节点的根节点也发生事件。基于树节点和根节点之间的关联关系，对发生事件的树节点对应的界面元素，以及该树节点的根节点对应的界面元素一起添加提示点，从而提高向游戏界面中的界面元素添加提示点的效率，且防止漏添加提示点。
语音生成方法、装置、设备、存储介质及产品  语音生成方法、装置、设备、存储介质及产品 
 本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品，该方法包括:提取待处理文本的文本特征，并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系，对该场景图像特征进行映射处理，得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征，生成与待处理文本相对应，且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素，在能传达预期信息的同时，还能准确反映场景图像所对应的场景，使得生成的语音更具沉浸感和真实感，在一定程度上提高了语音生成的效果。
深度学习辅助的枪声检测与定位方法  深度学习辅助的枪声检测与定位方法 
 本发明涉及一种深度学习辅助的枪声检测与定位方法，属于声音定位技术领域，包括枪声检测阶段和声源到达方向(DOA)估计阶段；在枪声检测阶段利用卷积神经网络(CNN)对捕获的声音信号进行分类，对于属于枪声的声音信号，再进入DOA估计阶段，利用CNN定位枪声的声源到达方向；本发明将接收信号的多声道语谱图作为输入特征，具有灵活、成本低的特点，可以从更长期的角度获取接收到的声音信号的更多信息，也更好地利用基于CNN的深度学习网络，而且只需要很小尺寸的双麦克风即可满足DOA估计的输入要求。
一种基于多层神经网络的多声音事件检测方法  一种基于多层神经网络的多声音事件检测方法 
 一种基于多层神经网络的多声音事件检测方法，涉及声音事件检测领域。本发明提出基于融合经验模态分解算法、胶囊网络，注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中，首先使用AMM‑EMD算法进行预处理，丰富声音事件特征信息，并引入并行卷积结构提取高级特征信息；再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力，对高级特征进一步处理；同时，利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验，利用F1和ER评价声音事件检测效果，本发明提出的模型均比其他基线模型有所改善，F1和ER均有提高。
一种基于模态自适应学习的多模态课堂情感识别方法及系统  一种基于模态自适应学习的多模态课堂情感识别方法及系统 
 本发明属于但不限于情感识别技术领域，公开了一种基于模态自适应学习的多模态课堂情感识别方法及系统，通过构建多模态数据采集系统，实时采集课堂教学过程中的文本、音频和视频等多模态数据，并对不同模态的数据进行预处理与特征提取。针对不同课堂场景的情感表达特征差异，提出基于自适应模态评分(AMS)的多模态数据融合方法，并构建时序建模与情感分类模型。本发明的多模态融合与时序建模机制，模拟教师对课堂上学生情感状态的多维度感知，增强了情感识别系统的可解释性。该系统通过多模态数据的融合，将来自文本、音频和视频的数据特征进行加权融合，形成完整的情感特征表示。
一种基于BERT预训练语言模型的语音指令识别方法  一种基于BERT预训练语言模型的语音指令识别方法 
 本发明涉及语音识别技术领域，公开了一种基于BERT预训练语言模型的语音指令识别方法，该方法包括:接收待识别语音，并通过自动语音识别模型将待识别语音转化为文本序列；微调BERT预训练语言模型，并利用微调后的BERT预训练语言模型对文本序列进行文本分类，得到待识别语音对应的指令类别；利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩，得到序列分类模型；利用序列分类模型对文本序列进行特征提取，得到待识别语音对应的指令类别标签，本发明考虑到音频数据较文本数据更难获取的情况，选用BERT预训练语言模型，提高分类准确性，利用知识蒸馏进行模型压缩，识别到待识别语音指令类别标签，为人机交互提供数据支撑。
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统  复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 
 本发明涉及水声信号处理技术领域，特别涉及一种复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统，构建包含真实鲸目动物嘀嗒声信号和仿嘀嗒声水声仿生通信信号的训练集，将训练集中每个信号音频样本分为固定帧子信号样本；提取每一帧子信号的七类特征，构建融合特征向量，再将所有子信号的融合特征向量组成融合特征图像；搭建水声仿生通信信号识别模型，并使用训练集进行模型优化；将待识别信号样本分为固定帧子信号样本后，得到融合特征图像，并输入训练好的水声仿生通信信号识别模型中得到识别结果。本发明能够在小样本长度和复杂水声信道环境下实现仿嘀嗒声水声仿生通信信号的精确识别。
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法  基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 
 一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理，再对于每一种类的音频，需要提取其每一帧的MFCC倒谱，将提取的倒谱堆叠后输入TDNN网络，得到每一种类音频的声纹特征。第二部分：先对声纹数据进行归一化处理；再运用有标签的归一化后声纹数据作为特征空间训练分类模型C＆lt;subgt;y＆lt;/subgt;；最后在达到训练精度要求后保存模型参数。第三部分：首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小，依次来作为其贡献度的指标；接下来，使用类激活映射方法，对特定卷积层输出的特征图的梯度进行全局平均池化，并生成热图；最后将两种方法所得结果结合起来，生成细粒度的可解释性结果。
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
本申请公开一种语音交互方法、服务器及计算机可读存储介质，所述方法包括:接收车辆转发的当前语音请求，在根据当前语音请求未能确定出与当前语音请求相对应的车辆控制指令的情况下，根据大语言模型、当前语音请求及目标语言风格信息，确定目标引导信息及将目标引导信息反馈以引导用户完成语音交互。如此，本申请的服务器可在未能确定出与语音请求相对应的车辆控制指令的情况下，根据当前语音请求、目标语言风格信息及大语言模型，确定用于引导用户对语音请求进行调整，且与目标语言风格匹配的目标引导信息，及通过目标引导信息引导用户对语音请求进行调整以完成语音交互，使得用户对于车辆语音交互功能及车辆的使用体验能得到保障。
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
本发明的实施例提供了一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质，方法包括:获取语音识别模型中的正确文本和错误文本；对正确文本进行分词，得到多个正确词汇，将错误文本进行分词得到多个错误词汇；针对每个错误词汇，确定语音识别模型将正确词汇替换为该错误词汇的第一次数以及该错误词汇在错误文本中出现的第二次数；确定错误词汇对应的错误文本的成句的第一概率和正确词汇对应的正确文本的成句的第二概率；确定正确词汇替换为错误词汇的概率；在正确词汇替换为错误词汇的概率大于预设概率阈值时，将错误词汇添加至语音识别模型的语料中。无需进行人工对语料进行识别并扩充，节约成本。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工