双路径WaveNet技术在自监督异常声音检测中的应用

123技术园

首页 / 技术内容

2025-02-02 10:21

No.1335555663618908160

技术概要

PDF全文

本技术涉及一种利用双路径WaveNet技术的自监督异常声音检测方法。该方法通过以下步骤实现：首先，在频域路径中，WaveNet模型对输入声音信号的每个时间帧的频率信息进行建模，以捕捉声音信号的特征。

背景技术

声音作为信息传递的载体，蕴含着丰富的信息。基于声信号的检测，已经成为多个领域中不可或缺的技术手段。在工业生产中，通过对机器在运行时产生的声音进行监测和分析，不仅能够及时发现潜在的设备故障或问题，而且为采取及时维护措施提供了宝贵的机会。这一操作手段有助于降低设备停机时间，减缓设备损耗，从而显著提高整体生产效率。同时，通过预防性地解决潜在问题，还能够延长设备的使用寿命，降低计划外维护需求，有效降低生产成本。机器异常声音检测技术不仅在经济效益方面具有显著意义，同时对工作场所的安全性也产生直接积极影响。及时发现设备运行中的异常情况，使得可以提前预警潜在的安全风险。通过预防事故和减少设备故障，这项技术有助于创造更为安全的工作环境，有效保护员工免受潜在的伤害。传统的机器异常声音检测方法主要倚赖专业领域的经验和规则，通过设定阈值或使用规则来判断声音是否异常。随着机器学习和深度学习技术的兴起，基于数据驱动的方法逐渐成为主流。通过采集大量的声音数据并利用机器学习算法进行训练，可以更准确地识别和分类异常声音。新一代的异常声音检测系统，特别是卷积神经网络（CNN）和循环神经网络（RNN）等深度学习模型，能够从大规模、复杂的声音数据中提取抽象特征，实现高效的异常声音识别，提升了检测的准确性和适应性。研究者通过收集正常和异常样本，提取信号的特征，然后利用机器学习对方法提取这些样本的特征，从而实现对异常声音的检测。尽管异常声音检测技术已取得显著进展，但在实际环境中，获取异常声音相对困难，即便通过刻意制造异常来获得异常声音样本，所得数据往往也不足以涵盖可能出现的所有异常情况；特别是对于一些需要故意破坏机器以收集异常声音的情况，这种方法不仅成本高昂，而且不切实际。面对数据的极度不平衡，使用主流的监督学习方法进行异常声音检测会导致对正常声音高准确率但存在大量异常声音的漏检测。因此，无监督的异常检测更具现实意义，它无需对数据添加正常与异常的标签，仅利用收集的机器日常运转声音，根据这些信息的分布特点对未知的异常声音进行判断，从而实现有效的异常检测。这种方法避开了异常样本稀缺和数据不平衡的问题，为异常检测系统提供了更加实际可行的解决方案，使其更灵活地适应不同的实际工业场景。为此，研究者提出了一种无监督的ASD方法，在训练阶段仅使用正常声音数据，让模型学习正常声音的规律和特征。如图1所示，在检测阶段，模型通过计算输入声音与正常模式的偏离程度来判断其是否异常。具体来说，模型会为每个输入声音计算一个异常分数，并将其与预设的阈值比较。当异常分数超过阈值时，输入声音会被判定为异常。实现无监督异常声音检测的主要策略包括两类：基于重构的方法和基于自监督的方法。基于重构的方法通常利用自编码器对输入的声音特征图进行重构，并将重构误差作为异常分数。在测试时，通过异常分数与阈值的比较来判断测试样本是正常还是异常。然而，这类方法在处理非平稳环境时可能遇到问题，正常声音的重构误差有时会高于异常声音。为解决这一问题，研究者提出了基于自监督的方法。该方法利用数据中的某些属性来设置一个代理任务，通过解决有监督的代理任务，从数据中学习正常信号的表征。例如通过音频文件的相关信息，如机器类型或机器ID作为标签，训练模型对其分类，使模型学到每个类别更为紧凑的特征表示。测试时将模型预测的真实类别概率值作为异常分数，判断异常分数是否超过阈值来衡量样本是否异常。如图2所示，自监督异常声音检测方法通过设计预定义的伪监督任务，使模型在无真实标签的情况下学习到正常声音的特征分布。在训练阶段，通常利用元数据（如设备类别或环境信息）作为伪标签，构建分类任务，使模型学习正常声音之间的判别边界。在检测阶段，输入声音根据模型的分类概率进行异常检测。正常声音通常被高置信度地分类，而异常声音由于偏离正常分布，分类置信度较低。当异常分数高于设定阈值时，样本被判断为异常。时频谱图能够将声音信号的频率分量与时间变化以二维图像的形式直观地表示，从而捕捉声音中复杂的时频结构特征。声音信号通常是非平稳的，其频率强度随时间动态变化，而时频谱图能够很好地描述这些特性，使得正常和异常声音之间的差异得以充分体现。相比直接处理一维的原始波形，时频谱图能够更清晰地揭示异常声音特有的频率分布、能量变化和谐波结构。此外，时频谱图的图像化特征使其可以直接结合深度学习中的模型，从中提取深层次特征，大幅提升检测性能。时频谱图不仅丰富了特征信息，还提高了模型对异常声音的识别能力和鲁棒性。然而，目前大多数方法在提取时频谱图特征时，通常将其视为普通图像处理，采用二维卷积神经网络进行建模。由于二维卷积网络的感受野有限，这种局限性使其在处理时频谱图时难以捕获对异常检测至关重要的特定信息。一方面，频域中的谐波结构往往包含了重要的特征信息，例如正常声音的谐波通常呈现出稳定且规律的频率分布，而异常声音可能会打破这种规律性。然而，二维卷积网络由于感受野固定，难以有效捕捉这些跨频段的复杂谐波关系。另一方面，时域上的全局变化，例如声音信号的节奏、时序模式和动态特性，对异常检测也具有重要意义。然而，二维卷积网络更倾向于关注局部区域的特征，无法有效建模时间维度上长距离的依赖关系或动态变化趋势。因此，仅依赖二维卷积网络处理时频谱图可能导致对重要全局信息的忽略，从而影响异常检测的准确性和鲁棒性。为此，一些研究尝试利用Transformer和WaveNet（波网）对特定维度的信息进行建模。Transformer以其强大的全局建模能力和并行处理效率，能够通过自注意力机制有效捕获频域或时域中的长距离依赖关系。然而，Transformer在处理时频谱图时往往需要大量计算资源，且其对局部特征的捕捉能力相对有限，难以充分保留频率细节或时间帧间的微妙变化。如图3所示，WaveNet是一种以生成原始音频为初衷设计的一维卷积神经网络，在信号特征提取方面表现出了显著的能力。它的结构基于残差块，结合了膨胀卷积、门控单元、残差连接和跳跃连接，使模型能够高效捕获长距离依赖关系并保留局部信息。膨胀卷积逐步扩大感受野，使模型能够在不增加计算复杂度的情况下提取多尺度特征。残差连接增强了梯度流动和特征学习，而门控单元通过结合sigmoid和tanh函数控制信息的流动，进一步优化了模型性能。相比之下，WaveNet通过膨胀卷积逐步扩大感受野，能够高效捕获长距离依赖，同时保留局部信息。然而，传统的WaveNet仅适用于一维信号处理，在面对二维的时频谱图时，难以直接建模时间与频率之间的复杂关联性。虽然已有方法尝试将WaveNet拓展至频域信息的建模，但这种单一维度的处理方式无法完整反映时频谱图的全局特性，特别是在异常检测任务中，频域中的谐波特征和时域中的动态变化往往密不可分。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

周柏如尹明

技术所属：华南师范大学

相关技术

一种游戏事件提示方法  一种游戏事件提示方法 
 本发明提供了一种游戏事件提示方法，其中方法包括读取UI界面，UI界面包括显示组件；根据显示组件和UI界面构建红点树结构；将红点树结构中的树节点与游戏事件绑定；获取显示模式，若显示模式为提示模式，则对发生事件的树节点关联的界面元素进行红点提示。通过红点树结构组织UI界面中的不同显示组件，可以体现不同显示组件之间的关联关系。由于树节点具有根节点，当树节点发生事件时，该树节点的根节点也发生事件。基于树节点和根节点之间的关联关系，对发生事件的树节点对应的界面元素，以及该树节点的根节点对应的界面元素一起添加提示点，从而提高向游戏界面中的界面元素添加提示点的效率，且防止漏添加提示点。
语音生成方法、装置、设备、存储介质及产品  语音生成方法、装置、设备、存储介质及产品 
 本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品，该方法包括:提取待处理文本的文本特征，并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系，对该场景图像特征进行映射处理，得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征，生成与待处理文本相对应，且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素，在能传达预期信息的同时，还能准确反映场景图像所对应的场景，使得生成的语音更具沉浸感和真实感，在一定程度上提高了语音生成的效果。
深度学习辅助的枪声检测与定位方法  深度学习辅助的枪声检测与定位方法 
 本发明涉及一种深度学习辅助的枪声检测与定位方法，属于声音定位技术领域，包括枪声检测阶段和声源到达方向(DOA)估计阶段；在枪声检测阶段利用卷积神经网络(CNN)对捕获的声音信号进行分类，对于属于枪声的声音信号，再进入DOA估计阶段，利用CNN定位枪声的声源到达方向；本发明将接收信号的多声道语谱图作为输入特征，具有灵活、成本低的特点，可以从更长期的角度获取接收到的声音信号的更多信息，也更好地利用基于CNN的深度学习网络，而且只需要很小尺寸的双麦克风即可满足DOA估计的输入要求。
一种基于多层神经网络的多声音事件检测方法  一种基于多层神经网络的多声音事件检测方法 
 一种基于多层神经网络的多声音事件检测方法，涉及声音事件检测领域。本发明提出基于融合经验模态分解算法、胶囊网络，注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中，首先使用AMM‑EMD算法进行预处理，丰富声音事件特征信息，并引入并行卷积结构提取高级特征信息；再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力，对高级特征进一步处理；同时，利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验，利用F1和ER评价声音事件检测效果，本发明提出的模型均比其他基线模型有所改善，F1和ER均有提高。
一种基于模态自适应学习的多模态课堂情感识别方法及系统  一种基于模态自适应学习的多模态课堂情感识别方法及系统 
 本发明属于但不限于情感识别技术领域，公开了一种基于模态自适应学习的多模态课堂情感识别方法及系统，通过构建多模态数据采集系统，实时采集课堂教学过程中的文本、音频和视频等多模态数据，并对不同模态的数据进行预处理与特征提取。针对不同课堂场景的情感表达特征差异，提出基于自适应模态评分(AMS)的多模态数据融合方法，并构建时序建模与情感分类模型。本发明的多模态融合与时序建模机制，模拟教师对课堂上学生情感状态的多维度感知，增强了情感识别系统的可解释性。该系统通过多模态数据的融合，将来自文本、音频和视频的数据特征进行加权融合，形成完整的情感特征表示。
一种基于BERT预训练语言模型的语音指令识别方法  一种基于BERT预训练语言模型的语音指令识别方法 
 本发明涉及语音识别技术领域，公开了一种基于BERT预训练语言模型的语音指令识别方法，该方法包括:接收待识别语音，并通过自动语音识别模型将待识别语音转化为文本序列；微调BERT预训练语言模型，并利用微调后的BERT预训练语言模型对文本序列进行文本分类，得到待识别语音对应的指令类别；利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩，得到序列分类模型；利用序列分类模型对文本序列进行特征提取，得到待识别语音对应的指令类别标签，本发明考虑到音频数据较文本数据更难获取的情况，选用BERT预训练语言模型，提高分类准确性，利用知识蒸馏进行模型压缩，识别到待识别语音指令类别标签，为人机交互提供数据支撑。
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统  复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 
 本发明涉及水声信号处理技术领域，特别涉及一种复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统，构建包含真实鲸目动物嘀嗒声信号和仿嘀嗒声水声仿生通信信号的训练集，将训练集中每个信号音频样本分为固定帧子信号样本；提取每一帧子信号的七类特征，构建融合特征向量，再将所有子信号的融合特征向量组成融合特征图像；搭建水声仿生通信信号识别模型，并使用训练集进行模型优化；将待识别信号样本分为固定帧子信号样本后，得到融合特征图像，并输入训练好的水声仿生通信信号识别模型中得到识别结果。本发明能够在小样本长度和复杂水声信道环境下实现仿嘀嗒声水声仿生通信信号的精确识别。
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法  基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 
 一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理，再对于每一种类的音频，需要提取其每一帧的MFCC倒谱，将提取的倒谱堆叠后输入TDNN网络，得到每一种类音频的声纹特征。第二部分：先对声纹数据进行归一化处理；再运用有标签的归一化后声纹数据作为特征空间训练分类模型C＆lt;subgt;y＆lt;/subgt;；最后在达到训练精度要求后保存模型参数。第三部分：首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小，依次来作为其贡献度的指标；接下来，使用类激活映射方法，对特定卷积层输出的特征图的梯度进行全局平均池化，并生成热图；最后将两种方法所得结果结合起来，生成细粒度的可解释性结果。
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
本申请公开一种语音交互方法、服务器及计算机可读存储介质，所述方法包括:接收车辆转发的当前语音请求，在根据当前语音请求未能确定出与当前语音请求相对应的车辆控制指令的情况下，根据大语言模型、当前语音请求及目标语言风格信息，确定目标引导信息及将目标引导信息反馈以引导用户完成语音交互。如此，本申请的服务器可在未能确定出与语音请求相对应的车辆控制指令的情况下，根据当前语音请求、目标语言风格信息及大语言模型，确定用于引导用户对语音请求进行调整，且与目标语言风格匹配的目标引导信息，及通过目标引导信息引导用户对语音请求进行调整以完成语音交互，使得用户对于车辆语音交互功能及车辆的使用体验能得到保障。
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
本发明的实施例提供了一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质，方法包括:获取语音识别模型中的正确文本和错误文本；对正确文本进行分词，得到多个正确词汇，将错误文本进行分词得到多个错误词汇；针对每个错误词汇，确定语音识别模型将正确词汇替换为该错误词汇的第一次数以及该错误词汇在错误文本中出现的第二次数；确定错误词汇对应的错误文本的成句的第一概率和正确词汇对应的正确文本的成句的第二概率；确定正确词汇替换为错误词汇的概率；在正确词汇替换为错误词汇的概率大于预设概率阈值时，将错误词汇添加至语音识别模型的语料中。无需进行人工对语料进行识别并扩充，节约成本。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工