本技术涉及一种利用双路径WaveNet技术的自监督异常声音检测方法。该方法通过以下步骤实现:首先,在频域路径中,WaveNet模型对输入声音信号的每个时间帧的频率信息进行建模,以捕捉声音信号的特征。
背景技术
声音作为信息传递的载体,蕴含着丰富的信息。基于声信号的检测,已经成为多个领域中不可或缺的技术手段。在工业生产中,通过对机器在运行时产生的声音进行监测和分析,不仅能够及时发现潜在的设备故障或问题,而且为采取及时维护措施提供了宝贵的机会。这一操作手段有助于降低设备停机时间,减缓设备损耗,从而显著提高整体生产效率。同时,通过预防性地解决潜在问题,还能够延长设备的使用寿命,降低计划外维护需求,有效降低生产成本。机器异常声音检测技术不仅在经济效益方面具有显著意义,同时对工作场所的安全性也产生直接积极影响。及时发现设备运行中的异常情况,使得可以提前预警潜在的安全风险。通过预防事故和减少设备故障,这项技术有助于创造更为安全的工作环境,有效保护员工免受潜在的伤害。
传统的机器异常声音检测方法主要倚赖专业领域的经验和规则,通过设定阈值或使用规则来判断声音是否异常。随着机器学习和深度学习技术的兴起,基于数据驱动的方法逐渐成为主流。通过采集大量的声音数据并利用机器学习算法进行训练,可以更准确地识别和分类异常声音。新一代的异常声音检测系统,特别是卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,能够从大规模、复杂的声音数据中提取抽象特征,实现高效的异常声音识别,提升了检测的准确性和适应性。研究者通过收集正常和异常样本,提取信号的特征,然后利用机器学习对方法提取这些样本的特征,从而实现对异常声音的检测。
尽管异常声音检测技术已取得显著进展,但在实际环境中,获取异常声音相对困难,即便通过刻意制造异常来获得异常声音样本,所得数据往往也不足以涵盖可能出现的所有异常情况;特别是对于一些需要故意破坏机器以收集异常声音的情况,这种方法不仅成本高昂,而且不切实际。面对数据的极度不平衡,使用主流的监督学习方法进行异常声音检测会导致对正常声音高准确率但存在大量异常声音的漏检测。因此,无监督的异常检测更具现实意义,它无需对数据添加正常与异常的标签,仅利用收集的机器日常运转声音,根据这些信息的分布特点对未知的异常声音进行判断,从而实现有效的异常检测。这种方法避开了异常样本稀缺和数据不平衡的问题,为异常检测系统提供了更加实际可行的解决方案,使其更灵活地适应不同的实际工业场景。
为此,研究者提出了一种无监督的ASD方法,在训练阶段仅使用正常声音数据,让模型学习正常声音的规律和特征。如图1所示,在检测阶段,模型通过计算输入声音与正常模式的偏离程度来判断其是否异常。具体来说,模型会为每个输入声音计算一个异常分数,并将其与预设的阈值比较。当异常分数超过阈值时,输入声音会被判定为异常。
实现无监督异常声音检测的主要策略包括两类:基于重构的方法和基于自监督的方法。基于重构的方法通常利用自编码器对输入的声音特征图进行重构,并将重构误差作为异常分数。在测试时,通过异常分数与阈值的比较来判断测试样本是正常还是异常。然而,这类方法在处理非平稳环境时可能遇到问题,正常声音的重构误差有时会高于异常声音。为解决这一问题,研究者提出了基于自监督的方法。该方法利用数据中的某些属性来设置一个代理任务,通过解决有监督的代理任务,从数据中学习正常信号的表征。例如通过音频文件的相关信息,如机器类型或机器ID作为标签,训练模型对其分类,使模型学到每个类别更为紧凑的特征表示。测试时将模型预测的真实类别概率值作为异常分数,判断异常分数是否超过阈值来衡量样本是否异常。
如图2所示,自监督异常声音检测方法通过设计预定义的伪监督任务,使模型在无真实标签的情况下学习到正常声音的特征分布。在训练阶段,通常利用元数据(如设备类别或环境信息)作为伪标签,构建分类任务,使模型学习正常声音之间的判别边界。在检测阶段,输入声音根据模型的分类概率进行异常检测。正常声音通常被高置信度地分类,而异常声音由于偏离正常分布,分类置信度较低。当异常分数高于设定阈值时,样本被判断为异常。
时频谱图能够将声音信号的频率分量与时间变化以二维图像的形式直观地表示,从而捕捉声音中复杂的时频结构特征。声音信号通常是非平稳的,其频率强度随时间动态变化,而时频谱图能够很好地描述这些特性,使得正常和异常声音之间的差异得以充分体现。相比直接处理一维的原始波形,时频谱图能够更清晰地揭示异常声音特有的频率分布、能量变化和谐波结构。此外,时频谱图的图像化特征使其可以直接结合深度学习中的模型,从中提取深层次特征,大幅提升检测性能。时频谱图不仅丰富了特征信息,还提高了模型对异常声音的识别能力和鲁棒性。
然而,目前大多数方法在提取时频谱图特征时,通常将其视为普通图像处理,采用二维卷积神经网络进行建模。由于二维卷积网络的感受野有限,这种局限性使其在处理时频谱图时难以捕获对异常检测至关重要的特定信息。一方面,频域中的谐波结构往往包含了重要的特征信息,例如正常声音的谐波通常呈现出稳定且规律的频率分布,而异常声音可能会打破这种规律性。然而,二维卷积网络由于感受野固定,难以有效捕捉这些跨频段的复杂谐波关系。另一方面,时域上的全局变化,例如声音信号的节奏、时序模式和动态特性,对异常检测也具有重要意义。然而,二维卷积网络更倾向于关注局部区域的特征,无法有效建模时间维度上长距离的依赖关系或动态变化趋势。因此,仅依赖二维卷积网络处理时频谱图可能导致对重要全局信息的忽略,从而影响异常检测的准确性和鲁棒性。
为此,一些研究尝试利用Transformer和WaveNet(波网)对特定维度的信息进行建模。Transformer以其强大的全局建模能力和并行处理效率,能够通过自注意力机制有效捕获频域或时域中的长距离依赖关系。然而,Transformer在处理时频谱图时往往需要大量计算资源,且其对局部特征的捕捉能力相对有限,难以充分保留频率细节或时间帧间的微妙变化。
如图3所示,WaveNet是一种以生成原始音频为初衷设计的一维卷积神经网络,在信号特征提取方面表现出了显著的能力。它的结构基于残差块,结合了膨胀卷积、门控单元、残差连接和跳跃连接,使模型能够高效捕获长距离依赖关系并保留局部信息。膨胀卷积逐步扩大感受野,使模型能够在不增加计算复杂度的情况下提取多尺度特征。残差连接增强了梯度流动和特征学习,而门控单元通过结合sigmoid和tanh函数控制信息的流动,进一步优化了模型性能。
相比之下,WaveNet通过膨胀卷积逐步扩大感受野,能够高效捕获长距离依赖,同时保留局部信息。然而,传统的WaveNet仅适用于一维信号处理,在面对二维的时频谱图时,难以直接建模时间与频率之间的复杂关联性。虽然已有方法尝试将WaveNet拓展至频域信息的建模,但这种单一维度的处理方式无法完整反映时频谱图的全局特性,特别是在异常检测任务中,频域中的谐波特征和时域中的动态变化往往密不可分。
实现思路