本技术介绍了一种创新的环境声音识别技术及其系统,该技术依托度量学习框架。首先,通过收集环境声音并将其转换为梅尔频谱图。接着,对这些频谱图进行数据增强处理,以提升模型的泛化能力。此外,系统还集成了SPA模块和F模块,以实现对声音特征的深度学习和有效分类。
背景技术
环境声音分类侧重于在给定的音频信号中识别不同持续时间的各种日常音频事件,如人类的声音、动物的声音和城市噪音。这项任务具有重要的意义,并在智能设备的环境意识、城市噪声监测和安全监测方面提供了广泛的实际应用。
近年来,深度学习方法在环境声音分类任务中取得了显著进展,但仍面临一些挑战,如有限的标注数据、环境声音的多样性和复杂性,以及如何在保持高分类准确率的同时降低计算复杂度等。当前交叉熵损失已成为分类任务中最常用的损失函数之一,其一个缺点是不同类别样本之间的边界较差,这降低了由该损失函数训练的模型的泛化能力。交叉熵损失主要关注于正确分类,而不是优化类别间的距离,这可能导致不同类别的样本在特征空间中距离较近,损失函数中没有直接的项来增大不同类别样本之间的距离。
为提高分类器的判别能力,引入了对比学习。早期的对比学习方法起源于自我监督学习,采用实例辨别作为代理任务。随着技术的发展,对比学习扩展到监督和半监督学习范式,进一步利用标记数据来增强模型特征表示。对比学习损失函数,其主要思想是基于分组的正负样本设计对比损失,目标是通过拉近正样本对表示之间的距离同时使负样本对之间的表示距离彼此远离来训练DNN模型。然而,对比损失函数通常采用固定的正负样本对权重,这可能无法充分考虑数据集中存在的类内变异程度。
因此,如何有效地学习更具判别性的特征表示,以及如何设计既能提高分类性能又能降低计算复杂度的模型结构,是当前ESC研究中急需解决的问题。
实现思路