本技术方案提出了一种高效参数微调的多任务声学场景识别方法,旨在解决计算机听觉技术中声学场景分类面临的资源消耗大、数据集规模小且分布不均等问题。
背景技术
声信号是人与自然交互的重要方式,它可以传达声源事件的潜在信息,因此,声信号的应用是推动计算机听觉发展的巨大动力。声学场景分类作为计算机听觉的重要研究课题,通过分析环境声来对环境分类。其在医疗健康、取证分析、智能监测、异常检测等众多前景领域大放异彩。相较于声纹识别、语音识别等听觉任务,声学场景分类的数据集少且分布不平衡,这导致算法容易过拟合。此外,从不同城市采用不同设备采集的数据集,其同一场景的特征分布存在偏差,这使模型存在仅对单一设备的声学场景分类效果好的问题。因此,提取出更具判别力、鲁棒性和紧凑性的声学特征至关重要。
设计适合声学场景分类的专属网络难度极高,而集成算法不仅模型参数多,还受嵌入策略和超参数的制约。即便嵌入后再进行模型压缩,量化过程中又会引入新的噪声,模型精度反而下降。与此同时,微调预训练模型这一流行的迁移学习范式,虽然避免了设计专属网络的复杂过程,但却耗费了巨大的参数资源。
实现思路