本技术涉及语音信号处理技术领域,尤其涉及一种语音信号降噪方法、系统及设备。所述方法包括以下步骤:对待处理语音信号数据进行自适应分帧处理,得到分帧语音信号数据;根据分帧语音信号数据进行语义嵌入空间处理,得到语义嵌入空间数据;根据语义嵌入空间数据进行语义矢量场构建,生成语音语义矢量场数据;对语音语义矢量场数据进行语音噪声区域标记,生成语义噪声区域数据;根据语义噪声区域数据进行噪音帧修复处理,生成降噪语音信号数据;对降噪语音信号数据进行听觉掩蔽频谱修正,生成增强语音信号数据。本发明通过语义信息精准引导语音信号降噪,即使在低信噪比等复杂场景下,依然能够取得卓越的降噪效果,显著提升用户体验。
背景技术
随着信息技术的快速发展,语音通信和语音识别技术在各个领域得到了广泛应用。特别是在智能手机、智能助手以及远程会议等场景中,清晰的语音信号传输和处理至关重要。然而,在实际应用中,语音信号常常受到各种噪声干扰,这些噪声可以来自环境(如交通噪声、人群喧哗等)或设备本身(如麦克风质量不佳、信号传输不稳定等)。这些噪声会显著降低语音信号的清晰度和可懂度,甚至导致信息传递错误。然而,传统的语音信号降噪方法主要包括谱减法、维纳滤波法、卡尔曼滤波法等,这些方法在一定程度上能够减少背景噪声的干扰,但往往存在降噪效果不理想和语音失真等问题,尤其在处理低信噪比音频时,容易将微弱语音信号过度抑制,导致语音难以听清楚,影响用户体验。
实现思路