深度学习技术在录播教室语音增强中的应用 深度学习技术在录播教室语音增强中的应用
本技术公开了一种基于深度学习的录播教室语音增强方法,用于对录播教室内采集的语音信号进行增强处理,以提高录播教室音频清晰度和音频信息可懂度。本发明在传统的深度复卷积神经网络的基础上,提出了一种基于时频长短时记忆网络(F‑T‑LSTM)和混合注意力机制的改进网络结构模型。该模型在深度复卷积递归网络上进行改进,通过引入F‑T‑LSTM结构更加准确地描述语音时域和频域的相关性,并融合通道注意力机制和空间注意力机制形成混合注意力机制,对复数域的语音特征进行更加全面的特征提取,巧妙地将计算力集中于语谱图特征信息最为丰富的领域,从而显著提高复数域下语音增强网络的整体性能,该网络模型具有较好的泛化能力。
车站服务机器人:基于乘客意图识别的智能语音问答系统 车站服务机器人:基于乘客意图识别的智能语音问答系统
本技术涉及语音处理技术领域,且公开了一种基于乘客出行意图识别的车站服务机器人语音问答系统包括语料库构建模块、出行问答语音触发词判别模块、乘客出行意图识别模块、多轮问答生成模块和集成云计算的语音问答界面。该系统结合了先进的语音处理、自然语言理解和云计算技术,实现了从语音输入到意图识别、问答生成的完整流程,这种创新的技术融合不仅提高了问答系统的性能,还为乘客提供了更加便捷和智能的出行服务,通过集成云计算和智能提示,能够根据乘客的需求提供智能化的服务和提示。此外,系统还支持多语言和语种,能够根据乘客的语言偏好自动切换界面语言,满足了不同地区乘客的多样化需求。
深度学习技术在含噪语音情感识别中的应用 深度学习技术在含噪语音情感识别中的应用
本技术属于深度学习中的语音信号处理领域,具体涉及一种基于深度学习的含噪语音情感识别方法,本方法首先将可学习的多特征进行融合作为模型的输入,提升模型任务相关的学习性能;其次引入混合声谱图分块的操作,并逐块的计算多头注意力用以捕获局部的情感信息,实验证明,分块操作可以有效的规避局部噪声带来的干扰问题;最后,本发明将逐帧计算注意力的全局上下文信息与局部情感信息加以融合,促进了模型对于上下文语义上的理解,提高了分类准确性。
基于Transformer的母牛发情声谱图特征学习方法及设备 基于Transformer的母牛发情声谱图特征学习方法及设备
本技术公开了一种基于Transformer声谱图特征学习的母牛发情检测方法及装置,方法包括:将采集母牛声音数据分割为等时长的声音片段并进行降噪;对降噪后的声音片段进行标注;将所有降噪后的声音片段转换为梅尔声谱图并进行数据增强;构建基于Transformer的声谱图特征学习模型,利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;构建基于通道注意力机制的母牛发情声音事件检测模型,以梅尔声谱图的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。本发明利用注意力机制对母牛的声音事件进行识别与定位,实现基于声音信号的母牛发情事件检测。
流式语音识别技术:注意力机制与边界检测的融合 流式语音识别技术:注意力机制与边界检测的融合
本技术属于语音识别领域,涉及一种基于注意力与边界检测的非流式模型流式语音识别方法,包括:分割音频片段,并对音频片段进行特征提取,生成对数梅尔频谱图;使用非流式语音模型Whisper对音频片段进行转录,提取每帧音频在模型中的交叉注意力,获得对应的注意力权重;设定长度为的滑动窗口,计算窗口内各帧的平均注意力权重。当某窗口的最大平均注意力权重距离音频结束帧的距离小于设定阈值时,控制模型停止解码;使用词边界检测模块,对解码内容进行检测,判断停止解码时是否存在截断的转录词,从而确保正确输出转录结果。同时根据边界检测情况动态调整阈值,以实现精准高效的实时语音识别。
多任务驱动的英语发音训练系统与方法 多任务驱动的英语发音训练系统与方法
本技术属于语音识别和语音评估领域,提供了一种基于多任务学习的英语辅助发音训练方法及系统,获取待评估的英语发音音频;对所述英语发音音频进行预处理,提取音频特征,得到英语发音的深度特征向量;利用预训练的自动发音评估模型对深度特征向量进行多粒度评估,确定音素级、单词级和句子级的发音评估结果;利用预训练的发音检测与诊断模型对深度特征向量进行音素识别并计算英语发音的音素错误率;在自动发音评估模型和发音检测与诊断模型的训练过程中,联合优化自动发音评估和错误发音检测与诊断的损失。本发明充分利用自动发音评估和错误发音检测与诊断任务的相关性,提高了发音评估的准确率。
脉冲神经网络驱动的音频事件识别技术 脉冲神经网络驱动的音频事件识别技术
本文涉及一种基于脉冲神经网络的未知音频事件识别算法,它包括如下步骤:构建音频数据集,并拆分为训练集、验证集和测试集;对音频数据集中的每段音频数据进行预处理,生成3D log‑mel频谱图;构建脉冲神经网络模型并进行分类训练;使用交叉熵损失和对比损失联合训所述脉冲神经网络模型;使用验证集中的已知类别的音频数据输入至脉冲神经网络和自编码器,获得区分已知类别和未知音频类别的阈值;使用训练好的脉冲神经网络模型对采集的音频数据进行识别。本技术能够在不依赖于预先标注的未知类别信息的情况下,有效地识别和区分未知的声音事件,提高系统的整体识别的准确率,并为后续的未知声音事件分析和处理提供支持。
多通道语音分离技术:多尺度特征融合方法与设备 多通道语音分离技术:多尺度特征融合方法与设备
本技术公开了一种基于多尺度特征通道融合的多通道语音分离方法及设备,方法包括:获取若干具有不同噪声、混响和说话人的多通道混合语音信号形成训练数据集;构建基于多尺度特征通道融合的多通道语音分离网络,具体包括高维特征提取模块、空间特征提取模块、多尺度特征提取模块、基于特征通道融合的卷积分离网络、语音重构模块;将所述训练数据集输入所述多通道语音分离网络,进行网络训练;将待分离的含噪含混响含多个说话人的混合多通道语音信号输入训练好的多通道语音分离网络,得到各个说话人的单通道语音信号。本发明分离能力和泛化能力更强。
基于距离度量学习的高效说话人识别技术 基于距离度量学习的高效说话人识别技术
本技术提出一种基于距离相关的度量学习的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,对训练语音预处理,提取每条语音的说话人嵌入,采用基于距离相关的度量学习方法训练打分模型;在说话人确认阶段,给定两条待测语音,通过基于距离相关的度量学习方法训练得到的打分模型,得到两条语音的距离,从而判断是否是同一个人说的。本发明在对说话人嵌入进行打分时,根据说话人嵌入之间的距离不同,给予不同的度量函数,可以提高说话人确认的准确率。
使用CatBoost算法的音频信号处理技术与设备 使用CatBoost算法的音频信号处理技术与设备
一种基于机器学习算法catboost的音频信号处理方法及装置,属于音频信号处理、计算机技术领域。采用空间定向接收阵列对音源的实时音频信号进行采集,采用信号预处理系统对采集到的所述实时音频信号进行预处理,将预处理后的数据作为机器学习算法CatBoost的输入数据。本技术采用空间定向接收阵列布置信号接收器,由于改进后的空间定向接收阵列的布置方式使得信号的衰落和干扰减少,进而提高了信号接收质量的效果。同时,本技术方案充分利用了机器学习算法CatBoost擅长处理类别型特征的特点,将机器学习算法CatBoost应用于音频信号处理领域,获得了在保持类别信息的同时能够很好地处理数据的缺失值和异常值的有益效果。
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工