本技术介绍了一种在低计算资源条件下实现的多级流式语音识别技术,通过整合RNN-T和CTC两种流式语音识别架构,创新性地提出了一种多级混合架构,实现了对RNN资源的高效复用,以提升语音识别的准确性和效率。
背景技术
深度学习技术的发展带动了语音识别技术的进步,当前服务端语音识别技术已经取得了极大的突破,在识别准确率方面已经超越了人类,但是端侧语音识别技术由于受到端侧计算资源的限制,不能够表现出如同服务器端语音识别技术的强大识别性能,在更极端的低计算资源情况下,语音识别功能甚至无法正常启用。流式语音识别是指将语音信息连续的送入语音识别模型,然后流式的输出语音识别文本结果,实现说话人一边说话,识别文本一边输出的效果,当模型处理一帧语音时间低于一帧语音本身的时长,就能够达到实时的效果,语音识别的延迟基本可以忽略不计,但是由于语音识别模型的复杂度,模型是否支持流式架构,以及端侧可提供的算力资源的影响,当前许多主流语音识别模型并不支持低计算资源端侧流式语音识别功能要求,在端侧设备算力受限制情况下,无法完成语音识别功能或者出现用户无法接受的识别延迟。当前主流的流式语音识别技术架构为RNN-T架构,包含编码器,解码器以及连接器三个部分组成,编码器负责处理音频声学相关信息,解码器负责处理语言学相关信息,连接器将编码器解码器输出信息结合作为输入,最终计算出文本预测。
CTC架构也是当前主流流式语音识别架构之一,其只包含编码器组成,编码器直接将音频处理为文本预测概率,相较于RNN-T架构而言具有更低的复杂度,只是CTC架构缺乏上下文文本信息输入,识别准确率会有所下降。
实现思路