本技术介绍了一种从教学视频中提取语音文本的综合方法。该方法首先利用经过训练的CLDNN模型识别视频中的语音;接着,通过双重对抗网络去除识别语音中的噪声,获取清晰的语音信号;最后,使用基于Conformer架构的端到端语音识别模型进行后端处理,并对输出结果进行自然语言处理,以获得文本内容。该技术特别针对教学视频,整合了语音活动检测、语音增强和后端处理三个环节,并采用Noisy Student Training半监督学习方法,使模型能在大量无标签数据中进行有效学习。实验结果表明,该方案能显著提升文本提取的效率和准确性。
背景技术
20世纪90年代互联网初步兴起时,在线教育行业开始发展,其最大特点是创造了跨时空的学习方式。此类教育最初依靠录播传授教学内容,由教师录制视频,上传到互联网,学生在线观看或下载使用。直至如今,教学视频仍然作为在线教育的一个重要载体。
然而,视频是一种非结构化数据,传统的信息检索以文本为主要对象,这致使对教学视频内容的搜索和浏览非常困难,如何获取和管理视频数据以满足用户的搜索需求成为热点研究领域。在20世纪90年代提出的基于内容的视频分析(Content—Based VideoAnalysis,CBVA)通过对视频结构和语义内容的分析,从非结构化的视频数据中提取具有语义的内容单元作为检索对象。
语音识别是将语音信号转换为文本的过程。1952年Bell实验室的K.H.Davis等人依据对数字元音区域的共振波谱的研究,研发了世界上第一个能识别十个英文数字的Audry语音识别系统,标志着现代语音识别技术的开始[2]。进入20世纪70年代,语音识别才有了实质性的进展,出现了逐渐成为主流的隐式马尔科夫模型技术(HMM)。20世纪80年代后期,语音识别研究解决了大词汇量、连续语音和非特定人这三大障碍,其中有代表性的是卡耐基梅隆大学研发的Sphinx系统。
但教学视频存在着以下特点:(1)音频来自视频流的分离:语音信号包含诸多复杂因素如背景噪音、麦克风质量、环境因素等,因此需要在语音预处理方面对音频进行良好的降噪,增强语音信号。(2)长音频和连续音频:教学视频往往包含大段连续的音频流,这就要求在调用识别内核前,先对该类音频文件进行流畅地“断句”,因此需要在端点检测方面多加优化。
当前,在很多教学视频中已经配有字幕供用户观看,目前也存在能够基于语音识别的自动生成字幕系统,以实现自动为视频添加字幕并同步定位。但仍然没有做到文本内容与视频流的分离,并且针对在线教育领域的应用还有所不足,缺乏一种自动化的方法获得教学视频内容文本。如果通过语音识别提取出教学视频数据,就能有效扩展信息检索的范围,实现资源共享,并且用户能根据文本片段定位到视频片段,一定程度上避免了加载视频寻找教学内容。
实现思路