本技术公开了一种说话人分割聚类方法、装置、存储介质及电子装置。其中,该说话人分割聚类方法包括:使用语音识别引擎对输入语音进行分割,能够更准确的区分语音和非语言,改善了使用VAD对语音进行分割错误率高的问题,从而提高后面聚类模块的正确率,从而降低整个说话人分割系统的错误率,以至少解决现有技术中,说话人分割聚类准确率较低的技术问题。
背景技术
说话人分割聚类(Speaker Diarization),是按照说话人的身份,将不同说话人的声音区分开来的技术,解决了“谁在什么时候说了话”的问题。
目前,主流的说话人分割系统流程是:输入语音->前端处理->语音端点检测(VAD/SAD)得到语音段->对检测到的语音段提取说话人embedding信息->对embedding做聚类得到最终的聚类结果->后处理(optional)。
由于语音段端点检测(VAD)错误率高,导致最终聚类错误率高,错误包括语音漏检(miss error),语音误纳(false alarm),混淆错误(confusion)等。假如对话过程中,不同的话说人中间没有停顿,也就是一个片段内会至少出现两个以上的说话人,那么该片段的聚类结果肯定是错误的。对有强噪音的情况,VAD很容易将噪音检测成语音,这样就造成false alarm错误。假如语音的能量很低,VAD可能就检测不出语音,这样就会造成misserror
针对上述的问题,目前尚未提出有效的解决方案。
实现思路