本技术涉及人工智能云服务领域,提供了一种模型训练和语音播放的方法、装置及存储介质。该技术包括获取待训练的语音数据集合,并在满足特定训练数量阈值时,进行数据获取和训练流程,以优化语音识别和播放效果。
背景技术
随着互联网信息技术的快速发展,以及生活质量的不断提高,智能化的终端设备广泛应用于人们的生活中,而用户对智能化的终端设备的需求也日渐增加。为了满足用户在不同终端设备的个性化体验,产生了基于人工智能完成语音播放的方式。
目前,语音播放的方式通常是通过将发声人(比如某公众明星)语音模型数据集成于终端设备,通过用户选择想要的发声人,终端设备将用户所选择的发声人的声音与所需语音播放的文本信息进行合成,从而得到目标语音数据,使得终端设备播放该目标语音数据,从而完成进行语音播放。
然而,由于语音模型集成于终端设备,用于仅能选择集成于终端设备的语音模型,因此降低语音模型的可选择性以及灵活性,从而降低了语音播放的灵活性。
实现思路