一种模型训练的方法、语音播放的方法、装置及存储介质制造方法及图纸

技术编号:26036720 阅读:25 留言:0更新日期:2020-10-23 21:15
本申请公开了一种模型训练的方法、语音播放的方法、装置及存储介质,应用于人工智能云服务领域。本申请方法包括:获取待训练语音数据集合;当N满足语音训练数量阈值,获取语音模型训练指令;响应于语音模型训练指令,基于待训练语音数据集合,通过待训练语音模型获取预测语音数据集合;基于预测语音数据集合以及待训练语音数据集合,对待训练语音模型进行训练,得到目标语音模型;发送目标语音模型,以使得终端设备存储目标语音模型。本申请提升语音模型生成的灵活性,且满足用户对声音的定制需求,其次,用户进行语音播放时语音模型选择可能性提升,从而提升语音播放的灵活性,进而提升用户的语音播放体验以及灵活性。

【技术实现步骤摘要】
一种模型训练的方法、语音播放的方法、装置及存储介质
本申请涉及人工智能云服务领域,尤其涉及一种模型训练的方法、语音播放的方法、装置及存储介质。
技术介绍
随着互联网信息技术的快速发展,以及生活质量的不断提高,智能化的终端设备广泛应用于人们的生活中,而用户对智能化的终端设备的需求也日渐增加。为了满足用户在不同终端设备的个性化体验,产生了基于人工智能完成语音播放的方式。目前,语音播放的方式通常是通过将发声人(比如某公众明星)语音模型数据集成于终端设备,通过用户选择想要的发声人,终端设备将用户所选择的发声人的声音与所需语音播放的文本信息进行合成,从而得到目标语音数据,使得终端设备播放该目标语音数据,从而完成进行语音播放。然而,由于语音模型集成于终端设备,用于仅能选择集成于终端设备的语音模型,因此降低语音模型的可选择性以及灵活性,从而降低了语音播放的灵活性。
技术实现思路
本申请实施例提供了一种模型训练的方法、语音播放的方法、装置及存储介质,用于提升语音模型生成的灵活性,且用户进行语音播放时语音模型选择可能性提升,从而提升语音播放的灵活性。有鉴于此,本申请一方面提供一种模型训练的方法,包括:获取待训练语音数据集合,其中,待训练语音数据集合包括N个待训练语音数据,N为大于,或者等于1的正整数;当N满足语音训练数量阈值,获取语音模型训练指令;响应于语音模型训练指令,基于待训练语音数据集合,通过待训练语音模型获取预测语音数据集合,其中,预测语音数据集合包括N个预测语音数据,且预测语音数据与待训练语音数据具有对应关系;基于预测语音数据集合以及待训练语音数据集合,对待训练语音模型进行训练,得到目标语音模型;发送目标语音模型,以使得终端设备存储目标语音模型。本申请另一方面提供一种语音播放的方法,包括:检测针对于语音播放的操作,发送语音播放请求,以使得服务器基于待解析语音数据获取服务内容文本数据,根据服务内容文本数据获取无音色语音数据,其中,语音播放请求携带待解析语音数据,服务内容文本数据是根据待解析语音数据获取的,无音色语音数据是对服务内容文本数据进行语音合成后得到的;接收无音色语音数据;根据无音色语音数据以及目标语音模型生成目标语音数据,其中,目标语音模型是基于预测语音数据集合以及待训练语音数据集合,对待训练语音模型进行训练得到的,预测语音数据集合是服务器响应于语音模型训练指令,基于待训练语音数据集合,通过待训练语音模型获取的;播放目标语音数据。本申请另一方面提供一种模型训练装置,包括:获取模块,用于获取待训练语音数据集合,其中,待训练语音数据集合包括N个待训练语音数据,N为大于,或者等于1的正整数;获取模块,还用于当N满足语音训练数量阈值,获取语音模型训练指令;获取模块,还用于响应于语音模型训练指令,基于待训练语音数据集合,通过待训练语音模型获取预测语音数据集合,其中,预测语音数据集合包括N个预测语音数据,且预测语音数据与待训练语音数据具有对应关系;训练模块,用于基于预测语音数据集合以及待训练语音数据集合,对待训练语音模型进行训练,得到目标语音模型;发送模块,用于发送目标语音模型,以使得终端设备存储目标语音模型。在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,获取模块,具体用于获取语音服务请求;响应于语音服务请求,向终端设备发送语音数据收集指令,以使得终端设备响应于语音数据收集指令,获取待检测语音数据,其中,待检测语音数据是基于语音训练文本得到的,语音训练文本是根据语音数据收集指令获取的;当待检测语音数据满足语音训练合格条件,确定待训练语音数据;基于待训练语音数据,生成待训练语音数据集合。在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,训练模块,具体用于基于预测语音数据集合以及待训练语音数据集合,根据目标损失函数更新待训练语音模型的模型参数;若目标损失函数达到收敛,则根据模型参数生成目标语音模型。在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,获取模块,还用于获取语音播放请求,其中,语音播放请求携带待解析语音数据;获取模块,还用于根据待解析语音数据获取服务内容文本数据,其中,服务内容文本数据与待解析语音数据对应;获取模块,还用于根据服务内容文本数据获取无音色语音数据,其中,无音色语音数据是对服务内容文本数据进行语音合成后得到的;发送模块,还用于向终端设备发送无音色语音数据,以使得终端设备根据无音色语音数据以及目标语音模型生成目标语音数据,并播放目标语音数据。本申请另一方面提供一种语音播放装置,包括:发送模块,用于检测针对于语音播放的操作,发送语音播放请求,以使得服务器基于待解析语音数据获取服务内容文本数据,根据服务内容文本数据获取无音色语音数据,其中,语音播放请求携带待解析语音数据,服务内容文本数据是根据待解析语音数据获取的,无音色语音数据是对服务内容文本数据进行语音合成后得到的;获取模块,用于获取无音色语音数据;生成模块,用于根据无音色语音数据以及目标语音模型生成目标语音数据,其中,目标语音模型是基于预测语音数据集合以及待训练语音数据集合,对待训练语音模型进行训练得到的,预测语音数据集合是服务器响应于语音模型训练指令,基于待训练语音数据集合,通过待训练语音模型获取的;播放模块,用于播放目标语音数据。在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,发送模块,还用于检测针对于语音服务的操作,发送语音服务请求;获取模块,还用于当服务器响应于语音服务请求,获取语音数据收集指令;获取模块,还用于响应于语音数据收集指令,且待检测语音数据满足噪声合格条件时,获取待检测语音数据,其中,待检测语音数据是基于语音训练文本得到的,语音训练文本是根据语音数据收集指令获取的;发送模块,还用于发送待检测语音数据,以使得服务器基于待检测语音数据,生成待训练语音数据集合,待训练语音数据集合包括N个待训练语音数据,N为大于,或者等于1的正整数。在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,语音播放装置还包括存储模块,发送模块,还用于当N满足语音训练数量阈值,发送语音模型训练指令,以使得服务器得到目标语音模型;获取模块,还用于获取目标语音模型;存储模块,用于存储目标语音模型。在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,获取模块,还用于获取语音数据收集状态信息,其中,语音数据收集状态信息用于指示正在获取待检测语音数据;获取模块,还用于获取语音数据收集完成状态信息,其中,语音数据收集完成状态信息用于指示语音数据已完成获取,且可以开始训练目标语音模型;获取模块,还用于获取目标语音模型训练状态信息本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:/n获取待训练语音数据集合,其中,所述待训练语音数据集合包括N个待训练语音数据,N为大于,或者等于1的正整数;/n当N满足语音训练数量阈值,获取语音模型训练指令;/n响应于所述语音模型训练指令,基于所述待训练语音数据集合,通过待训练语音模型获取预测语音数据集合,其中,所述预测语音数据集合包括N个预测语音数据,且所述预测语音数据与所述待训练语音数据具有对应关系;/n基于所述预测语音数据集合以及所述待训练语音数据集合,对所述待训练语音模型进行训练,得到目标语音模型;/n发送所述目标语音模型,以使得终端设备存储所述目标语音模型。/n

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
获取待训练语音数据集合,其中,所述待训练语音数据集合包括N个待训练语音数据,N为大于,或者等于1的正整数;
当N满足语音训练数量阈值,获取语音模型训练指令;
响应于所述语音模型训练指令,基于所述待训练语音数据集合,通过待训练语音模型获取预测语音数据集合,其中,所述预测语音数据集合包括N个预测语音数据,且所述预测语音数据与所述待训练语音数据具有对应关系;
基于所述预测语音数据集合以及所述待训练语音数据集合,对所述待训练语音模型进行训练,得到目标语音模型;
发送所述目标语音模型,以使得终端设备存储所述目标语音模型。


2.根据权利要求1所述的方法,其特征在于,所述获取待训练语音数据集合,包括:
获取语音服务请求;
响应于所述语音服务请求,向所述终端设备发送语音数据收集指令,以使得所述终端设备响应于所述语音数据收集指令,获取待检测语音数据,其中,所述待检测语音数据是基于语音训练文本得到的,所述语音训练文本是根据所述语音数据收集指令获取的;
当所述待检测语音数据满足语音训练合格条件,确定待训练语音数据;
基于所述待训练语音数据,生成所述待训练语音数据集合。


3.根据权利要求1所述的方法,其特征在于,所述基于所述预测语音数据集合以及所述待训练语音数据集合,对所述待训练语音模型进行训练,得到所述目标语音模型,包括:
基于所述预测语音数据集合以及所述待训练语音数据集合,根据目标损失函数更新所述待训练语音模型的模型参数;
若所述目标损失函数达到收敛,则根据所述模型参数生成所述目标语音模型。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
获取语音播放请求,其中,所述语音播放请求携带待解析语音数据;
根据所述待解析语音数据获取服务内容文本数据,其中,所述服务内容文本数据与所述待解析语音数据对应;
根据所述服务内容文本数据获取无音色语音数据,其中,所述无音色语音数据是对所述服务内容文本数据进行语音合成后得到的;
向终端设备发送所述无音色语音数据,以使得所述终端设备根据所述无音色语音数据以及所述目标语音模型生成目标语音数据,并播放所述目标语音数据。


5.一种语音播放的方法,其特征在于,包括:
检测针对于语音播放的操作,发送语音播放请求,以使得服务器基于待解析语音数据获取服务内容文本数据,根据所述服务内容文本数据获取无音色语音数据,其中,所述语音播放请求携带待解析语音数据,所述服务内容文本数据是根据所述待解析语音数据获取的,所述无音色语音数据是对所述服务内容文本数据进行语音合成后得到的;

【专利技术属性】
技术研发人员:杨治银
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1