一种模型训练的方法、语音播放的方法、装置及存储介质制造方法及图纸

技术编号：26036720 阅读：25 留言：0更新日期：2020-10-23 21:15

本申请公开了一种模型训练的方法、语音播放的方法、装置及存储介质，应用于人工智能云服务领域。本申请方法包括：获取待训练语音数据集合；当N满足语音训练数量阈值，获取语音模型训练指令；响应于语音模型训练指令，基于待训练语音数据集合，通过待训练语音模型获取预测语音数据集合；基于预测语音数据集合以及待训练语音数据集合，对待训练语音模型进行训练，得到目标语音模型；发送目标语音模型，以使得终端设备存储目标语音模型。本申请提升语音模型生成的灵活性，且满足用户对声音的定制需求，其次，用户进行语音播放时语音模型选择可能性提升，从而提升语音播放的灵活性，进而提升用户的语音播放体验以及灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练的方法、语音播放的方法、装置及存储介质
本申请涉及人工智能云服务领域，尤其涉及一种模型训练的方法、语音播放的方法、装置及存储介质。
技术介绍
随着互联网信息技术的快速发展，以及生活质量的不断提高，智能化的终端设备广泛应用于人们的生活中，而用户对智能化的终端设备的需求也日渐增加。为了满足用户在不同终端设备的个性化体验，产生了基于人工智能完成语音播放的方式。目前，语音播放的方式通常是通过将发声人(比如某公众明星)语音模型数据集成于终端设备，通过用户选择想要的发声人，终端设备将用户所选择的发声人的声音与所需语音播放的文本信息进行合成，从而得到目标语音数据，使得终端设备播放该目标语音数据，从而完成进行语音播放。然而，由于语音模型集成于终端设备，用于仅能选择集成于终端设备的语音模型，因此降低语音模型的可选择性以及灵活性，从而降低了语音播放的灵活性。
技术实现思路
本申请实施例提供了一种模型训练的方法、语音播放的方法、装置及存储介质，用于提升语音模型生成的灵活性，且用户进行语音播放时语音模型选择可能性提升，从而提升语音播放的灵活性。有鉴于此，本申请一方面提供一种模型训练的方法，包括：获取待训练语音数据集合，其中，待训练语音数据集合包括N个待训练语音数据，N为大于，或者等于1的正整数；当N满足语音训练数量阈值，获取语音模型训练指令；响应于语音模型训练指令，基于待训练语音数据集合，通过待训练语音模型获取预测语音数据集合，其中，预测语音数据集合包括N个预测...

【技术保护点】
1.一种模型训练的方法，其特征在于，包括：/n获取待训练语音数据集合，其中，所述待训练语音数据集合包括N个待训练语音数据，N为大于，或者等于1的正整数；/n当N满足语音训练数量阈值，获取语音模型训练指令；/n响应于所述语音模型训练指令，基于所述待训练语音数据集合，通过待训练语音模型获取预测语音数据集合，其中，所述预测语音数据集合包括N个预测语音数据，且所述预测语音数据与所述待训练语音数据具有对应关系；/n基于所述预测语音数据集合以及所述待训练语音数据集合，对所述待训练语音模型进行训练，得到目标语音模型；/n发送所述目标语音模型，以使得终端设备存储所述目标语音模型。/n

【技术特征摘要】
1.一种模型训练的方法，其特征在于，包括：
获取待训练语音数据集合，其中，所述待训练语音数据集合包括N个待训练语音数据，N为大于，或者等于1的正整数；
当N满足语音训练数量阈值，获取语音模型训练指令；
响应于所述语音模型训练指令，基于所述待训练语音数据集合，通过待训练语音模型获取预测语音数据集合，其中，所述预测语音数据集合包括N个预测语音数据，且所述预测语音数据与所述待训练语音数据具有对应关系；
基于所述预测语音数据集合以及所述待训练语音数据集合，对所述待训练语音模型进行训练，得到目标语音模型；
发送所述目标语音模型，以使得终端设备存储所述目标语音模型。

2.根据权利要求1所述的方法，其特征在于，所述获取待训练语音数据集合，包括：
获取语音服务请求；
响应于所述语音服务请求，向所述终端设备发送语音数据收集指令，以使得所述终端设备响应于所述语音数据收集指令，获取待检测语音数据，其中，所述待检测语音数据是基于语音训练文本得到的，所述语音训练文本是根据所述语音数据收集指令获取的；
当所述待检测语音数据满足语音训练合格条件，确定待训练语音数据；
基于所述待训练语音数据，生成所述待训练语音数据集合。

3.根据权利要求1所述的方法，其特征在于，所述基于所述预测语音数据集合以及所述待训练语音数据集合，对所述待训练语音模型进行训练，得到所述目标语音模型，包括：
基于所述预测语音数据集合以及所述待训练语音数据集合，根据目标损失函数更新所述待训练语音模型的模型参数；
若所述目标损失函数达到收敛，则根据所述模型参数生成所述目标语音模型。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：
获取语音播放请求，其中，所述语音播放请求携带待解析语音数据；
根据所述待解析语音数据获取服务内容文本数据，其中，所述服务内容文本数据与所述待解析语音数据对应；
根据所述服务内容文本数据获取无音色语音数据，其中，所述无音色语音数据是对所述服务内容文本数据进行语音合成后得到的；
向终端设备发送所述无音色语音数据，以使得所述终端设备根据所述无音色语音数据以及所述目标语音模型生成目标语音数据，并播放所述目标语音数据。

5.一种语音播放的方法，其特征在于，包括：
检测针对于语音播放的操作，发送语音播放请求，以使得服务器基于待解析语音数据获取服务内容文本数据，根据所述服务内容文本数据获取无音色语音数据，其中，所述语音播放请求携带待解析语音数据，所述服务内容文本数据是根据所述待解析语音数据获取的，所述无音色语音数据是对所述服务内容文本数据进行语音合成后得到的；

【专利技术属性】
技术研发人员：杨治银，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人