一种语音合成方法及装置、存储介质及电子设备制造方法及图纸

技术编号:36981468 阅读:11 留言:0更新日期:2023-03-25 18:00
本发明专利技术提供一种语音合成方法及装置、存储介质及电子设备,该方法包括:获取待合成文本的音素信息,该音素信息中包含待合成文本中每个文本单元的音素,以及包含该待合成文本中需要调整发音的文本单元的位置信息,文本单元为单词或单字;获取配音人员的身份信息,基于所述身份信息确定音色信息;调用预先训练完成的声学模型对音素信息和音色信息进行处理,得到待合成文本中需要调整发音的文本单元的声学特征;应用声学特征合成待合成文本的拟人化音频。应用本发明专利技术可以对待合成文本中的文本单元的发音进行调整,以使得音频中包含丰富的语气,合成的音频更加的拟人化,为用户提供更加优质的服务,提高用户的使用体验。提高用户的使用体验。提高用户的使用体验。

【技术实现步骤摘要】
一种语音合成方法及装置、存储介质及电子设备


[0001]本专利技术涉及语音合成
,特别涉及一种语音合成方法及装置、存储介质及电子设备。

技术介绍

[0002]语音合成应用在多种业务或是场景中,为用户提供语音服务,例如在人机交互、小说阅读等场景应用语音合成,可以为用户提供拟人化服务,进而为用户提供更好的服务。
[0003]专利技术人研究发现,目前应用语音合成的业务或是场景中合成的语音能够输出高清晰、高音色相似度的音频,但是目前合成的音频的语气较为平淡,合成的音频在拟人化方面存在语气不够丰富的问题,易引起用户反感,降低用户的使用体验。

技术实现思路

[0004]有鉴于此,本专利技术提供一种语音合成方法及装置、存储介质及电子设备,用于合成语气丰富的音频,为用户提供更好的服务,提高用户的使用体验。
[0005]为实现上述目的,本专利技术实施例提供如下技术方案:
[0006]本专利技术第一方面公开一种语音合成方法,包括:
[0007]获取待合成文本的音素信息,所述音素信息中包含所述待合成文本中每个文本单元的音素,以及包含所述待合成文本中需要调整发音的文本单元的位置信息,所述文本单元为单词或单字;
[0008]获取配音人员的身份信息,基于所述身份信息确定音色信息;
[0009]调用预先训练完成的声学模型对所述音素信息和所述音色信息进行处理,得到所述待合成文本中需要调整发音的文本单元的声学特征;
[0010]应用所述声学特征合成所述待合成文本的拟人化音频
[0011]上述的方法,可选的,所述获取待合成文本的音素信息,包括:
[0012]接收待合成文本;
[0013]对所述待合成文本进行文本转音素处理,得到包含所述待合成文本的音素序列;
[0014]获取所述待合成文本的发音调整位置序列,并将所述发音调整位置序列和所述音素序列确定为所述待合成文本的音素信息。
[0015]上述的方法,可选的,所述获取待合成文本的音素信息,包括:
[0016]接收待合成文本;
[0017]接收所述待合成文本的发音调整数据,所述发音调整数据中包含所述待合成文本中指定调整发音的文本单元的位置信息;
[0018]基于所述发音调整数据,对所述待合成文本进行文本转音素处理,得到所述待合成文本的音素信息。
[0019]上述的方法,可选的,训练声学模型的过程,包括:
[0020]获取多个样本文本的样本音素信息,所述样本音素信息中包含所述样本文本中每
个文本单元的音素,以及所述样本文本中调整过发音的文本单元的标记信息;每个所述样本文本存在对应的配音梅尔频谱;
[0021]确定每个所述样本文本的配音梅尔频谱所属的配音人员;
[0022]获取每个所述配音人员的音色信息;
[0023]将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型;
[0024]触发所述初始声学模型对每个所述样本文本的样本音素信息和该样本文本对应的音色信息进行处理,得到每个所述样本文本的预测梅尔频谱;
[0025]基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱,判断所述初始声学模型是否满足预设的收敛条件;
[0026]当确定所述初始声学模型未满足所述收敛条件时,更新所述初始声学模型的模型参数,并将更新后的初始声学模型作为新的初始声学模型,返回执行将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型的步骤;
[0027]当确定所述初始声学模型满足所述收敛条件时,将该初始声学模型确定为训练完成的声学模型。
[0028]上述的方法,可选的,所述基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱,判断所述初始声学模型是否满足预设的收敛条件,包括:
[0029]确定每个所述样本文本的预测梅尔频谱和配音梅尔频谱的误差值;
[0030]基于各个所述误差值确定误差均值;
[0031]判断所述误差均值是否小于或等于预设损失值;
[0032]当所述误差均值小于或等于所述预设损失值时,确定所述初始声学模型满足所述收敛条件;
[0033]当所述误差均值大于所述预设损失值时,确定所述初始声学模型不满足所述收敛条件。
[0034]上述的方法,可选的,所述更新所述初始声学模型的模型参数,包括:
[0035]基于所述误差均值更新所述初始声学模型中的模型参数。
[0036]本专利技术第二方面公开一种语音合成装置,包括:
[0037]第一获取单元,用于获取待合成文本的音素信息,所述音素信息中包含所述待合成文本中每个文本单元的音素,以及包含所述待合成文本中需要调整发音的文本单元的位置信息,所述文本单元为单词或单字;
[0038]第一确定单元,用于获取配音人员的身份信息,基于所述身份信息确定音色信息;
[0039]处理单元,用于调用预先训练完成的声学模型对所述音素信息和所述音色信息进行处理,得到所述待合成文本中需要调整发音的文本单元的声学特征;
[0040]合成单元,用于应用所述声学特征合成所述待合成文本的拟人化音频。
[0041]上述的装置,可选的,所述第一获取单元,包括:
[0042]第一接收模块,用于接收待合成文本;
[0043]第一处理模块,用于对所述待合成文本进行文本转音素处理,得到包含所述待合成文本的音素序列;
[0044]获取模块,用于获取所述待合成文本的发音调整位置序列,并将所述发音调整位置序列和所述音素序列确定为所述待合成文本的音素信息。
[0045]上述的装置,可选的,所述第一获取单元,包括:
[0046]第二接收模块,用于接收待合成文本;
[0047]第三接收模块,用于接收所述待合成文本的发音调整数据,所述发音调整数据中包含所述待合成文本中指定调整发音的文本单元的位置信息;
[0048]第二处理模块,用于基于所述发音调整数据,对所述待合成文本进行文本转音素处理,得到所述待合成文本的音素信息。
[0049]上述的装置,可选的,还包括:
[0050]第二获取单元,用于获取多个样本文本的样本音素信息,所述样本音素信息中包含所述样本文本中每个文本单元的音素,以及所述样本文本中调整过发音的文本单元的标记信息;每个所述样本文本存在对应的配音梅尔频谱;
[0051]第二确定单元,用于确定每个所述样本文本的配音梅尔频谱所属的配音人员;
[0052]第三获取单元,用于获取每个所述配音人员的音色信息;
[0053]输入单元,用于将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型;
[0054]触发单元,用于触发所述初始声学模型对每个所述样本文本的样本音素信息和该样本文本对应的音色信息进行处理,得到每个所述样本文本的预测梅尔频谱;
[0055]判断单元,用于基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱,判断所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成文本的音素信息,所述音素信息中包含所述待合成文本中每个文本单元的音素,以及包含所述待合成文本中需要调整发音的文本单元的位置信息,所述文本单元为单词或单字;获取配音人员的身份信息,基于所述身份信息确定音色信息;调用预先训练完成的声学模型对所述音素信息和所述音色信息进行处理,得到所述待合成文本中需要调整发音的文本单元的声学特征;应用所述声学特征合成所述待合成文本的拟人化音频。2.根据权利要求1所述的方法,其特征在于,所述获取待合成文本的音素信息,包括:接收待合成文本;对所述待合成文本进行文本转音素处理,得到包含所述待合成文本的音素序列;获取所述待合成文本的发音调整位置序列,并将所述发音调整位置序列和所述音素序列确定为所述待合成文本的音素信息。3.根据权利要求1所述的方法,其特征在于,所述获取待合成文本的音素信息,包括:接收待合成文本;接收所述待合成文本的发音调整数据,所述发音调整数据中包含所述待合成文本中指定调整发音的文本单元的位置信息;基于所述发音调整数据,对所述待合成文本进行文本转音素处理,得到所述待合成文本的音素信息。4.根据权利要求1所述的方法,其特征在于,训练声学模型的过程,包括:获取多个样本文本的样本音素信息,所述样本音素信息中包含所述样本文本中每个文本单元的音素,以及所述样本文本中调整过发音的文本单元的标记信息;每个所述样本文本存在对应的配音梅尔频谱;确定每个所述样本文本的配音梅尔频谱所属的配音人员;获取每个所述配音人员的音色信息;将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型;触发所述初始声学模型对每个所述样本文本的样本音素信息和该样本文本对应的音色信息进行处理,得到每个所述样本文本的预测梅尔频谱;基于每个所述样本文本的预测梅尔频谱和配音梅尔频谱,判断所述初始声学模型是否满足预设的收敛条件;当确定所述初始声学模型未满足所述收敛条件时,更新所述初始声学模型的模型参数,并将更新后的初始声学模型作为新的初始声学模型,返回执行将各个所述样本音素信息和每个所述配音人员的音色信息输入初始声学模型的步骤;当确定所述初始声学模型满足所述收敛条件时...

【专利技术属性】
技术研发人员:岳杨皓宋伟张政臣吴友政
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1