语音合成方法、语音合成模型处理方法、装置和电子设备制造方法及图纸

技术编号:29839357 阅读:51 留言:0更新日期:2021-08-27 14:29
本申请涉及一种语音合成方法、语音合成模型处理方法、装置和电子设备。所述语音合成方法包括:获取待合成的文本的音子序列;通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,且是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。采用本方法能够确保语种切换前后合成语音的音色保持一致,并且使合成语音自然且流畅。

【技术实现步骤摘要】
语音合成方法、语音合成模型处理方法、装置和电子设备
本申请涉及人工智能
,特别是涉及一种语音合成方法、语音合成模型处理方法、装置和电子设备。
技术介绍
随着人工智能技术不断发展,人工智能技术在多个领域展开研究和应用。而自然语言处理(NatureLanguageProcessing,NLP)和语音处理是人工智能技术中的一个重要方向,如通过语音合成模型对文本进行语音合成得到合成语音,从而可以向用户播放合成语音。在一些应用场景中,需要将文本合成为不同语种的合成语音,此时需要一些文本和不同发音对象采用不同语种发出的语音分别对不同语音合成模型进行训练。由于不同发音对象的音色不同,当模型训练完成后,将根据训练后的语音合成模型对待合成的文本进行语音合成,从而可以得到不同语种且不同音色的合成语音。在进行语音合成的过程中,若从某一语种切换到另一语种,需要调用不同的语音合成模型,此时不但会出现音色不一致的问题,还影响语音的自然度和流畅度。
技术实现思路
基于此,有必要针对上述技术问题,提供一种语音合成方法、语音合成模型处理方法、装置和电子设备,能够确保语种切换前后合成语音的音色保持一致,并且使合成语音自然且流畅。一种语音合成方法,所述方法包括:获取待合成的文本的音子序列;通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。在其中的一个实施例中,所述语音合成模型中包括声学模型;所述方法还包括:分别对至少一个所述目标语种的语音样本进行声学特征提取,得到训练声学特征;基于所述训练声学特征生成至少一个所述目标语种的具有目标音色的目标语音;当从与所述目标语音对应的目标文本中获得训练音子序列时,通过所述声学模型对所述训练音子序列进行音色处理,得到包括所述目标音色信息的训练声学特征;基于所述训练声学特征和从所述目标语音中提取的声学特征之间的损失值,对所述声学模型进行参数调整。在其中的一个实施例中,所述语音合成模型中包括声码器;所述方法还包括:在所述目标语音中进行声学特征提取,得到目标声学特征;通过所述声码器对所述目标声学特征进行语音合成,得到至少一个所述目标语种的目标预测语音;所述目标预测语音具有所述目标音色;基于所述目标预测语音和所述目标语音之间的损失值,对所述声码器进行参数调整。一种语音合成装置,所述装置包括:获取模块,用于获取待合成的文本的音子序列;处理模块,用于通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;合成模块,用于通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待合成的文本的音子序列;通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待合成的文本的音子序列;通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。上述语音合成方法、装置、电子设备和存储介质,首先从不同音色的语音样本提取声学特征,并基于提取的声学特征生成具有目标音色的至少一个目标语种的目标语音,根据该目标文本的音子序列以及与该目标文本对应的具有目标音色的目标语音,对语音合成模型进行训练,从而无需使用不同目标语种不同音色的目标语音训练不同的语音合成模型,提高了模型训练效率。此外,利用训练后的语音合成模型对待合成的文本的音子序列进行音色处理,得到包括目标音色信息的声学特征,然后通过该训练后的语音合成模型对声学特征进行语音合成,得到目标音色的至少一个目标语种的合成语音,从而即便从某一语种切换到另一语种,其合成语音的音色保持不变,而且由于不需要更换语音合成模型,可以使合成语音自然且流畅。一种语音合成模型处理方法,所述方法包括:分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各所述语音样本之间的音色不同;基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;当从与所述目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对所述训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的预测语音;所述预测语音具有所述目标音色信息对应的目标音色;基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。一种语音合成模型处理装置,所述装置包括:提取模块,用于分别对至少一个目标语种的语音样本进行声学特征提取,得到训练声学特征;各所述语音样本之间的音色不同;生成模块,用于基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;处理模块,用于当从与所述目标语音对应的目标文本中获得训练音子序列时,通过语音合成模型对所述训练音子序列进行音色处理,得到包括目标音色信息的训练声学特征;合成模块,用于通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的预测语音;所述预测语音具有所述目标音色信息对应的目标音色;调整模块,用于基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:分别对至少一个本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取待合成的文本的音子序列;/n通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;/n通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成的文本的音子序列;
通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征;所述语音合成模型,是基于目标文本的音子序列以及至少一个目标语种的目标语音进行训练所得的;所述目标语音与所述目标文本对应,是根据从不同音色的语音样本提取的声学特征生成的具有目标音色的语音;
通过所述语音合成模型对所述声学特征进行语音合成,得到至少一个所述目标语种的且为所述目标音色的合成语音。


2.根据权利要求1所述的方法,其特征在于,所述通过语音合成模型对所述音子序列进行音色处理,得到包括目标音色信息的声学特征包括:
通过语音合成模型对所述音子序列进行语义特征提取,得到语义特征;
基于目标发音对象的目标音色信息对所述语义特征进行音色处理,得到至少一个所述目标语种的且包括所述目标音色信息的声学特征;
其中,所述目标音色信息,是所述语音合成模型在训练过程中学习到的所述目标发音对象的音色特征。


3.根据权利要求2所述的方法,其特征在于,所述语音合成模型中包括声学模型;所述通过语音合成模型对所述音子序列进行语义特征提取,得到语义特征包括:
通过所述声学模型中的编码器对所述音子序列中的各分词音子进行编码,得到包含所述语义特征的编码向量;所述语义特征是各分词在所述文本中的上下文信息。


4.根据权利要求3所述的方法,其特征在于,所述基于目标发音对象的目标音色信息对所述语义特征进行音色处理,得到至少一个所述目标语种的且包括所述目标音色信息的声学特征包括:
通过所述声学模型中的解码器,基于目标发音对象的目标音色信息对所述编码向量进行解码,得到至少一个所述目标语种的且包括所述目标音色信息的声学特征。


5.根据权利要求4所述的方法,其特征在于,所述基于目标发音对象的目标音色信息对所述编码向量进行解码包括:
通过所述声学模型中的注意力网络,确定所述编码向量中各分词的关注程度;其中,各所述分词在所述文本中的关注程度不同;
按照所述关注程度对所述编码向量中与各所述分词对应的词编码向量进行加权处理,得到加权编码向量;
基于目标发音对象的目标音色信息对所述加权编码向量进行解码。


6.根据权利要求1所述的方法,其特征在于,所述获取待合成的文本的音子序列包括:
所述获取待合成的文本的音子序列包括:
响应于语音合成业务请求,从所述语音合成业务请求中提取待合成的文本;
对所述文本进行分词处理,得到待合成的分词;
将每个所述分词进行音子转换,得到待合成的分词音子;
将所得的分词音子进行组合,得到所述文本的音子序列。


7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取待合成的文本的音子序列之前,所述方法包括:
分别对至少一个所述目标语种的语音样本进行声学特征提取,得到训练声学特征;
基于所述训练声学特征生成至少一个所述目标语种的且具有目标音色的目标语音;
当从与所述目标语音对应的目标文本中获得训练音子序列时,通过所述语音合成模型对所述训练音子序列进行音色处理,得到包括所述目标音色信息的训练声学特征;
通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的且具有所述目标音色的预测语音;
基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网络参数进行调整。


8.根据权利要求7所述的方法,其特征在于,所述目标语种包括目标发音对象对所述语音样本进行录制所采用的第一类语种,所述训练音子序列包括所述第一类语种对应的第一训练音子序列;所述通过所述语音合成模型对所述训练音子序列进行音色处理,得到包括所述目标音色信息的训练声学特征包括:
通过所述语音合成模型对所述第一训练音子序列进行音色处理,得到包括所述目标音色信息的第一训练声学特征;
所述通过所述语音合成模型对所述训练声学特征进行语音合成,得到至少一个所述目标语种的且具有所述目标音色的预测语音包括:
通过所述语音合成模型对所述第一训练声学特征进行语音合成,得到具有所述目标音色的第一类语种的语音;
所述基于所述预测语音与所述目标语音之间的损失值,对所述语音合成模型中的网...

【专利技术属性】
技术研发人员:孙晓辉王宝勋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1