语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37260812 阅读:15 留言:0更新日期:2023-04-20 23:35
本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质,涉及语音合成技术领域,该方法包括:获取目标文本;调用多层级韵律预测模型对目标文本进行韵律预测,得到目标文本在至少两个层级的韵律特征;根据目标文本和至少两个层级的韵律特征生成目标文本对应的语音;其中,不同层级表征韵律特征的不同时间尺度;多层级韵律预测模型是基于第一文本样本和多层级的韵律特征样本训练得到的。本发明专利技术提供的技术方案能够提高语音合成的韵律表现力。术方案能够提高语音合成的韵律表现力。术方案能够提高语音合成的韵律表现力。

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音合成
,尤其涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术和人工智能技术的发展,语音合成技术,也即文本转语音(Text

to

Speech,TTS)技术得到了广泛应用。语音合成多样化的应用为日常生活提供了极大的便利,同时也丰富了多媒体技术带来的观感。针对不同场景下的需求,如何提升语音合成的韵律表现力对提升所合成语音的拟人度、风格匹配度等具有重要的意义,能够提升相应场景下的听感体验。
[0003]相关技术中,可以利用变分自编码(Variational AutoEncoder,VAE)的隐变量学习方法进行语音合成中的韵律表征,这种方法通过学习语音的全局风格标签,在语音合成时,利用一条参考语音实现风格的迁移,或者利用注意力机制等技术指定合成语音的风格。但这种方法仅能刻画句子层面上的语音风格信息,对于语音的韵律特性不能充分的控制,导致合成语音的语气、语调等单一,缺少多样的变化性,容易导致用户的听感疲劳。

技术实现思路

[0004]本专利技术提供一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中语音合成的语音效果单调的问题,提高语音合成的韵律表现力。
[0005]本专利技术提供一种语音合成方法,包括:
[0006]获取目标文本;
[0007]调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征;其中,不同层级表征韵律特征的不同时间尺度;所述多层级韵律预测模型是基于第一文本样本和多层级的韵律特征样本训练得到的;
[0008]根据所述目标文本和所述至少两个层级的韵律特征生成所述目标文本对应的语音。
[0009]根据本专利技术提供的一种语音合成方法,所述调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征,包括:
[0010]将所述目标文本输入所述多层级韵律预测模型的文本编码层,得到所述目标文本的文本特征;
[0011]针对所述至少两个层级中的每个层级,将所述文本特征和所述每个层级的上一层级韵律特征输入所述多层级韵律预测模型的特征处理层,得到所述特征处理层输出的时序融合特征;所述特征处理层用于对所述文本特征和所述上一层级韵律特征进行时序对齐和拼接;
[0012]将所述时序融合特征输入所述多层级韵律预测模型的解码层,得到所述解码层输出的所述每个层级对应的韵律特征;
[0013]其中,所述上一层级韵律特征是基于所述目标文本在句子层级的韵律特征确定的。
[0014]根据本专利技术提供的一种语音合成方法,所述多层级韵律预测模型是基于如下步骤训练得到的:
[0015]获取所述第一文本样本,并获取所述多层级的韵律特征样本,所述多层级的韵律特征样本中包括句子层级的第一韵律特征样本和至少一个第二韵律特征样本;所述第二韵律特征样本为除所述句子层级以外的其他层级的韵律特征样本;
[0016]基于所述第一文本样本和每一层级的上一层级的韵律特征样本,对初始多层级韵律预测模型进行针对所述每一层级的训练,得到所述多层级韵律预测模型;其中,所述句子层级为初始层级。
[0017]根据本专利技术提供的一种语音合成方法,所述获取所述多层级的韵律特征样本,包括:
[0018]获取样本语音的目标声学特征;
[0019]将所述句子层级和所述其他层级中的每个层级依次作为目标层级,将所述目标声学特征输入所述目标层级对应的层级韵律预测模型,得到所述层级韵律预测模型输出的所述目标层级对应的韵律特征样本;所述层级韵律预测模型用于对所述目标声学特征进行下采样和量化编码;
[0020]其中,每个所述目标层级的下采样尺度不同。
[0021]根据本专利技术提供的一种语音合成方法,所述获取样本语音的目标声学特征,包括:
[0022]获取样本语音的原始声学特征,并将所述原始声学特征输入降维编码网络,得到所述降维编码网络输出的所述样本语音的目标声学特征;其中,所述降维编码网络是基于样本声学特征对初始编码网络和初始解码网络进行联合训练得到的;所述降维编码网络用于对所述原始声学特征进行降维压缩。
[0023]根据本专利技术提供的一种语音合成方法,所述目标层级对应的层级韵律预测模型是基于如下步骤训练得到的:
[0024]将所述目标声学特征输入所述目标层级对应的初始层级韵律预测模型,得到所述初始层级韵律预测模型输出的第一韵律特征;
[0025]获取第二韵律特征,并对所述第一韵律特征和所述第二韵律特征进行时序对齐和拼接,得到第三韵律特征;所述第二韵律特征为所述目标层级的上一层级的层级韵律预测模型基于所述目标声学特征输出的韵律特征;
[0026]获取第二文本样本,并将所述第二文本样本输入文本编码网络,得到所述文本编码网络输出的样本文本特征;所述文本编码网络用于提取所述第二文本样本的文本特征,并将所述第二文本样本的文本特征上采样至与所述目标声学特征的时间尺度相同;
[0027]对所述第三韵律特征和所述样本文本特征进行时序对齐和拼接处理,得到处理结果;
[0028]将所述处理结果和所述目标声学特征输入解码网络,得到所述解码网络的输出结果;
[0029]基于所述输出结果和损失函数对所述初始层级韵律预测模型、所述文本编码网络和所述解码网络进行参数调整,得到所述目标层级对应的层级韵律预测模型。
[0030]根据本专利技术提供的一种语音合成方法,所述根据所述目标文本和所述至少两个层级的韵律特征生成所述目标文本对应的语音,包括:
[0031]将所述目标文本和所述至少两个层级的韵律特征输入语音合成模型,得到所述语音合成模型输出的目标语音声学特征;
[0032]调用声码器将所述目标语音声学特征生成所述目标文本对应的语音;
[0033]其中,所述语音合成模型是基于所述第一文本样本、所述多层级的韵律特征样本和样本语音的目标声学特征对初始语音合成模型进行训练得到的。
[0034]本专利技术还提供一种语音合成装置,包括:
[0035]获取模块,用于获取目标文本;
[0036]韵律预测模块,用于调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征;其中,不同所述层级表征语音声学特征的不同时间尺度;所述多层级韵律预测模型是基于第一文本样本和多层级的韵律特征样本训练得到的;
[0037]生成模块,用于根据所述目标文本和所述至少两个层级的韵律特征生成所述目标文本对应的语音。
[0038]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语音合成方法。
[0039]本专利技术还提供一种电子设备,包括处理器和与所述处理器连接的扬声器;
[0040]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取目标文本;调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征;其中,不同层级表征韵律特征的不同时间尺度;所述多层级韵律预测模型是基于第一文本样本和多层级的韵律特征样本训练得到的;根据所述目标文本和所述至少两个层级的韵律特征生成所述目标文本对应的语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述调用多层级韵律预测模型对所述目标文本进行韵律预测,得到所述目标文本在至少两个层级的韵律特征,包括:将所述目标文本输入所述多层级韵律预测模型的文本编码层,得到所述目标文本的文本特征;针对所述至少两个层级中的每个层级,将所述文本特征和所述每个层级的上一层级韵律特征输入所述多层级韵律预测模型的特征处理层,得到所述特征处理层输出的时序融合特征;所述特征处理层用于对所述文本特征和所述上一层级韵律特征进行时序对齐和拼接;将所述时序融合特征输入所述多层级韵律预测模型的解码层,得到所述解码层输出的所述每个层级对应的韵律特征;其中,所述上一层级韵律特征是基于所述目标文本在句子层级的韵律特征确定的。3.根据权利要求1或2所述的语音合成方法,其特征在于,所述多层级韵律预测模型是基于如下步骤训练得到的:获取所述第一文本样本,并获取所述多层级的韵律特征样本,所述多层级的韵律特征样本中包括句子层级的第一韵律特征样本和至少一个第二韵律特征样本;所述第二韵律特征样本为除所述句子层级以外的其他层级的韵律特征样本;基于所述第一文本样本和每一层级的上一层级的韵律特征样本,对初始多层级韵律预测模型进行针对所述每一层级的训练,得到所述多层级韵律预测模型;其中,所述句子层级为初始层级。4.根据权利要求3所述的语音合成方法,其特征在于,所述获取所述多层级的韵律特征样本,包括:获取样本语音的目标声学特征;将所述句子层级和所述其他层级中的每个层级依次作为目标层级,将所述目标声学特征输入所述目标层级对应的层级韵律预测模型,得到所述层级韵律预测模型输出的所述目标层级对应的韵律特征样本;所述层级韵律预测模型用于对所述目标声学特征进行下采样和量化编码;其中,每个所述目标层级的下采样尺度不同。5.根据权利要求4所述的语音合成方法,其特征在于,所述目标层级对应的层级韵律预测模型是基于如下步骤训练得到的:将所述目标声学特征输入所述目标层级对应的初始层级韵律预测模型,得到所述初始层级韵律预测模型输出的第一韵律特征;获取第二韵律特征,并对所述第一韵律特征和所述第二韵律特征进行时序对齐和拼接,得到第三韵律特征;所述第二韵律特征为所述目标层级的上一层级的层级韵律预测模
型基于所述目标声学特征输出的韵律特征;获取第二文本样本,并将所述第二文本样本输入文本编码网络,得到所述文本编码网...

【专利技术属性】
技术研发人员:殷锋陈凌辉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1