语音合成模型训练方法、语音合成方法及装置制造方法及图纸

技术编号:29205819 阅读:28 留言:0更新日期:2021-07-10 00:41
本公开提供一种语音合成模型训练方法、语音合成方法及装置,语音合成模型训练方法包括:获取训练文本,各个训练参考音频,以及各个基准音频;基于当前训练参考音频确定当前基准音频;获取训练文本的训练文本向量和各个训练参考音频帧向量并获取对应于当前训练参考音频的训练合成音频;根据训练合成音频和当前基准音频,获取第一损失,更新当前训练参考音频,直至获取分别与各个训练参考音频对应的各个第一损失,根据各个第一损失获取模型损失,并根据模型损失调整语音合成模型的参数,直至模型损失满足模型损失阈值,得到训练好的语音合成模型。本发明专利技术实施例提供的语音合成模型训练方法能够丰富语音合成模型的韵律风格,减少模型的使用局限性。型的使用局限性。型的使用局限性。

【技术实现步骤摘要】
语音合成模型训练方法、语音合成方法及装置


[0001]本专利技术实施例涉及语音合成
,尤其涉及一种语音合成模型训练方法、装置、设备及存储介质,以及一种语音合成方法、装置、设备及存储介质。

技术介绍

[0002]在教学场景下,中文古诗词教学作为语言教学系统的重要环节,由于中文古诗词具有非常独特的韵律特点,因此在生成教学用的古诗词朗读音频时,通常采用人工录音方式去生成中文古诗词的朗读音频,或者使用专门训练的语音合成系统去生成古诗词的朗读音频,朗读音频正确的发音以及韵律节奏,对于中文古诗词的教学具有非常重要的辅助意义。
[0003]现有教学场景下的中文古诗词朗读音频,大多使用人工录制,该方法成本非常高昂。虽然也有使用语音合成技术来生成古诗词朗读音频,但是现有的语音合成系统,存在以下缺点:(1)系统构建成本较高,需要大量的古诗词朗读音频来训练一个语音合成模型,并且当合成模型训练完成后,模型的韵律风格也就固定了,一旦待合成的诗词类型没有在训练数据中出现过,则合成的音频韵律就会出现明显问题。
[0004](2)无法自主选择韵律:输入待合成的古诗词后,合成系统直接输出合成音频,合成音频的韵律是在合成语音时同步产生,无法由用户自己选择和定义。
[0005]因此,如何丰富语音合成模型的韵律风格,个性化语音合成模型的应用场景,成为亟需解决的技术问题。

技术实现思路

[0006]本专利技术实施例解决的技术问题是提供一种语音合成模型训练方法、装置、设备及存储介质,以及一种语音合成方法、装置、设备及存储介质,以丰富语音合成模型的韵律风格,减少语音合成模型的使用局限性。
[0007]为解决前述问题,本专利技术实施例提供一种语音合成模型训练方法,包括:获取训练文本,各个训练参考音频,以及分别与各个所述训练参考音频的韵律相同的各个基准音频,各个所述基准音频与所述训练文本对应,且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同;确定训练参考音频,得到当前训练参考音频,并确定与所述当前训练参考音频的韵律相同的基准音频,得到当前基准音频;获取所述训练文本的训练文本向量,和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量;根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频;根据所述训练合成音频和所述当前基准音频,获取第一损失,更新所述当前训练
参考音频,直至获取分别与各个所述训练参考音频对应的各个第一损失,根据各个所述第一损失获取模型损失,并根据所述模型损失调整所述语音合成模型的参数,直至所述模型损失满足模型损失阈值,得到训练好的所述语音合成模型。
[0008]为解决上述问题,本专利技术实施例还提供一种语音合成方法,包括:获取待语音合成的合成文本;获取目标参考音频;将所述待语音合成的合成文本和所述目标参考音频输入前述的语音合成模型训练方法得到的语音合成模型,得到与所述合成文本相对应的合成语音,所述合成语音带有所述目标参考音频的韵律特征。
[0009]为解决前述问题,本专利技术实施例还提供一种语音合成模型训练装置,包括:音频及文本获取单元,适于获取训练文本,各个训练参考音频,以及分别与各个所述训练参考音频的韵律相同的各个基准音频,各个所述基准音频与所述训练文本对应,且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同;基准音频获取单元,适于确定训练参考音频,得到当前训练参考音频,并确定与所述当前训练参考音频的韵律相同的基准音频,得到当前基准音频;向量获取单元,适于获取所述训练文本的训练文本向量,和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量音频训练单元,适于根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频;音频合成单元,适于根据所述训练合成音频和所述当前基准音频,获取第一损失,更新所述当前训练参考音频,直至获取分别与各个所述训练参考音频对应的各个第一损失,根据各个所述第一损失获取模型损失,并根据所述模型损失调整所述语音合成模型的参数,直至所述模型损失满足模型损失阈值,得到训练好的所述语音合成模型。
[0010]为解决前述问题,本专利技术实施例还提供一种语音合成装置,包括:合成文本获取单元,适于获取待语音合成的合成文本;目标音频获取单元,适于获取目标参考音频;语音合成单元,适于将所述待语音合成的合成文本和所述目标参考音频输入前述的语音合成模型训练方法得到的语音合成模型,得到与所述合成文本相对应的合成语音,所述合成语音带有所述目标参考音频的韵律特征。
[0011]为解决前述问题,本专利技术实施例还提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行上述的语音合成模型训练方法或者上述的语音合成方法。
[0012]为解决前述问题,本专利技术实施例还提供一种存储介质,所述存储介质存储有适于语音合成模型训练的程序,以实现上述的语音合成模型训练方法或存储有适于语音合成的程序,以实现上述的语音合成方法。
[0013]与现有技术相比,本专利技术的技术方案具有以下优点:本专利技术实施例所提供的语音合成模型训练方法,在对语音合成模型进行训练时,因根据大量训练参考音频进行训练,从而在训练过程中能够获取提取训练参考音频的韵律特征的能力,将提取训练参考音频的韵律特征的能力通过参数融入到语音合成模型的训练
中,使得语音合成模型额外学习到对于韵律特征的建模,从而采用后续训练完成的语音合成模型在合成古诗词音频时,输入待合成的古诗词文本,同时输入一条古诗词参考音频,语音合成模型就可以从参考音频中学习到韵律特征,能够避免为了提高合成的韵律类型,需要使用大量不同的诗词韵律风格音频分别训练语音合成模型,得到不同的模型参数的情况,降低成本;另一方面,由于语音合成模型能够捕捉到参考音频的韵律特征,在后续语音合成时,通过输入任意韵律风格的参考音频,可以输出具有参考音频韵律风格的古诗词音频,以合成具有任意韵律风格的音频,丰富了语音合成模型的韵律风格,减少了语音合成模型的使用局限性。
[0014]可选方案中,本专利技术实施例所提供的语音合成模型训练方法,还同时获取训练参考音频对应文本,所述训练参考音频对应文本的数量与所述训练参考音频的数量相同,通过从语音和文本两个维度充分捕捉到参考音频的韵律风格,进一步提高对训练参考音频韵律信息的捕获能力,强化语音合成模型合成音频的韵律模仿效果。
附图说明
[0015]图1是本专利技术实施例所提供的语音合成模型训练方法的一流程示意图;图2是本专利技术实施例提供的语音合成模型训练方法的获取训练合成音频的流程图;图3是本专利技术实施例所提供的语音合成模型训练方法的另一流程示意图;图4是本专利技术实施例提供的语音合成模型训练方法的获取训练合成音频的又一流程图;图5是本专利技术实施例所提供的语音合成模型训练装置的一框图;图6是本专利技术实施例所提供的语音合成装置的一框图;图7是本专利技术实施例提供的设备一种可选硬件设备架构。
具体实施方式
[0016]现有技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型训练方法,其特征在于,包括:获取训练文本,各个训练参考音频,以及分别与各个所述训练参考音频的韵律相同的各个基准音频,各个所述基准音频与所述训练文本对应,且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同;确定训练参考音频,得到当前训练参考音频,并确定与所述当前训练参考音频的韵律相同的基准音频,得到当前基准音频;获取所述训练文本的训练文本向量,和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量;根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频;根据所述训练合成音频和所述当前基准音频,获取第一损失,更新所述当前训练参考音频,直至获取分别与各个所述训练参考音频对应的各个第一损失,根据各个所述第一损失获取模型损失,并根据所述模型损失调整所述语音合成模型的参数,直至所述模型损失满足模型损失阈值,得到训练好的所述语音合成模型。2.如权利要求1所述的语音合成模型训练方法,其特征在于,所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤包括:对所述训练文本向量和各个所述训练参考音频帧向量进行融合,得到与各个所述训练参考音频帧向量对应的各个训练融合向量;对各个所述训练融合向量依次进行解码,得到对应于所述当前训练参考音频的训练合成音频。3.如权利要求1所述的语音合成模型训练方法,其特征在于,所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤包括:获取所述当前基准音频的首帧的第一基准音频帧解码向量和各个所述训练参考音频帧向量中的第一训练参考音频帧向量;对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合,得到第一音频帧上下文向量;将所述训练文本向量和所述第一音频帧上下文向量进行融合,得到对应于所述第一训练参考音频帧向量的第一融合向量;对所述第一融合向量进行解码,得到第一帧解码向量和第一帧合成音频频谱;依次获取各个所述参考音频帧向量中的第N训练参考音频帧向量;对所述第N

1帧解码向量和所述第N训练参考音频帧向量进行融合,得到第N音频帧上下文向量;将所述训练文本向量和所述第N音频帧上下文向量进行融合,得到对应于所述第N训练参考音频帧向量的第N融合向量;对所述第N融合向量进行解码,得到第N帧解码向量和第N帧合成音频频谱,直至得到所述当前训练参考音频的全部音频帧的合成音频频谱;其中,N的取值为2和所述训练参考音频的总帧数之间的任何整数值,N

1表示上一帧;
根据各合成音频频谱获取对应于所述当前训练参考音频的训练合成音频。4.如权利要求3所述的语音合成模型训练方法,其特征在于,所述对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合,得到第一音频帧上下文向量的步骤,还包括:对所述训练文本向量和所述第一基准音频帧解码向量进行融合,得到第一训练文本上下文向量;将所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合,得到第一融合向量;对所述第N

1帧解码向量和所述第N

1训练文本上下文向量进行融合,得到第N训练文本上下文向量;将所述第N训练文本上下文向量和所述第N帧解码向量相融合,得到第N训练文本上下文向量,将所述第N训练文本上下文向量和所述第N音频帧上下文向量进行融合,得到第N融合向量。5.如权利要求2所述的语音合成模型训练方法,其特征在于,对所述训练文本向量和各个所述训练参考音频帧向量进行融合的方式为加权拼接。6.如权利要求4所述的语音合成模型训练方法,其特征在于,所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频...

【专利技术属性】
技术研发人员:汪光璟李成飞杨嵩
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1