一种语音生成模型的训练方法、语音生成方法及装置制造方法及图纸

技术编号:39399338 阅读:6 留言:0更新日期:2023-11-19 15:52
本公开关于一种语音生成模型的训练方法、语音生成方法及装置,涉及计算机技术领域。该方法包括:确定已识别文本的音素特征;将该音素特征输入初始时长预测器得到第一时长序列,并且将该音素特征输入初始韵律预测器,得到该已识别文本的韵律特征;对该音素特征、该韵律特征以及预设风格特征进行扩帧处理,得到第一扩帧特征、第二扩帧特征以及第三扩帧特征;拼接该第一扩帧特征、该第二扩帧特征以及该第三扩帧特征,得到该已识别文本的融合特征,并且将该融合特征输入初始解码器,得到该已识别文本的预测梅尔频谱。本公开提供的方案,可以基于该目标语音生成模型准确、有效地预测出每一个文本的梅尔频谱,能够提升语音生成的准确性。性。性。

【技术实现步骤摘要】
一种语音生成模型的训练方法、语音生成方法及装置


[0001]本公开涉及计算机
,尤其涉及一种语音生成模型的训练方法、语音生成方法及装置。

技术介绍

[0002]目前,对于某一个文本而言,可以对该文本进行文本正则、分词、声韵母标注、多音字分析等工作,最终生成处理后文本对应的声韵母序列;然后根据该声韵母序列合成对应文本文字的波形序列,生成该文本对应的语音。
[0003]但是,上述方法中,每一个声韵母的发音时长可能不同,当某一个声韵母的发音时长与该文本文字没有对齐时,会导致后续的声韵母发音混乱,此时生成的语音可能不够准确,影响了语音生成的准确性。

技术实现思路

[0004]本公开提供一种语音生成模型的训练方法、语音生成方法及装置,解决了相关技术中当某一个声韵母的发音时长与该文本文字没有对齐时,会导致后续的声韵母发音混乱,此时生成的语音可能不够准确,影响了语音生成的准确性的技术问题。
[0005]本公开实施例的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种语音生成模型的训练方法。该方法可以包括:确定已识别文本的音素特征,该已识别文本的音素特征用于表征该已识别文本对应的多个音素的执行顺序;将该已识别文本的音素特征输入初始时长预测器得到第一时长序列,并且将该已识别文本的音素特征输入初始韵律预测器,得到该已识别文本的韵律特征,该第一时长序列用于表征该多个音素中每个音素的预测时长,该已识别文本的韵律特征用于表征该每个音素的基频和/或该每个音素的能量;基于该第一时长序列,分别对该已识别文本的音素特征、该已识别文本的韵律特征以及预设风格特征进行扩帧处理,得到第一扩帧特征、第二扩帧特征以及第三扩帧特征,该预设风格特征与预设风格具有对应关系;拼接该第一扩帧特征、该第二扩帧特征以及该第三扩帧特征,得到该已识别文本的融合特征,并且将该已识别文本的融合特征输入初始解码器,得到该已识别文本的预测梅尔频谱;基于该已识别文本的预测梅尔频谱,对初始语音生成模型进行训练,以生成该目标语音生成模型,该初始语音生成模型中包括该初始时长预测器、该初始韵律预测器以及该初始解码器。
[0007]可选地,上述已识别文本的韵律特征用于表征该每个音素的基频,基于该第一时长序列,对该已识别文本的韵律特征进行扩帧处理,得到该第二扩帧特征,具体包括:基于第一音素的预测时长,确定扩帧后的该第一音素的基频的数量,该第一音素为该多个音素中的一个;基于该每个音素的基频以及扩帧后的该每个音素的基频的数量,得到该第二扩帧特征。
[0008]可选地,上述基于该已识别文本的预测梅尔频谱,对该初始语音生成模型进行训练,以生成该目标语音生成模型,具体包括:基于该已识别文本的预测梅尔频谱和该已识别
文本的真实梅尔频谱,确定第一损失;基于该第一损失更新该初始语音生成模型中的参数,得到该目标语音生成模型。
[0009]可选地,上述基于该已识别文本的预测梅尔频谱和该已识别文本的真实梅尔频谱,确定第一损失,具体包括:确定第一梅尔频谱序列包括的M步中的每一步与第二梅尔频谱序列包括的N步中的每一步之间的损失,该第一梅尔频谱序列用于表征该已识别文本的预测梅尔频谱,该第二梅尔频谱序列用于表征该已识别文本的真实梅尔频谱,M为大于或等于1的整数,N为大于或等于1的整数;将该第一梅尔频谱序列包括的M步中的每一步与该第二梅尔频谱序列包括的N步中的每一步之间的损失之和,确定为该第一损失。
[0010]可选地,上述语音生成模型的训练方法还包括:获取第二时长序列,该第二时长序列用于表征该多个音素中每个音素的真实时长;基于该第二时长序列,对该已识别文本的韵律特征进行扩帧处理,得到第四扩帧特征;基于该第四扩帧特征以及该第二扩帧特征,确定第二损失;基于该第二损失,更新该初始韵律预测器中的参数,得到目标韵律预测器,该目标韵律预测器为该目标语音生成模型中的韵律预测器。
[0011]可选地,上述语音生成模型的训练方法还包括:获取该已识别文本的音素序列,该已识别文本的音素序列包括该多个音素;将该已识别文本的音素序列输入目标内容编码器,得到该已识别文本的音素特征,该目标内容编码器为该目标语音生成模型中包括的内容编码器。
[0012]根据本公开实施例的第二方面,提供一种语音生成方法。该方法可以包括:确定待识别文本的音素特征;将该待识别文本的音素特征输入目标语音生成模型,得到该待识别文本的预测梅尔频谱,该目标语音生成模型是基于上述第一方面中任一种可选地语音生成模型的训练方法训练得到的,该待识别文本的预测梅尔频谱用于生成该待识别文本对应的语音。
[0013]根据本公开实施例的第三方面,提供一种语音生成模型的训练装置。该装置可以包括:确定模块和处理模块;该确定模块,被配置为确定已识别文本的音素特征,该已识别文本的音素特征用于表征该已识别文本对应的多个音素的执行顺序;该处理模块,被配置为将该已识别文本的音素特征输入初始时长预测器得到第一时长序列,并且将该已识别文本的音素特征输入初始韵律预测器,得到该已识别文本的韵律特征,该第一时长序列用于表征该多个音素中每个音素的预测时长,该已识别文本的韵律特征用于表征该每个音素的基频和/或该每个音素的能量;该处理模块,还被配置为基于该第一时长序列,分别对该已识别文本的音素特征、该已识别文本的韵律特征以及预设风格特征进行扩帧处理,得到第一扩帧特征、第二扩帧特征以及第三扩帧特征,该预设风格特征与预设风格具有对应关系;该处理模块,还被配置为拼接该第一扩帧特征、该第二扩帧特征以及该第三扩帧特征,得到该已识别文本的融合特征,并且将该已识别文本的融合特征输入初始解码器,得到该已识别文本的预测梅尔频谱;该处理模块,还被配置为基于该已识别文本的预测梅尔频谱,对该初始语音生成模型进行训练,以生成该目标语音生成模型,该初始语音生成模型中包括该初始时长预测器、该初始韵律预测器以及该初始解码器。
[0014]可选地,上述已识别文本的韵律特征用于表征该每个音素的基频,该确定模块,具体被配置为基于第一音素的预测时长,确定扩帧后的该第一音素的基频的数量,该第一音素为该多个音素中的一个;该处理模块,具体被配置为基于该每个音素的基频以及扩帧后
的该每个音素的基频的数量,得到该第二扩帧特征。
[0015]可选地,该确定模块,还具体被配置为基于该已识别文本的预测梅尔频谱和该已识别文本的真实梅尔频谱,确定第一损失;该处理模块,还具体被配置为基于该第一损失更新该初始语音生成模型中的参数,得到该目标语音生成模型。
[0016]可选地,该确定模块,还具体被配置为确定第一梅尔频谱序列包括的M步中的每一步与第二梅尔频谱序列包括的N步中的每一步之间的损失,该第一梅尔频谱序列用于表征该已识别文本的预测梅尔频谱,该第二梅尔频谱序列用于表征该已识别文本的真实梅尔频谱,M为大于或等于1的整数,N为大于或等于1的整数;该确定模块,还具体被配置为将该第一梅尔频谱序列包括的M步中的每一步与该第二梅尔频谱序列包括的N步中的每一步之间的损失之和,确定为该第一损失本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成模型的训练方法,其特征在于,包括:确定已识别文本的音素特征,所述已识别文本的音素特征用于表征所述已识别文本对应的多个音素的执行顺序;将所述已识别文本的音素特征输入初始时长预测器得到第一时长序列,并且将所述已识别文本的音素特征输入初始韵律预测器,得到所述已识别文本的韵律特征,所述第一时长序列用于表征所述多个音素中每个音素的预测时长,所述已识别文本的韵律特征用于表征所述每个音素的基频和/或所述每个音素的能量;基于所述第一时长序列,分别对所述已识别文本的音素特征、所述已识别文本的韵律特征以及预设风格特征进行扩帧处理,得到第一扩帧特征、第二扩帧特征以及第三扩帧特征,所述预设风格特征与预设风格具有对应关系;拼接所述第一扩帧特征、所述第二扩帧特征以及所述第三扩帧特征,得到所述已识别文本的融合特征,并且将所述已识别文本的融合特征输入初始解码器,得到所述已识别文本的预测梅尔频谱;基于所述已识别文本的预测梅尔频谱,对初始语音生成模型进行训练,以生成目标语音生成模型,所述初始语音生成模型中包括所述初始时长预测器、所述初始韵律预测器以及所述初始解码器。2.根据权利要求1所述的语音生成模型的训练方法,其特征在于,所述已识别文本的韵律特征用于表征所述每个音素的基频,基于所述第一时长序列,对所述已识别文本的韵律特征进行扩帧处理,得到所述第二扩帧特征,包括:基于第一音素的预测时长,确定扩帧后的所述第一音素的基频的数量,所述第一音素为所述多个音素中的一个;基于所述每个音素的基频以及扩帧后的所述每个音素的基频的数量,得到所述第二扩帧特征。3.根据权利要求1所述的语音生成模型的训练方法,其特征在于,所述基于所述已识别文本的预测梅尔频谱,对所述初始语音生成模型进行训练,以生成所述目标语音生成模型,包括:基于所述已识别文本的预测梅尔频谱和所述已识别文本的真实梅尔频谱,确定第一损失;基于所述第一损失更新所述初始语音生成模型中的参数,得到所述目标语音生成模型。4.根据权利要求3所述的语音生成模型的训练方法,其特征在于,所述基于所述已识别文本的预测梅尔频谱和所述已识别文本的真实梅尔频谱,确定第一损失,包括:确定第一梅尔频谱序列包括的M步中的每一步与第二梅尔频谱序列包括的N步中的每一步之间的损失,所述第一梅尔频谱序列用于表征所述已识别文本的预测梅尔频谱,所述第二梅尔频谱序列用于表征所述已识别文本的真实梅尔频谱,M为大于或等于1的整数,N为大于或等于1的整数;将所述第一梅尔频谱序列包括的M步中的每一步与所述第二梅尔频谱序列包括的N步中的每一步之间的损失之和,确定为所述第一损失。5.根据权利要求1所述的语音生成模型的训练方法,其特征在于,所述方法还包括:
获取第二时长序列,所述第二时长序列用于表征所述多个音素中每个音素的真实时长;基于所述第二时长序列,对所述已识别文本的韵律特征进行扩帧处理,得到第四扩帧特征;基于所述第四扩帧特征以及所述第二扩帧特征,确定第二损失;基于所述第二损失,更新所述初始韵律预测器中的参数,得到目标韵律预测器,所述目标韵律预测器为所述目标语音生成模型中的韵律预测器。6.根据权利要求1

5中任一项所述的语音生成模型的训练方法,其特征在...

【专利技术属性】
技术研发人员:张颖
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1