【技术实现步骤摘要】
一种语音生成模型的训练方法、语音生成方法及装置
[0001]本公开涉及计算机
,尤其涉及一种语音生成模型的训练方法、语音生成方法及装置。
技术介绍
[0002]目前,对于某一个文本而言,可以对该文本进行文本正则、分词、声韵母标注、多音字分析等工作,最终生成处理后文本对应的声韵母序列;然后根据该声韵母序列合成对应文本文字的波形序列,生成该文本对应的语音。
[0003]但是,上述方法中,每一个声韵母的发音时长可能不同,当某一个声韵母的发音时长与该文本文字没有对齐时,会导致后续的声韵母发音混乱,此时生成的语音可能不够准确,影响了语音生成的准确性。
技术实现思路
[0004]本公开提供一种语音生成模型的训练方法、语音生成方法及装置,解决了相关技术中当某一个声韵母的发音时长与该文本文字没有对齐时,会导致后续的声韵母发音混乱,此时生成的语音可能不够准确,影响了语音生成的准确性的技术问题。
[0005]本公开实施例的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种语音生成模型的训练方法。该方法可以包括:确定已识别文本的音素特征,该已识别文本的音素特征用于表征该已识别文本对应的多个音素的执行顺序;将该已识别文本的音素特征输入初始时长预测器得到第一时长序列,并且将该已识别文本的音素特征输入初始韵律预测器,得到该已识别文本的韵律特征,该第一时长序列用于表征该多个音素中每个音素的预测时长,该已识别文本的韵律特征用于表征该每个音素的基频和/或该每个音素的能量;基于该第一时长序列, ...
【技术保护点】
【技术特征摘要】
1.一种语音生成模型的训练方法,其特征在于,包括:确定已识别文本的音素特征,所述已识别文本的音素特征用于表征所述已识别文本对应的多个音素的执行顺序;将所述已识别文本的音素特征输入初始时长预测器得到第一时长序列,并且将所述已识别文本的音素特征输入初始韵律预测器,得到所述已识别文本的韵律特征,所述第一时长序列用于表征所述多个音素中每个音素的预测时长,所述已识别文本的韵律特征用于表征所述每个音素的基频和/或所述每个音素的能量;基于所述第一时长序列,分别对所述已识别文本的音素特征、所述已识别文本的韵律特征以及预设风格特征进行扩帧处理,得到第一扩帧特征、第二扩帧特征以及第三扩帧特征,所述预设风格特征与预设风格具有对应关系;拼接所述第一扩帧特征、所述第二扩帧特征以及所述第三扩帧特征,得到所述已识别文本的融合特征,并且将所述已识别文本的融合特征输入初始解码器,得到所述已识别文本的预测梅尔频谱;基于所述已识别文本的预测梅尔频谱,对初始语音生成模型进行训练,以生成目标语音生成模型,所述初始语音生成模型中包括所述初始时长预测器、所述初始韵律预测器以及所述初始解码器。2.根据权利要求1所述的语音生成模型的训练方法,其特征在于,所述已识别文本的韵律特征用于表征所述每个音素的基频,基于所述第一时长序列,对所述已识别文本的韵律特征进行扩帧处理,得到所述第二扩帧特征,包括:基于第一音素的预测时长,确定扩帧后的所述第一音素的基频的数量,所述第一音素为所述多个音素中的一个;基于所述每个音素的基频以及扩帧后的所述每个音素的基频的数量,得到所述第二扩帧特征。3.根据权利要求1所述的语音生成模型的训练方法,其特征在于,所述基于所述已识别文本的预测梅尔频谱,对所述初始语音生成模型进行训练,以生成所述目标语音生成模型,包括:基于所述已识别文本的预测梅尔频谱和所述已识别文本的真实梅尔频谱,确定第一损失;基于所述第一损失更新所述初始语音生成模型中的参数,得到所述目标语音生成模型。4.根据权利要求3所述的语音生成模型的训练方法,其特征在于,所述基于所述已识别文本的预测梅尔频谱和所述已识别文本的真实梅尔频谱,确定第一损失,包括:确定第一梅尔频谱序列包括的M步中的每一步与第二梅尔频谱序列包括的N步中的每一步之间的损失,所述第一梅尔频谱序列用于表征所述已识别文本的预测梅尔频谱,所述第二梅尔频谱序列用于表征所述已识别文本的真实梅尔频谱,M为大于或等于1的整数,N为大于或等于1的整数;将所述第一梅尔频谱序列包括的M步中的每一步与所述第二梅尔频谱序列包括的N步中的每一步之间的损失之和,确定为所述第一损失。5.根据权利要求1所述的语音生成模型的训练方法,其特征在于,所述方法还包括:
获取第二时长序列,所述第二时长序列用于表征所述多个音素中每个音素的真实时长;基于所述第二时长序列,对所述已识别文本的韵律特征进行扩帧处理,得到第四扩帧特征;基于所述第四扩帧特征以及所述第二扩帧特征,确定第二损失;基于所述第二损失,更新所述初始韵律预测器中的参数,得到目标韵律预测器,所述目标韵律预测器为所述目标语音生成模型中的韵律预测器。6.根据权利要求1
‑
5中任一项所述的语音生成模型的训练方法,其特征在...
【专利技术属性】
技术研发人员:张颖,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。