一种音素时长信息的生成方法、装置、存储介质及设备制造方法及图纸

技术编号:37668932 阅读:23 留言:0更新日期:2023-05-26 04:29
本发明专利技术涉及语音合成技术领域,公开了一种音素时长信息的生成方法、装置、存储介质及设备,包括:获取样本语音和样本语音对应的文本,并输入至第一时长预测模型中进行训练推理,生成第一时长预测模型中每个音素的时长信息;获取样本语音和样本语音对应的文本,并输入至第二时长预测模型中进行训练推理,生成第二时长预测模型中每个音素的时长信息;根据第一时长预测模型中每个音素的时长信息和第二时长预测模型中每个音素的时长信息,生成样本语音中每个音素的融合时长信息;基于所述每个音素的融合时长信息,生成样本语音的音素时长信息。通过该方法,能够提高音素时长信息的准确率,进而提升语音合成的质量。进而提升语音合成的质量。进而提升语音合成的质量。

【技术实现步骤摘要】
一种音素时长信息的生成方法、装置、存储介质及设备


[0001]本专利技术涉及语音合成
,尤其涉及一种音素时长信息的生成方法、装置、存储介质及设备。

技术介绍

[0002]语音合成,也称为文本与语音之间的转换,可以将任意的输入文本转换成自然流畅的语音输出。目前,语音合成模型包括两种类型,分别为自回归语音合成模型和非自回归语音合成模型。自回归语音合成模型中常见的模型包括Tactotron2、Transformer、Deep Voice等模型。自回归语音合成模型的合成速度较慢,并且易出现重复吐字或者漏词的现象。非自回归语音合成模型使用全并行的非自回归架构,能够提高合成速度。同时,非自回归语音合成模型引入音素时长信息、能量及频率等作为输入参数进行训练,能够大量减少重复吐字或者漏词的现象。因此,非自回归语音合成模型经常被用来作为语音合成的工具。
[0003]音素时长、能量及频率等信息是非自回归语音合成模型中的重要训练参数。其中,音素时长信息直接影响合成语音的长度和整体韵律,决定语音合成的质量。然而,现有的音素时长预测模型均存在着各自的缺陷。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音素时长信息的生成方法,其特征在于,包括:获取样本语音和样本语音对应的文本,并输入至第一时长预测模型中进行训练推理,生成第一时长预测模型中每个音素的时长信息;获取样本语音和样本语音对应的文本,并输入至第二时长预测模型中进行训练推理,生成第二时长预测模型中每个音素的时长信息;根据第一时长预测模型中每个音素的时长信息和第二时长预测模型中每个音素的时长信息,生成样本语音中每个音素的融合时长信息;基于所述每个音素的融合时长信息,生成样本语音的音素时长信息。2.根据权利要求1所述的方法,其特征在于,所述根据第一时长预测模型中每个音素的时长信息和第二时长预测模型中每个音素的时长信息,生成样本语音中每个音素的融合时长信息,包括:根据第一时长预测模型中每个音素的时长信息和第二时长预测模型中每个音素的时长信息,计算每个音素的平均时长信息;将所述平均时长信息确定为样本语音中每个音素的融合时长信息。3.根据权利要求1所述的方法,其特征在于,所述基于所述每个音素的融合时长信息,生成样本语音的音素时长信息,包括:将每个音素的融合时长信息依次相加,生成多个音素的总时长信息;判断所述总时长信息是否和样本语音的总时长信息相一致;如果不一致,则在最后一个音素位置处,增加或减少空白时长信息,以确保融合后的总时长信息和样本语音的总时长信息相一致;根据每个音素的融合时长信息及所增加或减少的空白时长信息,确定样本语音的音素时长信息。4.根据权利要求1所述的方法,其特征在于,所述第一时长预测模型为tacotron2教师模型,所述获取样本语音和样本语音对应的文本,并输入至第一时长预测模型中进行训练推理,生成第一时长预测模型中每个音素的时长信息,包括:基于tacotron2教师模型中的注意力机制,生成样本语音和样本语音对应的文本的注意力矩阵;根据所述注意力矩阵,生成第一时长预测模型中每个音素的时长信息。5.根据权利要求1所述的方法,其特征在于,所述第二时长预测模型为mfa对齐模型,所述获取样本语音和样本语音对应的文本,并输入...

【专利技术属性】
技术研发人员:范野郭立钊辛逸男黄明星王福钋张航飞曹富康胡尧沈鹏周晓波
申请(专利权)人:北京水滴科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1