语音合成方法、装置、计算设备和计算机存储介质制造方法及图纸

技术编号:37890905 阅读:25 留言:0更新日期:2023-06-18 11:54
本发明专利技术公开了一种语音合成方法、装置、计算设备和计算机存储介质。其中方法包括:根据待处理文本生成音素序列,将所述音素序列输入到经预训练的声学模型中得到声学特征数据;根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频;利用所述第二基频替换所述声学特征数据中的第一基频,将替换后的所述声学特征数据输入到经预训练的声码器模型中得到目标音频。通过上述技术方案,本发明专利技术能够基于预设的基频控制点或控制曲线修改根据声学模型得到的声学特征数据中的基频,进而实现对生成音频的音调进行控制。制。制。

【技术实现步骤摘要】
语音合成方法、装置、计算设备和计算机存储介质


[0001]本专利技术涉及计算机应用
,具体涉及一种语音合成方法、计算设备和计算机存储介质。

技术介绍

[0002]现有的语音合成技术方案的研究方向大部分针对语音合成的音质效果,或者一些如重读拖音等音调特征的控制,但这些控制是模型本身学习出来的,对音调特征的控制不够灵活。
[0003]目前语音合成中韵律可控的方案,大部分针对时长可控,没有对音调特征进行直接操作的显式可控。而针对音调可控的方案,大部分基于VAE模型和参照编码器(Recerenceencoder)等方案,需在训练阶段引入非常复杂的模型结构,而且控制也不直接,需要从参考音频中拿到韵律特征,不能够进行显式控制。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成方法、计算设备和计算机存储介质。
[0005]根据本专利技术的一个方面,提供了一种语音合成方法,所述方法包括:
[0006]根据待处理文本生成音素序列,将所述音素序列输入到本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:根据待处理文本生成音素序列,将所述音素序列输入到经预训练的声学模型中得到声学特征数据;根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频;利用所述第二基频替换所述声学特征数据中的第一基频,将替换后的所述声学特征数据输入到经预训练的声码器模型中得到目标音频。2.根据权利要求1所述的方法,其特征在于,根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频之前,还包括:根据预设条件对所述声学特征数据中的第一基频是否需要转换进行判断;若判断结果为是,则根据预设的基频控制点或者控制曲线得到基频控制向量,利用所述基频控制向量对所述声学特征数据中的第一基频进行转换得到第二基频。3.根据权利要求2所述的方法,其特征在于,根据预设条件对所述声学特征数据中的第一基频是否需要转换进行判断,进一步包括:将所述声学特征数据中的基频互相关系数输入到预设的清浊音判断表达式,计算所述清浊音判断表达式的值;判断所述值是否大于预设阈值;若是,则对所述声学特征数据中的第一基频进行转换,否则不进行转换。4.根据权利要求1

3中任一项所述的方法,其特征在于,根据预设的基频控制点得到基频控制向量包括:对所述基频控制点进行线性插值处理,得到与所述声学特征数据的帧数长度相同的基频控制向量。5.根据权利要求4所述的方法,其特征在于,对基频控制点进行线性插值处理,得到与声学频谱数据的帧数长度相同的基频控制向量,包括如下的任一种:根据预设比例对所述基频控制点进行线性插值,得到所述基频控制向量;根据预设占位符对所述基频控制点进行线性插值,得到所述基频控制向...

【专利技术属性】
技术研发人员:孙莉
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1