语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36185632 阅读:37 留言:0更新日期:2022-12-31 20:48
本公开提供了一种语音合成方法、装置、电子设备和存储介质。本公开实施例的语音合成方法可以包括:获取第一文本和第一发音人的信息,第一文本携带第一语气标签;通过预先训练的声学模型生成对应第一发音人和第一文本的第一语气声学特征,第一语气声学特征中包含对应第一发音人和第一文本的声学特征和对应第一语气标签的语气特征;将第一语气声学特征合成带有语气的第一语音,第一语音的语气与第一语气标签一致且第一语音具有第一发音人的发音特征;其中,声学模型根据M个第二发音人的语料、M个第二发音人的信息和第一发音人的信息训练得到,M为大于或等于1的整数。本公开采用特征迁移技术实现了带有语气的语音合成,能够在不降低语音合成质量的同时提升语音的自然度和表现力。度和表现力。度和表现力。

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质


[0001]本公开涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,基于端到端的语音合成系统已经使得合成的语音在音质、准确度以及流畅度等方面与人类语音相近。然而,基于语音合成系统合成的语音仍缺乏表现力、语调较平、缺少抑扬顿挫、自然度较低。因此,目前已经有大量针对提高语音合成表现力的研究。
[0003]目前,主要通过在合成的语音中添加一些副语言的特征,如重音、情感、语气等,来提高提高语音合成的自然度,使合成的语音更具有表现力,也即,使合成的语音表现力可控。这样,不仅可以丰富语音的情感表达,更好的突出说话者的观点,而且可以大大提高语音合成的自然度和表现力。
[0004]目前,大多数带风格的语音合成(也即,添加语气特征的语音合成)需要大量标注有风格数据的语料,由于风格数据的标注非常地耗时耗力,并且说话人往往不具备准确把握语气特征的能力,语料质量欠佳,因此,带风格的语音合成效果往往并不好,反而会降低合成语音的音质。但是还是想要合成带语气的语音。/>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取第一文本和第一发音人的信息,所述第一文本携带第一语气标签;通过预先训练的声学模型生成对应所述第一发音人和所述第一文本的第一语气声学特征,所述第一语气声学特征中包含对应所述第一发音人和所述第一文本的声学特征和对应所述第一语气标签的语气特征;将所述第一语气声学特征合成带有语气的第一语音,所述第一语音的语气与所述第一语气标签一致且所述第一语音具有所述第一发音人的发音特征;其中,所述声学模型根据M个第二发音人的语料、所述M个第二发音人的信息和所述第一发音人的信息训练得到,M为大于或等于1的整数。2.根据权利要求1所述的语音合成方法,其特征在于,所述M个第二发音人的语料包括:第二文本;N个语气标签,每个语气标签代表一种语气,N为大于1的整数;内容与所述第二文本一致的N类真实语音,每类真实语音带有一种语气且包含至少一条真实语音,每条所述真实语音对应一个所述第二发音人。3.根据权利要求2所述的语音合成方法,其特征在于,所述语气标签为指示如下语气之一的文本信息:疑问语气;陈述语气;感叹语气。4.根据权利要求2所述的语音合成方法,其特征在于,所述声学模型包括第一编码器、第二编码器和解码器;所述声学模型通过如下方式训练得到:对所述第二文本和N个语气标签同步执行所述第一编码器的处理,以获得N个语气文本特征,所述语气文本特征包含所述语气标签的文本特征和所述第二文本的文本特征;对所述M个第二发音人的信息和所述第一发音人的信息同步执行第二编码器的处理,以获得M个第二发音人的特征和第一发音人的特征;对所述M个第二发音人的特征、第一发音人的特征和所述N个语气文本特征同步执行所述编码器的处理,以获得多个第二语气声学特征;根据所述多个第二语气声学特征与所述语料中相应真实语音的声学特征,更新所述第一编码器、第二编码器和解码器的参数。5.根据权利要求4所述的语音合...

【专利技术属性】
技术研发人员:殷昊梁婷陈云琳
申请(专利权)人:北京羽扇智信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1