一种语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28424805 阅读:31 留言:0更新日期:2021-05-11 18:33
本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:将初始语音输入至韵律学模型,得到韵律学特征;将韵律学特征和目标音色特征输入至语音合成模型,得到语音合成模型输出的合成结果;其中,韵律学模型是基于各第一语音训练得到的,各第一语音是基于相同的第一韵律学特征和不同的音色合成的;语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的,第二韵律学特征是将第二语音输入韵律学模型得到的。本发明专利技术提供的方法、装置、电子设备和存储介质,韵律学模型输出的韵律学特征与音色无关,提高了语音合成的可靠性和准确性;此外,韵律学模型是针对各语种通用的,极大降低了语音合成任务的实现难度。

【技术实现步骤摘要】
一种语音合成方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理
,尤其涉及一种语音合成方法、装置、电子设备和存储介质。
技术介绍
多语种的语音合成可以通过单一语音合成系统实现跨语种、跨发言人的音色转换。目前的语音合成系统通常包含前端模块和语音合成模型两个部分,其中前端模块用于文本分析、韵律预测、文本音素转换等,这需要对语言知识进行详细了解,其构建过程需要耗费大量人力和时间投入。而在多语种的语音合成任务中,大量语种的前端模块极难获得,这对于多语种语音合成任务带来极大困难。
技术实现思路
本专利技术提供一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中前端模块构建难度大导致语音合成实现困难的缺陷。本专利技术提供一种语音合成方法,包括:将初始语音输入至韵律学模型,得到所述韵律学模型输出的韵律学特征;将所述韵律学特征和目标音色特征输入至语音合成模型,得到所述语音合成模型输出的合成结果;其中,所述韵律学模型是基于各第一语音训练得到的,所述各第一语音是基于相同的第一韵律学本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n将初始语音输入至韵律学模型,得到所述韵律学模型输出的韵律学特征;/n将所述韵律学特征和目标音色特征输入至语音合成模型,得到所述语音合成模型输出的合成结果;/n其中,所述韵律学模型是基于各第一语音训练得到的,所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的;所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的,所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
将初始语音输入至韵律学模型,得到所述韵律学模型输出的韵律学特征;
将所述韵律学特征和目标音色特征输入至语音合成模型,得到所述语音合成模型输出的合成结果;
其中,所述韵律学模型是基于各第一语音训练得到的,所述各第一语音是基于相同的第一韵律学特征和不同的音色合成的;所述语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的,所述第二韵律学特征是将对应第二语音输入所述韵律学模型得到的。


2.根据权利要求1所述的语音合成方法,其特征在于,所述韵律学模型是基于如下步骤训练得到的:
将样本语音输入至基线韵律学模型,得到所述基线韵律学模型输出的第一韵律学特征;
将所述第一韵律学特征分别与不同的目标音色特征输入至基线语音合成模型,得到所述基线语音合成模型输出的对应不同音色的第一合成结果;
基于所述第一韵律学特征以及各第一合成结果对应的第一语音,训练所述基线韵律学模型,得到所述韵律学模型。


3.根据权利要求1所述的语音合成方法,其特征在于,所述将所述韵律学特征输入至语音合成模型,得到所述语音合成模型输出的合成结果,包括:
将所述韵律学特征输入至所述语音合成模型的文本编码层,得到所述文本编码层输出的文本特征;
将所述文本特征和所述目标音色特征输入至所述语音合成模型的解码层,得到所述解码层输出的合成结果。


4.根据权利要求3所述的语音合成方法,其特征在于,所述文本编码层是与说话人识别模型对抗训练得到的,所述说话人识别模型用于对对抗文本特征进行说话人识别,所述对抗文本特征是对所述文本编码层的输出进行梯度反转得到的。


5.根据权利要求3所述的语音合成方法,其特征在于,所述将所述文本特征和所述目标音色特征输入至所述语音合成模型的解码层,得到所述解码层输出的合成结果,包括:
将上一解码时刻的解码结...

【专利技术属性】
技术研发人员:宋飞豹宋锐侯秋侠孟亚洲江源
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1