语音合成模型的训练方法、语音合成方法及装置制造方法及图纸

技术编号:37459872 阅读:11 留言:0更新日期:2023-05-06 09:32
本申请提出一种语音合成模型的训练方法、语音合成方法及装置,涉及深度学习、语音技术等人工智能技术领域,语音合成模型的训练方法包括:获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识,至少一个同一说话人标识对应的第一样本音频具有单一风格特征;将第一样本音频对应的第一音素序列以及对应的说话人标识输入语音合成模型,得到第一样本音频的预测声学特征;基于各第一样本音频的预测声学特征和样本声学特征对语音合成模型进行训练。实现了对音频中的音色特征和风格特征的解耦,从而可以利用多个说话人各自对应的具有单一风格特征的音频来训练语音合成模型,进而减少了语音合成模型的训练成本。练成本。练成本。

【技术实现步骤摘要】
语音合成模型的训练方法、语音合成方法及装置


[0001]本申请涉及深度学习、语音技术等人工智能
,尤其涉及一种语音合成模型的训练方法、语音合成方法及装置。

技术介绍

[0002]目前,语音合成技术广泛应用于智能问答、语音播报、有声读物、虚拟主播等场景中。在某些场景下,需要合成同一个说话人不同风格的音频。
[0003]相关技术,为了合成同一说话人不同风格的音频,需要使用每个说话人录制的不同风格的音频作为训练数据,训练生成语音合成模型,由于音频录制成本高,从而语音合成模型的训练成本高。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]本申请提出一种语音合成模型的训练方法、语音合成方法及装置,以解决相关技术中的语音合成模型的训练成本高的技术问题。
[0006]本申请第一方面实施例提出了一种语音合成模型的训练方法,包括:获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识,至少一个同一说话人标识对应的第一样本音频具有单一风格特征;将所述第一样本音频对应的第一音素序列以及对应的说话人标识,输入语音合成模型的编码层,以基于所述说话人标识对应的风格表征和所述第一音素序列,确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征,并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码;将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识,输入所述语音合成模型的解码层,以基于所述说话人标识对应的音色表征和所述文本编码进行解码,得到所述第一样本音频的预测声学特征;基于各所述第一样本音频的预测声学特征和所述样本声学特征对所述语音合成模型进行训练。
[0007]本申请第二方面实施例提出了一种语音合成方法,包括:获取待合成的目标文本对应的第三音素序列,并从候选标识集中获取第一说话人标识和第二说话人标识;将所述第三音素序列和所述第一说话人标识,输入语音合成模型的编码层,以基于所述第一说话人标识对应的风格表征和所述第三音素序列,确定所述第一说话人标识对应的说话人在所述第三音素序列中各音素上的韵律特征,并基于所述第三音素序列和所述韵律特征确定所述第三音素序列在音频帧级别上的文本编码;将所述第三音素序列在音频帧级别上的文本编码和所述第二说话人标识,输入所述语音合成模型的解码层,以基于所述第二说话人标识对应的音色表征和所述文本编码进行解码,得到声学特征;基于所述声学特征,生成所述目标文本对应的目标音频。
[0008]本申请第三方面实施例提出了一种用于语音合成的模型训练装置,包括:第一获取模块,用于获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说
话人标识,至少一个同一说话人标识对应的第一样本音频具有单一风格特征;第一处理模块,用于将所述第一样本音频对应的第一音素序列以及对应的说话人标识,输入语音合成模型的编码层,以基于所述说话人标识对应的风格表征和所述第一音素序列,确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征,并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码;第二处理模块,用于将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识,输入所述语音合成模型的解码层,以基于所述说话人标识对应的音色表征和所述文本编码进行解码,得到所述第一样本音频的预测声学特征;第一训练模块,用于基于各所述第一样本音频的预测声学特征和所述样本声学特征对所述语音合成模型进行训练。
[0009]本申请第四方面实施例提出了一种语音合成装置,包括:第三获取模块,用于获取待合成的目标文本对应的第三音素序列,并从候选标识集中获取第一说话人标识和第二说话人标识;第三处理模块,用于将所述第三音素序列和所述第一说话人标识,输入语音合成模型的编码层,以基于所述第一说话人标识对应的风格表征和所述第三音素序列,确定所述第一说话人标识对应的说话人在所述第三音素序列中各音素上的韵律特征,并基于所述第三音素序列和所述韵律特征确定所述第三音素序列在音频帧级别上的文本编码;第四处理模块,用于将所述第三音素序列在音频帧级别上的文本编码和所述第二说话人标识,输入所述语音合成模型的解码层,以基于所述第二说话人标识对应的音色表征和所述文本编码进行解码,得到声学特征;生成模块,用于基于所述声学特征,生成所述目标文本对应的目标音频。
[0010]本申请第五方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请第一方面实施例提出的语音合成模型的训练方法,或者执行如本申请第二方面实施例提出的语音合成方法。
[0011]本申请第六方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请第一方面实施例提出的语音合成模型的训练方法,或者执行如本申请第二方面实施例提出的语音合成方法。
[0012]本申请第七方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请第一方面实施例提出的语音合成模型的训练方法,或者执行如本申请第二方面实施例提出的语音合成方法。
[0013]上述专利技术中的一个实施例具有如下优点或有益效果:
[0014]实现了对音频中的音色特征和风格特征的解耦,从而可以利用多个说话人各自对应的具有单一风格特征的音频来训练语音合成模型,减少了训练数据中音频的录制成本,进而减少了语音合成模型的训练成本。另外,可以利用同一语音合成模型,灵活生成不同音色不同风格的目标音频,提升了语音合成模型的灵活性,扩展了语音合成模型的适用范围,降低了风格迁移需要的模型数量。
[0015]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0016]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0017]图1为本申请实施例一所提供的语音合成模型的训练方法的流程示意图;
[0018]图2为本申请实施例二所提供的语音合成模型的训练方法的流程示意图;
[0019]图3为本申请实施例二所提供的语音合成模型的结构示意图;
[0020]图4为本申请实施例二所提供的韵律预测模块的结构示意图;
[0021]图5为本申请实施例三所提供的语音合成方法的流程示意图;
[0022]图6为本申请实施例三所提供的目标音频a和目标音频b的音高特征的示意图;
[0023]图7为本申请实施例三所提供的目标音频c和目标音频d的音高特征的示意图;
[0024]图8为本申请实施例三所提供的目标音频e和目标音频f的音高特征的示意图;
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识,至少一个同一说话人标识对应的第一样本音频具有单一风格特征;将所述第一样本音频对应的第一音素序列以及对应的说话人标识,输入语音合成模型的编码层,以基于所述说话人标识对应的风格表征和所述第一音素序列,确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征,并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码;将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识,输入所述语音合成模型的解码层,以基于所述说话人标识对应的音色表征和所述文本编码进行解码,得到所述第一样本音频的预测声学特征;基于各所述第一样本音频的预测声学特征和所述样本声学特征对所述语音合成模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述编码层包括依次连接的第一嵌入模块、编码器、韵律预测模块和第二嵌入模块;所述将所述第一样本音频对应的第一音素序列以及对应的说话人标识,输入语音合成模型的编码层,以基于所述说话人标识对应的风格表征和所述第一音素序列,确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征,并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码,包括:将所述说话人标识输入所述第二嵌入模块,得到所述说话人标识对应的风格表征;将所述第一音素序列输入所述第一嵌入模块,得到所述第一音素序列中各音素的文本表征,并将各所述音素的文本表征输入所述编码器,得到各所述音素的文本编码;将各所述音素的文本编码和所述风格表征输入所述韵律预测模块,得到所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征,并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码。3.根据权利要求2所述的方法,其特征在于,所述韵律预测模块包括韵律预测单元和韵律处理单元;所述韵律特征包括音高特征、能量特征和时长特征;所述将各所述音素的文本编码和所述风格表征输入所述韵律预测模块,得到所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征,并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码,包括:将各所述音素的文本编码和所述风格表征,输入所述韵律预测单元,得到所述说话人标识对应的说话人在各所述音素上的音高特征、能量特征和时长特征;将各所述音素的文本编码和所述说话人在各所述音素上的音高特征、能量特征和时长特征,输入韵律处理单元,以将所述说话人在各所述音素上的音高特征和能量特征与各所述音素的文本编码进行融合,得到各所述音素的融合编码,并基于所述说话人在各所述音素上的时长特征,将各所述音素的融合编码扩展到音频帧级别,得到所述第一音素序列在音频帧级别上的文本编码。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述解码层,包括与所述编码层连接的解码器和与所述解码器连接的第三嵌入模块;所述将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识,
输入所述语音合成模型的解码层,以基于所述说话人标识对应的音色表征和所述文本编码进行解码,得到所述第一样本音频的预测声学特征,包括:将所述说话人标识输入所述第三嵌入模块,得到所述说话人标识对应的音色表征;将所述音色表征和所述第一音素序列在所述音频帧级别上的文本编码输入所述解码器,以基于所述音色表征和所述文本编码进行解码,得到所述预测声学特征。5.根据权利要求2或3所述的方法,其特征在于,所述基于各所述第一样本音频的预测声学特征和所述样本声学特征对所述语音合成模型进行训练之后,还包括:获取至少一个包含噪声的第二样本音频的样本声学特征、对应的第二音素序列以及对应的说话人标识;基于所述至少一个包含噪声的第二样本音频的样本声学特征、对应的第二音素序列以及对应的说话人标识,对所述韵律预测模块进行训练。6.一种语音合成方法,其特征在于,所述方法包括:获取待合成的目标文本对应的第三音素序列,并从候选标识集中获取第一说话人标识和第二说话人标识;将所述第三音素序列和所述第一说话人标识,输入语音合成模型的编码层,以基于所述第一说话人标识对应的风格表征和所述第三音素序列,确定所述第一说话人标识对应的说话人在所述第三音素序列中各音素上的韵律特征,并基于所述第三音素序列和所述韵律特征确定所述第三音素序列在音频帧级别上的文本编码;将所述第三音素序列在音频帧级别上的文本编码和所述第二说话人标识,输入所述语音合成模型的解码层,以基于所述第二说话人标识对应的音色表征和所述文本编码进行解码,得到声学特征;基于所述声学特征,生成所述目标文本对应的目标音频。7.一种语音合成模型的训练装置,...

【专利技术属性】
技术研发人员:宋伟张雅洁岳杨皓张政臣吴友政
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1