System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于对比学习的语音合成模型训练方法、装置及合成方法制造方法及图纸_技高网

基于对比学习的语音合成模型训练方法、装置及合成方法制造方法及图纸

技术编号:40084637 阅读:5 留言:0更新日期:2024-01-23 15:15
本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。

【技术实现步骤摘要】

本申请涉及语音合成领域,尤其涉及一种基于对比学习的语音合成模型训练方法、装置及合成方法


技术介绍

1、近期在语音合成系统的进步已经使得生成高质量的语音成为可能,并已被应用于如智能客服助手和有声读物等领域。然而,这些系统在如人机交互等场景中仍然存在不足,无法生成与人类自然对话相匹配的韵律。心理学发现表明,当我们理解一个正在展开的句子时,我们的大脑会非常迅速地利用广泛的信息,包括之前所说的内容以及说话者是谁,以帮助我们理解正在对我们说的话。和人类相似,一些研究验证,在语音合成系统额外加入历史上下文信息,有助于提高韵律自然度。因此,对话语音合成系统尝试在理解历史的对话信息的基础上,生成更自然、贴近真实人类对话的语音。

2、然而,现有的对话语音合成系统普遍基于无监督的训练方式,对于历史语境没有得到有效的理解,因此如何有效建模上下文,让对话语音合成系统生成出适合上下文风格的语音仍然是一个尚未解决的问题。


技术实现思路

1、鉴于此,本申请实施例提供了一种基于对比学习的语音合成模型训练方法、装置及合成方法,以消除或改善现有技术中存在的一个或更多个缺陷。

2、本申请的第一个方面提供了一种基于对比学习的语音合成模型训练方法,该方法包括:

3、基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;

4、基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;

5、基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;

6、基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;

7、基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。

8、在本申请的一些实施例中,所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:

9、将各个所述样本中的对话文本输入所述文本训练模型中,输出得到各个所述对话文本各自对应的对话文本向量;

10、将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;

11、将各个所述对话文本向量与各自对应的对话人标识向量进行拼接得到各个所述对话文本各自对应的文本嵌入向量。

12、在本申请的一些实施例中,所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:

13、将各个所述样本中的对话语音输入预先获取的语音训练模型中,输出得到各个所述对话语音各自对应的对话语音向量;

14、将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;

15、将各个所述对话语音向量与各自对应的对话人标识向量进行拼接,得到各个所述对话语音各自对应的语音嵌入向量。

16、在本申请的一些实施例中,所述基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,包括:

17、将所述目标对话文本输入所述韵律语言模型以得到目标对话韵律向量;

18、将所述潜在韵律风格向量输入预设的注意力机制模块以得到目标潜在韵律风格向量;

19、将所述目标对话韵律向量、目标潜在韵律风格向量和目标对话人标识进行相加及归一化后得到所述潜在韵律风格向量序列。

20、在本申请的一些实施例中,所述基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音,包括:

21、基于音素转换器将所述目标对话文本转换为对应的音素序列;

22、将各个所述历史对话文本向量和历史语音向量,以及所述音素序列和潜在韵律风格向量序列输入文本编码器中以得到目标文本嵌入序列;

23、将所述目标文本嵌入序列输入线性映射层以得到语音分布序列;

24、基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音。

25、在本申请的一些实施例中,所述基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音,包括:

26、将所述目标对话语音转化为梅尔频谱;

27、基于损失单调对齐搜索算法将所述语音分布序列扩展为与所述梅尔频谱长度相同的梅尔嵌入向量序列;

28、将所述目标对话人标识输入对话人编码器以得到目标说话人嵌入向量;

29、将所述梅尔嵌入向量序列和目标说话人嵌入向量输入解码器中以得到目标梅尔频谱;

30、将所述目标梅尔频谱输入损失声码器中以得到所述目标合成语音。

31、本申请的第二个方面还提供了一种基于对比学习的语音合成方法,该方法包括:

32、从当前多人对话数据记录中确定待合成对话文本,以及该待合成对话文本的对话人标识;

33、将所述待合成对话文本和对话人标识输入第一方面所述的基于对比学习的语音合成模型训练方法训练得到的语音合成模型,以输出得到该待合成对话文本对应的合成语音。

34、本申请的第三个方面提供了一种基于对比学习的语音合成模型训练装置,该装置包括:

35、样本编码模块,用于基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;

36、损失计算模块,用于基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负本文档来自技高网...

【技术保护点】

1.一种基于对比学习的语音合成模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:

3.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:

4.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,包括:

5.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音,包括:

6.根据权利要求5所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音,包括:

7.一种基于对比学习的语音合成方法,其特征在于,包括:

8.一种基于对比学习的语音合成模型训练装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于对比学习的语音合成模型训练方法,或者,实现权利要求7所述的基于对比学习的语音合成方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于对比学习的语音合成模型训练方法,或者,实现权利要求7所述的基于对比学习的语音合成方法。

...

【技术特征摘要】

1.一种基于对比学习的语音合成模型训练方法,其特征在于,包括:

2.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:

3.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:

4.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,包括:

5.根据权利要求1所述的基于对比学习的语音合成模型训练方法,其特征在于,所述基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合...

【专利技术属性】
技术研发人员:李雅邓雅月薛锦隆高迎明王风平
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1