语音合成方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：40901561 阅读：5 留言：0更新日期：2024-04-18 11:19

本申请提供了一种语音合成方法、装置、存储介质及计算机设备，引入了韵律预测模型，从而可根据待合成文本的文本语义预测合成语音音频中的语调和韵律分布，进而可提高后续生成的合成语音音频的自然流畅度。同时，由于条件变分自编码器可准确捕捉、预测语音音频的数据分布，因此，本申请使用基于条件变分自编码器构建的语音合成模型，并将韵律预测模型输出的目标韵律向量作为语音合成模型的输入量之一，使得语音合成模型可基于条件变分自编码器和目标韵律向量生成更高质量的语音线性谱数据。由此可见，本申请通过综合韵律预测和变分推断，可提高合成语音音频在韵律方面的表现，使得合成语音音频更加流畅和自然，进而可提高语音合成质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音合成，尤其涉及一种语音合成方法、装置、存储介质及计算机设备。

技术介绍

1、语音合成是指利用计算机自动生成输入文本对应的语音音频的技术，已被广泛应用于语音助手、有声读物、电话客服等领域中。随着深度学习技术的兴起和发展，目前提出的语音合成方案越来越多地依赖深度神经网络，以利用深度神经网络建模语音生成过程，从而生成更为流畅和自然的语音音频。现有的一些方案可通过注意力机制和神经网络架构，动态关注输入文本中的不同部分，以进一步提高语音音频的自然度。

2、然而，经专利技术人研究发现，现有技术虽然通过注意力机制来提高语音音频的自然度，但其仍然难以较好地捕捉真实人类语音的复杂语调和韵律，导致合成所得的语音音频在韵律上表现不佳，特别是长文本的语音合成场景。由此可见，现有技术存在语音合成质量低的问题。

技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中语音合成质量低的技术缺陷。

2、第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：

3、获取待合成文本；

4、对所述待合成文本进行文本预处理，并得到预处理文本序列；

5、将所述预处理文本序列输入至韵律预测模型中，以得到由所述韵律预测模型输出的目标韵律向量；其中，所述韵律预测模型用于根据文本语义预测韵律；

6、根据所述目标韵律向量生成模型输入向量；

7、将所述模型输入向量输入至基于条件变分自编码器构建的语音合成模型中，

8、根据所述语音线性谱数据生成对应于所述待合成文本的合成语音音频。

9、在其中一个实施例中，所述将所述预处理文本序列输入至韵律预测模型中，以得到由所述韵律预测模型输出的目标韵律向量，包括：

10、将所述预处理文本序列输入至所述韵律预测模型的bert模型中，以得到由所述bert模型输出的n个m×1维的韵律嵌入向量；其中，n和m均为正整数；

11、将n个所述韵律嵌入向量组合为m×n维的第一中间向量；

12、确定噪声值，并将所述噪声值和所述第一中间向量输入至所述韵律预测模型的扩散模型中，以得到由所述扩散模型输出的去噪韵律向量；

13、根据所述去噪韵律向量生成所述目标韵律向量。

14、在其中一个实施例中，所述去噪韵律向量为k×n维的向量，k为正整数；

15、所述根据所述去噪韵律向量生成所述目标韵律向量，包括：

16、将所述去噪韵律向量拆分为n个k×1维的第二中间向量；

17、将n个所述第二中间向量进行相加，以得到所述目标韵律向量。

18、在其中一个实施例中，所述语音合成模型的训练过程为：

19、在当前训练轮次中，根据所述韵律预测模型分别生成每组训练样本中训练文本对应的训练输入向量；其中，每组所述训练样本均包括训练文本和预先采集的对应于该训练文本的训练语音音频；

20、分别将各个所述训练输入向量输入至基于条件变分自编码器构建的语音合成模型中，并得到每个所述训练输入向量对应的训练线性谱数据；

21、根据各个所述训练线性谱数据，计算当前训练轮次对应的kl散度值；

22、根据各个所述训练线性谱数据和各个所述训练语音音频，计算当前训练轮次对应的重构损失值；

23、基于当前训练轮次对应的kl散度值和当前训练轮次对应的重构损失值，更新语音合成模型的参数权重；

24、在不满足训练结束条件的情况下，进入下一训练轮次。

25、在其中一个实施例中，所述根据各个所述训练线性谱数据和各个所述训练语音音频，计算当前训练轮次对应的重构损失值，包括：

26、分别计算每一所述训练语音音频对应的目标梅尔频谱数据；

27、分别获取每一所述训练线性谱数据对应的训练梅尔频谱数据；

28、基于各个所述目标梅尔频谱数据和各个所述训练梅尔频谱数据，计算当前训练轮次对应的重构损失值。

29、在其中一个实施例中，所述对所述待合成文本进行文本预处理，并得到预处理文本序列，包括：

30、对所述待合成文本进行文本清洗及规范化处理，以得到规范化文本；

31、对所述规范化文本进行分词断句处理，以得到原始文本序列；

32、对所述原始文本序列进行文本正则化处理，以得到所述预处理文本序列。

33、在其中一个实施例中，所述根据所述语音线性谱数据生成对应于所述待合成文本的合成语音音频，包括：

34、将所述语音线性谱数据输入至基于对抗神经网络的hifi-gan模型中，以得到由所述hifi-gan模型输出的对应于所述待合成文本的所述合成语音音频。

35、第二方面，本申请实施例提供了一种语音合成装置，其特征在于，所述装置包括：

36、文本获取模块，用于获取待合成文本；

37、文本预处理模块，用于对所述待合成文本进行文本预处理，并得到预处理文本序列；

38、韵律预测模块，用于将所述预处理文本序列输入至韵律预测模型中，以得到由所述韵律预测模型输出的目标韵律向量；其中，所述韵律预测模型用于根据文本语义预测韵律；

39、输入向量生成模块，用于根据所述目标韵律向量生成模型输入向量；

40、语音线性谱数据获取模块，用于将所述模型输入向量输入至基于条件变分自编码器构建的语音合成模型中，以得到由所述语音合成模型输出的语音线性谱数据；

41、音频生成模块，用于根据所述语音线性谱数据生成对应于所述待合成文本的合成语音音频。

42、第三方面，本申请实施例提供了一种存储介质，该存储介质中存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述语音合成方法的步骤。

43、第四方面，本申请实施例提供了一种计算机设备，该计算机设备包括：一个或多个处理器，以及存储器；

44、所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行上述任一实施例所述语音合成方法的步骤。

45、在本申请一些实施例提供的语音合成方法、装置、存储介质及计算机设备中，引入了韵律预测模型，从而可根据待合成文本的文本语义预测合成语音音频中的语调和韵律分布，进而可提高后续生成的合成语音音频的自然流畅度。同时，由于条件变分自编码器可准确捕捉、预测语音音频的数据分布，因此，本申请使用基于条件变分自编码器构建的语音合成模型，并将韵律预测模型输出的目标韵律向量作为语音合成模型的输入量之一，使得语音合成模型可基于条件变分自编码器和目标韵律向量生成更高质量的语音线性谱数据。由此可见，本申请通过综合韵律预测和变分推断，可提高合成语音音频在韵律方面的表现，使得合成语音音频更加流畅和自然，进而可提高语音合成质量。

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述预处理文本序列输入至韵律预测模型中，以得到由所述韵律预测模型输出的目标韵律向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述去噪韵律向量为K×N维的向量，K为正整数；

4.根据权利要求1所述的方法，其特征在于，所述语音合成模型的训练过程为：

5.根据权利要求4所述的方法，其特征在于，所述根据各个所述训练线性谱数据和各个所述训练语音音频，计算当前训练轮次对应的重构损失值，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述待合成文本进行文本预处理，并得到预处理文本序列，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述语音线性谱数据生成对应于所述待合成文本的合成语音音频，包括：

8.一种语音合成装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多

10.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述去噪韵律向量为k×n维的向量，k为正整数；

4.根据权利要求1所述的方法，其特征在于，所述语音合成模型的训练过程为：

5.根据权利要求4所述的方法，其特征在于，所述根据各个所述训练线性谱数据和各个所述训练语音音频，计算当前训练轮次对应的重构损失值，包括：

6.根据权利要求1...

【专利技术属性】
技术研发人员：曾锐鸿，廖艳冰，马飞，兰翔，张政统，邓其春，黄祥康，黎子骏，吴文亮，盘子圣，王伟喆，马金龙，熊佳，徐志坚，陈光尧，谢睿，
申请(专利权)人：广州趣研网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人