语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：40363329 阅读：5 留言：0更新日期：2024-02-09 14:51

本申请涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取源说话对象朗读语音数据时的朗读情感信息；对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。采用本方法能够有效提高情感语音的合成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音，特别是涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

1、近几年来，随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展，促进了人机交互方式的极大转变。而其中，语音合成是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的关键技术。语音合成系统作为语音交互闭环的核心系统之一，如何让合成语音包含更丰富的情感是个性化语音合成及提高语音合成表现力的重要因素。

2、相关技术中的情感语音合成方式，往往通过录制并制作统一风格的语料库实现统一风格的情感语音合成，或通过录制并制作多种固定风格的语料库实现多种固定风格的情感语音合成。然而这些情感语音合成方案，往往需要花费大量时间和人力成本，导致情感语音合成效率较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高情感语音合成效率的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种语音合成方法，包括：

3、获取源说话对象朗读语音数据时的朗读情感信息；

4、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

5、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

6、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

7、在其中一个实施例中，所述情感转移语音合成模型包括韵律预测单元和拼接单元；所述将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音，包括：

8、将所述音素向量序列输入至所述韵律预测单元，通过所述韵律预测单元提取所述音素向量序列对应的韵律信息，得到目标预测韵律信息；所述目标预测韵律信息包括预测韵律特征向量；

9、将所述预测韵律特征向量和所述音色情感融合向量输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量和所述音色情感融合向量进行拼接处理，得到所述情感迁移语音。

10、在其中一个实施例中，所述将所述预测韵律特征向量和所述音色情感融合向量输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量和所述音色情感融合向量进行拼接处理，得到所述情感迁移语音，包括：

11、获取所述音素向量序列对应的音素时长向量序列；所述音素时长向量序列为基于所述待合成语音文本对应的每个音素的时长信息确定得到的；

12、将所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列进行拼接处理，得到所述情感迁移语音。

13、在其中一个实施例中，所述情感转移语音合成模型还包括语音解码单元；所述通过所述拼接单元对所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列进行拼接处理，得到所述情感迁移语音，包括：

14、通过所述拼接单元对所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列进行拼接处理，得到拼接后结果；

15、将所述拼接后结果输入至所述语音解码单元，通过所述语音解码单元对所述拼接后结果进行解码处理，得到目标梅尔谱图；

16、根据所述目标梅尔谱图，生成所述情感迁移语音。

17、在其中一个实施例中，所述获取源说话对象朗读语音数据时的朗读情感信息，包括：

18、获取音律模型；所述音律模型包括韵律特征提取单元；

19、将所述语音数据输入至所述韵律特征提取单元；

20、通过所述韵律特征提取单元提取所述语音数据的韵律特征，得到所述源说话对象朗读所述语音数据时的朗读情感信息。

21、在其中一个实施例中，所述音律模型还包括韵律编码单元；所述对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量，包括：

22、将所述朗读情感信息和所述目标说话对象对应的对象标识输入至所述韵律编码单元；

23、通过所述韵律编码单元根据所述对象标识，将所述目标说话对象对应的对象音色嵌入向量，添加至所述朗读情感信息对应的韵律向量中，得到所述音色情感融合向量。

24、在其中一个实施例中，所述朗读情感信息包括能量信息、音高信息和梅尔谱图信息，所述方法还包括：

25、通过所述韵律编码单元对所述梅尔谱图信息进行编码，得到梅尔谱图编码结果；

26、通过所述韵律编码单元分别对所述能量信息和所述音高信息进行投影，得到能量投影结果和音高投影结果；

27、通过所述韵律编码单元对所述梅尔谱图编码结果、所述能量投影结果和所述音高投影结果进行相加处理，得到所述朗读情感信息对应的韵律向量。

28、第二方面，本申请还提供了一种语音合成装置，包括：

29、获取模块，用于获取源说话对象朗读语音数据时的朗读情感信息；

30、融合模块，用于对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

31、输入模块，用于获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

32、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

33、第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

34、获取源说话对象朗读语音数据时的朗读情感信息；

35、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

36、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

37、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

38、第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

39、获取源说话对象朗读语音数据时的朗读情感信息；

40、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

41、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

42、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

43、第五方面，本申请还提供了一种计本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述情感转移语音合成模型包括韵律预测单元和拼接单元；所述将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述预测韵律特征向量和所述音色情感融合向量输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量和所述音色情感融合向量进行拼接处理，得到所述情感迁移语音，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取源说话对象朗读语音数据时的朗读情感信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述音律模型还包括韵律编码单元；所述对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述朗读情感信息包括能量信息、音高信息和梅尔谱图信息，所述方法还包括：

7.一种语音合成装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，所述方法包括：

4.根据权利要求1所述的方法，其特征在于，所述获取源说话对象朗读语音数据时的朗读情感信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述音律模型还包括韵律编码单元；所述对所述朗读情感信息和目标...

【专利技术属性】
技术研发人员：周阳，兰翔，盘子圣，马金龙，熊佳，徐志坚，谢睿，陈光尧，黄祥康，曾锐鸿，吴辉扬，刘畅，
申请(专利权)人：广州趣研网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人