语音合成处理方法及其装置、设备、介质制造方法及图纸

技术编号：40278229 阅读：10 留言：0更新日期：2024-02-02 23:06

本申请涉及语音合成技术领域中一种语音合成处理方法及其装置、设备、介质，所述方法包括：获取多个第一文本及其相对应的音色素材语音数据，根据第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量，构造出第一训练集。获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，根据第二文本的音素序列及其中各个音素在该第二文本的个性化语音数据中的时长信息、音高、音量，构造出第二训练集。采用第一训练集预训练语音合成模型至收敛状态，获得基础语音合成模型。采用第二训练集微调训练所述基础语音合成模型至收敛状态，获得个性化语音合成模型。由此可合成优质的个性化语音。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音合成，尤其涉及一种语音合成处理方法及其相应的装置、计算机设备、计算机可读存储介质。

技术介绍

1、随着时代的发展，个性化语音合成的需求不断增加。这种技术可以为智能家居、智能医疗和智能客服等领域提供更加智能、个性化的语音服务。通过定制化的语音效果，个性化语音合成可以提升用户体验、增强品牌形象，并为用户提供更加智能、高效的服务。随着技术的进步，个性化语音合成的应用场景将进一步拓展，为人们的生活和工作带来更多便利和创新。

2、传统技术中，通常采用个性化语音合成模型以输入文本合成对应个性化语音，为了使得个性化语音合成模型具备这样的能力，需要预先对该个性化合成模型进行训练，而训练所需的音频数据通常由录音人录制而成，然而普遍录音人都不具备专业录音棚这样安静的录音环境条件，导致录制出的音频数据的音质低，存在噪声、咬字不清、人声发音不清楚等问题，进而受限于使用这样的音频数据训练出的个性化语音合成模型的能力有限，无法合成高质量的个性化语音。

3、鉴于传统技术的不足，本申请人长期从事相关领域的研究，为解决数据库信息处理领域业内难题，故另辟蹊径。

技术实现思路

1、本申请的首要目的在于解决上述问题至少之一而提供一种语音合成处理方法及其相应的装置、计算机设备、计算机可读存储介质。

2、为满足本申请的各个目的，本申请采用如下技术方案：

3、适应本申请的目的之一而提供的一种语音合成处理方法，包括如下步骤：

4、获取多个第一文本及其相对应

5、获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，根据所述第二文本的音素序列及其中各个音素在该第二文本的个性化语音数据中的时长信息、音高、音量，构造出第二训练集；

6、采用所述第一训练集预训练语音合成模型至收敛状态，获得基础语音合成模型；

7、采用所述第二训练集微调训练所述基础语音合成模型至收敛状态，获得个性化语音合成模型。

8、进一步的实施例中，获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，包括如下步骤：

9、响应语音录制事件，获取所述语音录制事件对应产生的音频数据；

10、采用预设的语音识别模型识别所述音频数据，获得所述音频数据中人声发音相对应的第二文本。

11、进一步的实施例中，获取多个第一文本及其相对应的音色素材语音数据，包括如下步骤：

12、根据多个预设语种，获取每个预设语种相对应的多个第一文本；

13、采用预设的语音生成模型，根据指定的音色生成所述第一文本的音色素材语音数据。

14、进一步的实施例中，根据所述第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量，构造出第一训练集，包括如下步骤：

15、获取所述第一文本、该第一文本的音色素材语音数据、发音词典；

16、对所述第一文本进行文本预处理，根据所述发音词典对文本预处理后的第一文本进行字音转换，获得相应的音素序列；

17、将所述音素序列中各个音素与在所述音色素材语音数据中的语音数据片段进行对齐，获得各个音素在该音色素材语音数据中的时长信息。

18、进一步的实施例中，获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，包括如下步骤：

19、对所述第二文本的音频数据进行语音降噪处理，获得第一增强语音数据；

20、对所述第一增强语音数据进行人声增强处理，获得第二增强语音数据；

21、对所述第二增强语音数据进行语音切分处理，获得第三增强语音数据；

22、对所述第三语音增强数据进行音量均衡处理，获得个性化语音数据。

23、进一步的实施例中，对所述第二增强语音数据进行语音切分处理，获得第三增强语音数据，包括如下步骤：

24、识别出第二增强语音数据中的静音片段；

25、以所述静音片段为界，对所述第二增强语音数据进行切分，获得相应的多个人声发音的语音数据片段；

26、保留每个所述语音数据片段前后对应预设时长的静音片段而提取出各个所述语音数据片段，构成第三增强语音数据。

27、进一步的实施例中，获得个性化语音合成模型之后，包括如下步骤：

28、响应个性化语音合成请求，获取个性化语音合成请求携带的提交文本；

29、对所述提交文本进行合法性校验，当确认该提交文本通过合法性校验时，确定出该提交文本对应的音素序列，采用所述个性化语音合成模型根据音素序列合成相应的个性化语音。

30、另一方面，适应本申请的目的之一而提供的一种语音合成处理装置，包括第一训练集构造模块、第二训练集构造模块、模型预训练模块以及模型微调训练模块，其中，第一训练集构造模块，用于获取多个第一文本及其相对应的音色素材语音数据，根据所述第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量，构造出第一训练集；第二训练集构造模块，用于获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，根据所述第二文本的音素序列及其中各个音素在该第二文本的个性化语音数据中的时长信息、音高、音量，构造出第二训练集；模型预训练模块，用于采用所述第一训练集预训练语音合成模型至收敛状态，获得基础语音合成模型；模型微调训练模块，用于采用所述第二训练集微调训练所述基础语音合成模型至收敛状态，获得个性化语音合成模型。

31、进一步的实施例中，所述第二训练集构造模块，包括：事件响应子模块，用于响应语音录制事件，获取所述语音录制事件对应产生的音频数据；语音识别子模块，用于采用预设的语音识别模型识别所述音频数据，获得所述音频数据中人声发音相对应的第二文本。

32、进一步的实施例中，所述第一训练集构造模块，包括：多语种获取子模块，用于根据多个预设语种，获取每个预设语种相对应的多个第一文本；语音生成子模块，用于采用预设的语音生成模型，根据指定的音色生成所述第一文本的音色素材语音数据。

33、进一步的实施例中，所述第一训练集构造模块，包括：数据获取子模块，用于获取所述第一文本、该第一文本的音色素材语音数据、发音词典；音色序列确定子模块，用于对所述第一文本进行文本预处理，根据所述发音词典对文本预处理后的第一文本进行字音转换，获得相应的音素序列；音文对齐子模块，用于将所述音素序列中各个音素与在所述音色素材语音数据中的语音数据片段进行对齐，获得各个音素在该音色素材语音数据中的时长信息。

34、进一步的实施例中，所述第二训练集构造模块，包括：语音降噪子模块，用于对所述第二文本的音频数据进行语音降噪处理，获得第一增强语音数据；本文档来自技高网...

【技术保护点】

1.一种语音合成处理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的提示生成方法，其特征在于，获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，包括如下步骤：

3.根据权利要求1所述的语音合成处理方法，其特征在于，获取多个第一文本及其相对应的音色素材语音数据，包括如下步骤：

4.根据权利要求1所述的语音合成处理方法，其特征在于，根据所述第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量，构造出第一训练集，包括如下步骤：

5.根据权利要求1中任意一项所述的语音合成处理方法，其特征在于，获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，包括如下步骤：

6.根据权利要求5所述的语音合成处理方法，其特征在于，对所述第二增强语音数据进行语音切分处理，获得第三增强语音数据，包括如下步骤：

7.根据权利要求1所述的语音合成处理方法，其特征在于，获得个性化语音合成模型之后，包括如下步骤：

8.一种语音合成处理装置，其特征在于，包括：

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

...

【技术特征摘要】

1.一种语音合成处理方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的语音合成处理方法，其特征在于，获取多个第一文本及其相对应的音色素材语音数据，包括如下步骤：

5.根据权利要求1中任意一项所述的语音合成处理方法，其特征在于，获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据，包括如下步骤...

【专利技术属性】
技术研发人员：韦军富，苏嘉昌，
申请(专利权)人：广州欢聚时代信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人