语音生成方法、装置、设备和存储介质制造方法及图纸

技术编号：42675489 阅读：22 留言：0更新日期：2024-09-10 12:27

根据本公开的实施例，提供了用于语音生成的方法、装置、设备和存储介质。该方法包括：获取待合成的声学特征；以及利用经训练的语音合成模型中的声码器中的第一预定数目个上采样块，依次执行第一预定数目次的第一迭代过程，直至生成最后一个上采样块输出的目标语音；其中在一次第一迭代过程中，执行以下操作：利用当前上采样块的上采样网络，基于上一个上采样块输出的第一特征来生成第二特征；以及利用当前上采样块的残差栈，基于第二特征，生成待输出到下一个上采样块的特征，其中输入到第一个上采样块的特征为声学特征，最后一个上采样块输出为目标语音。本公开的经训练的语音合成模型的网络结构更加精简，能够有效的提升推理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域，特别地涉及语音生成方法、装置、设备和计算机可读存储介质。

技术介绍

1、伴随着语音合成的快速发展，基于声码器实现高质量的语音合成效果的需求也越来越多。不断推进声码器的合成质量，使其无限的接近真实录音质量，是声码器研究的重要方向。

技术实现思路

1、在本公开的第一方面，提供了一种语音生成的方法。该方法包括：获取待合成的声学特征；以及利用经训练的语音合成模型中的声码器中的第一预定数目个上采样块，依次执行第一预定数目次的第一迭代过程，直至生成最后一个上采样块输出的目标语音，其中上采样块包括上采样网络以及残差栈；其中在一次第一迭代过程中，执行以下操作：利用当前上采样块的上采样网络，基于上一个上采样块输出的第一特征来生成第二特征；以及利用当前上采样块的残差栈，基于第二特征，生成待输出到下一个上采样块的特征，其中输入到第一个上采样块的特征为声学特征，最后一个上采样块输出为目标语音。

2、在本公开的第二方面，提供了一种用于语音生成的装置。该装置包括：获取...

【技术保护点】

1.一种语音生成方法，包括：

2.根据权利要求1所述的方法，其中利用当前上采样块的残差栈，基于所述第二特征，生成待输出到下一个上采样块的特征包括：

3.根据权利要求2所述的方法，其中利用所述当前上采样块中的特征融合层，基于每次迭代过程获得的输出特征，生成第五特征包括：

4.根据权利要求2所述的方法，其中所述第二预定数目次的第二迭代过程对应的空洞卷积块对应的空洞呈指数递增。

5.根据权利要求1所述的方法，其中所述第一预定数目个上采样块对应的上采样网络所应用的上采样倍数不同。

6.一种用于语音生成的装置，包括：</p>

7.一种...

【技术特征摘要】

1.一种语音生成方法，包括：

2.根据权利要求1所述的方法，其中利用当前上采样块的残差栈，基于所述第二特征，生成待输出到下一个上采样块的特征包括：

3.根据权利要求2所述的方法，其中利用所述当前上采样块中的特征融合层，基于每次迭代过程获得的输出特征，生成第五特征包括：

4.根据权利要求2所述的方法，其中所述第二预定数目次的第二迭代过程对应的空洞卷积块对应的空洞呈指数递增。

5.根据权利要求1所...

【专利技术属性】
技术研发人员：宋伟，张雅洁，岳杨皓，吴友政，何晓冬，
申请(专利权)人：京东城市北京数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人