语音波形生成方法、装置、服务器及存储介质制造方法及图纸

技术编号：29062177 阅读：18 留言：0更新日期：2021-06-30 09:05

本申请实施例提供一种语音波形生成方法、装置、服务器及存储介质，该方法包括：获取输入文本；从输入文本中提取条件特征；将条件特征输入训练得到的波形生成模型，对条件特征进行处理，得到语音波形；波形生成模型包括先验分布估计网络和波形生成网络，先验分布估计网络在训练阶段用于学习自然语音波形的编码信息，波形生成网络用于根据条件特征和先验分布估计网络的输出结果生成语音波形。本申请实施例可以提高波形生成效率。可以提高波形生成效率。可以提高波形生成效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音波形生成方法、装置、服务器及存储介质

[0001]本申请涉及机器学习
，具体涉及一种语音波形生成方法、装置、服务器及存储介质。

技术介绍

[0002]近年来，随着深度学习的快速发展，语音波形生成方法的研究也得到了长足的发展，各种基于深度神经网络的波形生成模型纷纷涌现，如基于卷积神经网络(Convolutional Neural Network，CNN)的WaveNet、基于循环神经网络的WaveRNN等。WaveNet这类波形生成方法都是基于自回归的方式逐点生成语音波形，对于语音这种高时域分辨率的波形序列，其波形生成效率很低。

技术实现思路

[0003]本申请实施例提供一种语音波形生成方法、装置、服务器及存储介质，可以提高波形生成效率。
[0004]本申请实施例的第一方面提供了一种语音波形生成方法，包括：
[0005]获取输入文本；
[0006]从所述输入文本中提取条件特征；
[0007]将所述条件特征输入训练得到的波形生成模型，对所述条件特征进行处理，得到语音波形；所述波形生成模型包括先验分布估计网络和波形生成网络，所述先验分布估计网络在训练阶段用于学习自然语音波形的编码信息，所述波形生成网络用于根据所述条件特征和所述先验分布估计网络的输出结果生成所述语音波形。
[0008]本申请实施例的第二方面提供了一种模型训练方法，所述方法包括：
[0009]获取语音训练样本，所述语音训练样本包括自然语音波形和与所述自然语音波形对应的文本；
[0...

【技术保护点】

【技术特征摘要】
1.一种语音波形生成方法，其特征在于，包括：获取输入文本；从所述输入文本中提取条件特征；将所述条件特征输入训练得到的波形生成模型，对所述条件特征进行处理，得到语音波形；所述波形生成模型包括先验分布估计网络和波形生成网络，所述先验分布估计网络在训练阶段用于学习自然语音波形的编码信息，所述波形生成网络用于根据所述条件特征和所述先验分布估计网络的输出结果生成所述语音波形。2.根据权利要求1所述的方法，其特征在于，所述对所述条件特征进行处理，得到语音波形，包括：利用所述先验分布估计网络根据所述条件特征得到所述先验分布估计网络的输出结果，从所述先验分布估计网络的输出结果中确定所述条件特征的隐变量；利用所述波形生成网络根据所述条件特征和所述条件特征的隐变量生成所述语音波形。3.根据权利要求2所述的方法，其特征在于，所述利用所述先验分布估计网络根据所述条件特征得到所述先验分布估计网络的输出结果，从所述先验分布估计网络的输出结果中确定所述条件特征的隐变量，包括：利用所述先验分布估计网络根据所述条件特征得到所述条件特征的隐变量的先验分布；从所述条件特征的隐变量的先验分布中采样，得到所述条件特征的隐变量。4.根据权利要求2所述的方法，其特征在于，所述利用所述波形生成网络根据所述条件特征和所述条件特征的隐变量生成所述语音波形，包括：将所述条件特征的隐变量和所述条件特征输入所述波形生成网络，得到先验生成波形分布；对所述先验生成波形分布进行概率分布变换，得到所述语音波形。5.根据权利要求1～4任一项所述的方法，其特征在于，所述将所述条件特征输入训练得到的波形生成模型，对所述条件特征进行处理，得到语音波形之前，所述方法还包括：获取语音训练样本，所述语音训练样本包括自然语音波形和与所述自然语音波形对应的文本；从所述自然语音波形或所述自然语音波形对应的文本中提取自然条件特征；将所述自然语音波形和所述自然条件特征输入所述波形生成模型，得到训练结果；根据所述训练结果对所述波形生成模型的模型参数进行优化。6.根据权利要求5所述的方法，其特征在于，所述波形生成模型还包括编码器和判别器，所述将所述自然语音波形和所述自然条件特征输入所述波形生成模型，得到训练结果，包括：将所述自然语音波形输入所述编码器，得到所述自然语音波形的第一隐变量的后验分布；将所述自然条件特征输入所述先验分布估计网络，得到所述自然条件特征的第二隐变量的先验分布；根据所述第一隐变量的后验分布和所述第二隐变量的先验分布计算先验损失函数；从所述第一隐变量的后验分布中采样，得到所述第一隐变量，从所述第二隐变量的先验分布中采样，得到所述第二隐变量；
将所述第一隐变量、所述第二隐变量和所述自然条件特征输入所述波形生成网络，根据所述波形生成网络输出的波形结果计算似然损失函数；将所述自然语音波形和所述波形生成网络输出的波形结果输入所述判别器，根据所述判别器的输出结果计算判别损失函数和对抗损失函数。7.根据权利要求6所述的方法，其特征在于，所述将所述第一隐变量、所述第二隐变量和所述自然条件特征输入所述波形生成网络，根据所述波形生成网络输出的波形结果计算似然损失函数，包括：将所述第一隐变量、所述第二隐变量和所述自然条件特征输入所述波形生成网络，根据所述第一隐变量和所述自然条件特征生成所述自然语音波形对应的重构波形，根据所述第二隐变量和所述自然条件特征生成所述自然条件特征对应的先验生成波形；根据所述自然语音波形和所述重构波形的波形分布计算似然损失函数。8.根据权利要求7所述的方法，其特征在于，所述波形生成网络输出的波形结果包括所...

【专利技术属性】
技术研发人员：伍宏传，江源，胡国平，胡郁，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人