语音波形生成方法、装置、服务器及存储介质制造方法及图纸

技术编号:29062177 阅读:18 留言:0更新日期:2021-06-30 09:05
本申请实施例提供一种语音波形生成方法、装置、服务器及存储介质,该方法包括:获取输入文本;从输入文本中提取条件特征;将条件特征输入训练得到的波形生成模型,对条件特征进行处理,得到语音波形;波形生成模型包括先验分布估计网络和波形生成网络,先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,波形生成网络用于根据条件特征和先验分布估计网络的输出结果生成语音波形。本申请实施例可以提高波形生成效率。可以提高波形生成效率。可以提高波形生成效率。

【技术实现步骤摘要】
语音波形生成方法、装置、服务器及存储介质


[0001]本申请涉及机器学习
,具体涉及一种语音波形生成方法、装置、服务器及存储介质。

技术介绍

[0002]近年来,随着深度学习的快速发展,语音波形生成方法的研究也得到了长足的发展,各种基于深度神经网络的波形生成模型纷纷涌现,如基于卷积神经网络(Convolutional Neural Network,CNN)的WaveNet、基于循环神经网络的WaveRNN等。WaveNet这类波形生成方法都是基于自回归的方式逐点生成语音波形,对于语音这种高时域分辨率的波形序列,其波形生成效率很低。

技术实现思路

[0003]本申请实施例提供一种语音波形生成方法、装置、服务器及存储介质,可以提高波形生成效率。
[0004]本申请实施例的第一方面提供了一种语音波形生成方法,包括:
[0005]获取输入文本;
[0006]从所述输入文本中提取条件特征;
[0007]将所述条件特征输入训练得到的波形生成模型,对所述条件特征进行处理,得到语音波形;所述波形生成模型包括先验分布估计网络和波形生成网络,所述先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,所述波形生成网络用于根据所述条件特征和所述先验分布估计网络的输出结果生成所述语音波形。
[0008]本申请实施例的第二方面提供了一种模型训练方法,所述方法包括:
[0009]获取语音训练样本,所述语音训练样本包括自然语音波形和与所述自然语音波形对应的文本;
[0010]从所述自然语音波形或所述自然语音波形对应的文本中提取自然条件特征;
[0011]将所述自然语音波形和所述自然条件特征输入所述波形生成模型,得到训练结果;
[0012]根据所述训练结果对所述波形生成模型的模型参数进行优化。
[0013]本申请实施例的第三方面提供了一种模型训练装置,所述装置包括:
[0014]第一获取单元,用于获取语音训练样本,所述语音训练样本包括自然语音波形和与所述自然语音波形对应的文本;
[0015]第一提取单元,用于从所述自然语音波形或所述自然语音波形对应的文本中提取自然条件特征;
[0016]训练单元,用于将所述自然语音波形和所述自然条件特征输入所述波形生成模型,得到训练结果;
[0017]优化单元,用于根据所述训练结果对所述波形生成模型的模型参数进行优化。
[0018]本申请实施例的第四方面提供了一种语音波形生成装置,所述装置包括:
[0019]获取单元,用于获取输入文本;
[0020]提取单元,用于从所述输入文本中提取条件特征;
[0021]波形生成单元,用于将所述条件特征输入训练得到的波形生成模型,对所述条件特征进行处理,得到语音波形;
[0022]所述波形生成模型包括先验分布估计网络和波形生成网络,所述先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,所述波形生成网络用于根据所述条件特征和所述先验分布估计网络的输出结果生成所述语音波形。
[0023]本申请实施例的第五方面提供了一种服务器,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
[0024]本申请实施例的第六方面提供了一种服务器,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第二方面中的步骤指令。
[0025]本申请实施例的第七方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
[0026]本申请实施例的第八方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第二方面中所描述的部分或全部步骤。
[0027]本申请实施例的第九方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
[0028]本申请实施例的第十方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第二方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
[0029]本申请实施例中,首先获取输入文本;从输入文本中提取条件特征;将条件特征输入训练得到的波形生成模型,对条件特征进行处理,得到语音波形;波形生成模型包括先验分布估计网络和波形生成网络,所述先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,所述波形生成网络用于根据所述条件特征和所述先验分布估计网络的输出结果生成所述语音波形。本申请从输入文本中提取条件特征,将条件特征输先验分布估计网络,得到先验分布估计网络的输出结果,波形生成网络可以根据条件特征和先验分布估计网络的输出结果生成语音波形。与基于自回归的方式逐点生成语音波形相比,本申请的波形生成模型可以直接根据条件特征生成语音波形,可以提高波形生成模型的波形生成效率。由于先验分布估计网络可以学习到自然语音波形的编码信息,可以提高波形生成模型生成的语音波形的质量。
附图说明
[0030]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本申请实施例提供的一种系统架构的结构示意图;
[0032]图2是本申请实施例提供的一种语音波形生成方法的流程示意图;
[0033]图3是本申请实施例提供的一种波形生成模型的结构示意图;
[0034]图4是本申请实施例提供的一种模型训练方法的流程示意图;
[0035]图5是是本申请实施例提供的一种VAE-GAN模型的结构示意图;
[0036]图6是本申请实施例提供的一种多尺度判别器的结构示意图;
[0037]图7是本申请实施例提供的一种模型训练装置的结构示意图;
[0038]图8是本申请实施例提供的一种语音波形生成装置的结构示意图;
[0039]图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音波形生成方法,其特征在于,包括:获取输入文本;从所述输入文本中提取条件特征;将所述条件特征输入训练得到的波形生成模型,对所述条件特征进行处理,得到语音波形;所述波形生成模型包括先验分布估计网络和波形生成网络,所述先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,所述波形生成网络用于根据所述条件特征和所述先验分布估计网络的输出结果生成所述语音波形。2.根据权利要求1所述的方法,其特征在于,所述对所述条件特征进行处理,得到语音波形,包括:利用所述先验分布估计网络根据所述条件特征得到所述先验分布估计网络的输出结果,从所述先验分布估计网络的输出结果中确定所述条件特征的隐变量;利用所述波形生成网络根据所述条件特征和所述条件特征的隐变量生成所述语音波形。3.根据权利要求2所述的方法,其特征在于,所述利用所述先验分布估计网络根据所述条件特征得到所述先验分布估计网络的输出结果,从所述先验分布估计网络的输出结果中确定所述条件特征的隐变量,包括:利用所述先验分布估计网络根据所述条件特征得到所述条件特征的隐变量的先验分布;从所述条件特征的隐变量的先验分布中采样,得到所述条件特征的隐变量。4.根据权利要求2所述的方法,其特征在于,所述利用所述波形生成网络根据所述条件特征和所述条件特征的隐变量生成所述语音波形,包括:将所述条件特征的隐变量和所述条件特征输入所述波形生成网络,得到先验生成波形分布;对所述先验生成波形分布进行概率分布变换,得到所述语音波形。5.根据权利要求1~4任一项所述的方法,其特征在于,所述将所述条件特征输入训练得到的波形生成模型,对所述条件特征进行处理,得到语音波形之前,所述方法还包括:获取语音训练样本,所述语音训练样本包括自然语音波形和与所述自然语音波形对应的文本;从所述自然语音波形或所述自然语音波形对应的文本中提取自然条件特征;将所述自然语音波形和所述自然条件特征输入所述波形生成模型,得到训练结果;根据所述训练结果对所述波形生成模型的模型参数进行优化。6.根据权利要求5所述的方法,其特征在于,所述波形生成模型还包括编码器和判别器,所述将所述自然语音波形和所述自然条件特征输入所述波形生成模型,得到训练结果,包括:将所述自然语音波形输入所述编码器,得到所述自然语音波形的第一隐变量的后验分布;将所述自然条件特征输入所述先验分布估计网络,得到所述自然条件特征的第二隐变量的先验分布;根据所述第一隐变量的后验分布和所述第二隐变量的先验分布计算先验损失函数;从所述第一隐变量的后验分布中采样,得到所述第一隐变量,从所述第二隐变量的先验分布中采样,得到所述第二隐变量;
将所述第一隐变量、所述第二隐变量和所述自然条件特征输入所述波形生成网络,根据所述波形生成网络输出的波形结果计算似然损失函数;将所述自然语音波形和所述波形生成网络输出的波形结果输入所述判别器,根据所述判别器的输出结果计算判别损失函数和对抗损失函数。7.根据权利要求6所述的方法,其特征在于,所述将所述第一隐变量、所述第二隐变量和所述自然条件特征输入所述波形生成网络,根据所述波形生成网络输出的波形结果计算似然损失函数,包括:将所述第一隐变量、所述第二隐变量和所述自然条件特征输入所述波形生成网络,根据所述第一隐变量和所述自然条件特征生成所述自然语音波形对应的重构波形,根据所述第二隐变量和所述自然条件特征生成所述自然条件特征对应的先验生成波形;根据所述自然语音波形和所述重构波形的波形分布计算似然损失函数。8.根据权利要求7所述的方法,其特征在于,所述波形生成网络输出的波形结果包括所...

【专利技术属性】
技术研发人员:伍宏传江源胡国平胡郁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1