训练频谱合成模型和合成音频的方法、终端及存储介质技术

技术编号:31825013 阅读:17 留言:0更新日期:2022-01-12 12:49
本申请公开了一种训练频谱合成模型和合成音频的方法、终端及存储介质,属于互联网技术领域。该方法包括:将训练样本输入初始频谱合成模型,训练样本包括文本样本、对应的语音样本及标准意图向量;提取文本样本对应的样本文本特征信息、语音样本对应的标准频谱数据与语音样本对应的预测意图向量;根据样本文本特征信息和预测意图向量,确定文本样本对应的预测频谱数据;根据预测频谱数据和标准频谱数据、以及预测意图向量和标准意图向量,对初始频谱合成模型进行调参。由于本申请充分考虑到说话者的说话意图对发音的影响,进而使根据频谱合成模型输出的预测频谱合成的音频更加的自然,提高了合成音频的质量。提高了合成音频的质量。提高了合成音频的质量。

【技术实现步骤摘要】
训练频谱合成模型和合成音频的方法、终端及存储介质


[0001]本申请涉及互联网
,特别涉及一种训练频谱合成模型和合成音频的方法、终端及存储介质。

技术介绍

[0002]随着科学技术的发展,有声小说、有声资讯变的越来越普遍,这使得基于文本自动合成音频的需求越来越迫切。
[0003]相关技术中根据文本生成合成音频的方案为:对目标文本进行特征提取,获取该目标文本对应的目标文本特征信息。将目标文本特征信息输入预先训练的频谱合成模型,得到目标文本对应的目标频谱数据。将目标文本对应的目标频谱数据输入声码器,得到目标文本对应的合成音频。其中,文本特征信息包括音素特征信息、分词特征信息以及韵律特征信息。
[0004]由于上述合成音频仅仅是基于目标文本特征信息生成的,发音比较生硬机械。

技术实现思路

[0005]本申请实施例提供了一种训练频谱合成模型和合成音频的方法、终端及存储介质,由于本申请充分考虑到说话者的说话意图对发音的影响,使得合成音频的发音更加的自然,提高了合成音频的质量。该技术方案如下:
[0006]第一方面,本申请实施例提供了一种训练频谱合成模型的方法,所述方法包括:
[0007]将训练样本输入初始频谱合成模型,所述训练样本包括文本样本、对应的语音样本及标准意图向量;
[0008]提取所述文本样本对应的样本文本特征信息、所述语音样本对应的标准频谱数据与所述语音样本对应的预测意图向量;
[0009]根据所述样本文本特征信息和所述预测意图向量,确定所述文本样本对应的预测频谱数据;
[0010]根据所述预测频谱数据和所述标准频谱数据,确定第一损失值;
[0011]根据所述预测意图向量和所述标准意图向量,确定第二损失值;
[0012]根据所述第一损失值和所述第二损失值,对所述初始频谱合成模型进行调参;
[0013]若满足预设的训练结束条件,则将调参后的初始频谱合成模型确定为训练完成的频谱合成模型;
[0014]若不满足预设的训练结束条件,则根据其他训练样本,继续对调参后的初始频谱合成模型进行调参。
[0015]可选的,所述频谱合成模型包括文本编码器、语音编码器以及第一自注意学习模块;
[0016]所述频谱合成模型包括文本编码器、语音编码器以及第一自注意学习模块;
[0017]所述提取所述文本样本对应的样本文本特征信息、所述语音样本对应的标准频谱
数据与所述语音样本对应的预测意图向量,包括:
[0018]将所述文本样本输入文本编码器,得到所述文本样本对应的样本文本特征信息;
[0019]提取所述语音样本的频谱数据,作为标准频谱数据;
[0020]将所述语音样本对应的标准频谱数据输入语音编码器,得到语音向量;
[0021]将所述语音向量输入第一自注意学习模块,得到所述语音样本的预测意图向量,其中,所述预测意图向量是由每个意图分类对应的可能性值按照预先设置的顺序排列而成的。
[0022]可选的,所述频谱合成模型包括每个意图分类对应的意图特征信息和频谱合成模块;
[0023]所述根据所述样本文本特征信息和所述预测意图向量,确定所述文本样本对应的预测频谱数据,包括:
[0024]将所述预测意图向量中的每个意图分类的可能性值分别与预先存储的每个意图分类对应的意图特征信息相乘,并将相乘结果合并,得到所述语音样本对应的样本意图特征信息;
[0025]将所述样本文本特征信息和所述样本意图特征信息输入频谱合成模块,得到所述文本样本对应的预测频谱数据。
[0026]可选的,所述根据所述第一损失值和所述第二损失值,对所述初始频谱合成模型进行调参,包括:
[0027]根据所述第一损失值、所述第一损失值对应的第一权重、所述第二损失值以及所述第二损失值对应的第二权重,确定综合损失值;
[0028]根据所述综合损失值,对所述初始频谱合成模型进行调参。
[0029]可选的,所述根据所述预测意图向量和所述标准意图向量,确定第二损失值,包括:
[0030]确定所述预测意图向量和所述标准意图向量的交叉熵,将所述交叉熵作为所述第二损失值。
[0031]第二方面,本申请实施例提供了一种合成音频的方法,所述方法包括:
[0032]将所述目标文本输入训练完成的自然语言处理模型,得到目标意图分类;
[0033]确定所述目标意图分类对应的目标意图向量;
[0034]将所述目标文本和所述目标意图向量输入训练完成的频谱合成模型,根据所述目标文本和所述目标意图向量,确定所述目标文本对应的目标频谱数据;
[0035]将所述目标文本对应的目标频谱数据输入声码器,得到所述目标文本对应的目标语音。
[0036]可选的,当所述频谱合成模型包括文本编码器、每个意图分类对应的意图特征信息和频谱合成模块时,所述根据所述目标文本和所述目标意图向量,确定所述目标文本对应的目标频谱数据,包括:
[0037]将所述目标文本输入所述文本编码器,得到所述目标文本对应的目标文本特征信息;
[0038]将所述目标意图向量中的每个意图分类的可能性值分别与预先存储的每个意图分类对应的意图特征信息相乘,并将相乘结果合并,得到所述目标文本对应的目标意图特
征信息;
[0039]将所述目标文本特征信息和所述目标意图特征信息输入频谱合成模块,得到所述目标文本对应的目标频谱数据。
[0040]可选的,所述确定所述目标意图分类对应的目标意图向量,包括:
[0041]将所述目标意图分类对应的可能性值设置为1,将其他意图分类对应的可能性值设置为0,并使每个意图分类对应的可能性值按照预先设置的顺序进行排序,得到所述目标意图分类对应的目标意图向量。
[0042]第三方面,本申请实施例提供了一种训练频谱合成模型的装置,所述装置包括:
[0043]输入模块,被配置为将训练样本输入初始频谱合成模型,所述训练样本包括文本样本、对应的语音样本及标准意图向量;
[0044]提取模块,被配置为提取所述文本样本对应的样本文本特征信息、所述语音样本对应的标准频谱数据与所述语音样本对应的预测意图向量;
[0045]第一确定模块,被配置为根据所述样本文本特征信息和所述预测意图向量,确定所述文本样本对应的预测频谱数据;
[0046]第二确定模块,被配置为根据所述预测频谱数据和所述标准频谱数据,确定第一损失值;
[0047]第三确定模块,被配置为根据所述预测意图向量和所述标准意图向量,确定第二损失值;
[0048]调参模块,被配置为根据所述第一损失值和所述第二损失值,对所述初始频谱合成模型进行调参;
[0049]第一判断模块,被配置为若满足预设的训练结束条件,则将调参后的初始频谱合成模型确定为训练完成的频谱合成模型;
[0050]第二判断模块,被配置为若不满足预设的训练结束条件,则根据其他训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种频谱合成模型训练的方法,其特征在于,所述方法包括:将训练样本输入初始频谱合成模型,所述训练样本包括文本样本、对应的语音样本及标准意图向量;提取所述文本样本对应的样本文本特征信息、所述语音样本对应的标准频谱数据与所述语音样本对应的预测意图向量;根据所述样本文本特征信息和所述预测意图向量,确定所述文本样本对应的预测频谱数据;根据所述预测频谱数据和所述标准频谱数据,确定第一损失值;根据所述预测意图向量和所述标准意图向量,确定第二损失值;根据所述第一损失值和所述第二损失值,对所述初始频谱合成模型进行调参;若满足预设的训练结束条件,则将调参后的初始频谱合成模型确定为训练完成的频谱合成模型;若不满足预设的训练结束条件,则根据其他训练样本,继续对调参后的初始频谱合成模型进行调参。2.根据权利要求1所述的方法,其特征在于,所述频谱合成模型包括文本编码器、语音编码器以及第一自注意学习模块;所述提取所述文本样本对应的样本文本特征信息、所述语音样本对应的标准频谱数据与所述语音样本对应的预测意图向量,包括:将所述文本样本输入文本编码器,得到所述文本样本对应的样本文本特征信息;提取所述语音样本的频谱数据,作为标准频谱数据;将所述语音样本对应的标准频谱数据输入语音编码器,得到语音向量;将所述语音向量输入第一自注意学习模块,得到所述语音样本的预测意图向量,其中,所述预测意图向量是由每个意图分类对应的可能性值按照预先设置的顺序排列而成的。3.根据权利要求1所述的方法,其特征在于,所述频谱合成模型包括每个意图分类对应的意图特征信息和频谱合成模块;所述根据所述样本文本特征信息和所述预测意图向量,确定所述文本样本对应的预测频谱数据,包括:将所述预测意图向量中的每个意图分类的可能性值分别与预先存储的每个意图分类对应的意图特征信息相乘,并将相乘结果合并,得到所述语音样本对应的样本意图特征信息;将所述样本文本特征信息和所述样本意图特征信息输入频谱合成模块,得到所述文本样本对应的预测频谱数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一损失值和所述第二损失值,对所述初始频谱合成模型进行调参,包括:根据所述第一损失值、所述第一损失值对应的第一权重、所述第二损失值以及所述第二损失值...

【专利技术属性】
技术研发人员:陈洲旋
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1