语音合成模型训练方法技术

技术编号:39510682 阅读:6 留言:0更新日期:2023-11-25 18:46
本申请实施例公开了一种语音合成模型训练方法

【技术实现步骤摘要】
语音合成模型训练方法、语音数据获取方法、装置及设备


[0001]本申请实施例涉及计算机
,特别涉及一种语音合成模型训练方法

语音数据获取方法

装置及设备


技术介绍

[0002]随着计算机技术的发展,语音合成技术应用越来越广泛

例如,在智能客户场景

语音播报场景或导航场景下,常常会基于语音合成模型,将文本信息转换成频谱图,再将频谱图转换成语音数据以便播放该语音数据

通常在基于语音合成模型生成频谱图之前,需要对语音合成模型进行训练

相关技术中,需要利用高质量

无噪声的样本语音数据,对语音合成模型进行训练,但是,这种训练语音合成模型的方式对样本语音数据的要求高,适用范围窄


技术实现思路

[0003]本申请实施例提供了一种语音合成模型训练方法

语音数据获取方法

装置及设备,能够提高降低对样本语音数据的要求,提升了训练方式的适用范围

[0004]所述技术方案如下:
[0005]一方面,提供了一种语音合成模型训练方法,所述方法包括:
[0006]获取样本语音数据对应的样本频谱图和样本标签,所述样本标签指示所述样本语音数据是否含有噪声;
[0007]基于特征提取模型,获取所述样本频谱图对应的第一语音特征;对所述第一语音特征进行分类,得到预测标签,所述预测标签指示所述样本语音数据含有噪声的可能性;
[0008]基于本次训练的损失值关于所述第一语音特征的第一梯度信息,确定与所述第一梯度信息反向的第二梯度信息,所述损失值基于所述样本标签与所述预测标签确定;
[0009]基于语音合成模型和所述第一语音特征,生成预测频谱图;
[0010]基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型

[0011]在一种可能实现方式中,所述方法还包括:
[0012]基于所述语音合成模型,对所述第二音素特征信息进行时长预测,得到所述每个音素的预测持续时长;
[0013]所述基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型,包括:
[0014]基于所述样本频谱图

所述预测频谱图

所述第二梯度信息

所述每个音素的样本持续时长及预测持续时长,训练所述语音合成模型和所述特征提取模型

[0015]在另一种可能实现方式中,所述对所述第一语音特征进行分类,得到预测标签,包括:
[0016]基于分类模型,对所述第一语音特征进行分类,得到所述预测标签;
[0017]所述基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型,包括:
[0018]基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型

所述特征提取模型及所述分类模型

[0019]在另一种可能实现方式中,所述基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型之前,所述方法还包括:
[0020]获取基于多个账号输入的样本语音数据所对应的样本频谱图;
[0021]基于所述多个账号对应的样本频谱图,训练所述语音合成模型

[0022]另一方面,提供了一种语音数据获取方法,所述方法包括:
[0023]显示模型训练界面,所述模型训练界面显示有第一提示信息,所述第一提示信息用于提示授权采集目标账号在当前应用中输入的语音数据,以及采集到的语音数据用于训练所述目标账号对应的目标语音合成模型;
[0024]响应于对所述第一提示信息的确认操作,获取所述目标账号的语音数据采集权限,所述语音数据采集权限指示允许将所述当前应用中基于所述目标账号输入的语音数据用于训练所述目标语音合成模型;
[0025]在获取到所述目标账号的语音数据采集权限的情况下,获取所述目标账号在所述当前应用中输入的语音数据

[0026]在一种可能实现方式中,所述响应于对所述第一提示信息的确认操作,获取所述目标账号的语音数据采集权限,包括:
[0027]响应于对所述第一提示信息的确认操作,显示第二提示信息,第二提示信息包括预设文本,所述第二提示信息用于提示按照所述预设文本输入语音数据;
[0028]获取输入的语音数据;
[0029]在获取到的语音数据与所述预设文本匹配的情况下,获取所述目标账号的语音数据采集权限

[0030]另一方面,提供了一种语音合成模型训练装置,所述装置包括:
[0031]获取模块,用于获取样本语音数据对应的样本频谱图和样本标签,所述样本标签指示所述样本语音数据是否含有噪声;
[0032]分类模块,用于基于特征提取模型,获取所述样本频谱图对应的第一语音特征;对所述第一语音特征进行分类,得到预测标签,所述预测标签指示所述样本语音数据含有噪声的可能性;
[0033]确定模块,用于基于本次训练的损失值关于所述第一语音特征的第一梯度信息,确定与所述第一梯度信息反向的第二梯度信息,所述损失值基于所述样本标签与所述预测标签确定;
[0034]生成模块,用于基于语音合成模型和所述第一语音特征,生成预测频谱图;
[0035]训练模块,用于基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型

[0036]在一种可能实现方式中,所述获取模块,还用于获取目标损失函数关于第一参数的梯度函数,所述目标损失函数包含指代所述样本标签的第二参数以及指代所述预测标签的第三参数,所述第三参数包括所述第一参数,所述第一参数指代所述第一语音特征,所述
梯度函数表示所述第一梯度信息与所述样本标签

所述预测标签以及所述第一语音特征之间的关系;
[0037]所述确定模块,还用于基于所述梯度函数

所述样本标签

所述预测标签以及所述第一语音特征,确定所述第一梯度信息

[0038]在另一种可能实现方式中,所述第一语音特征包括多个样本音素特征;所述生成模块,用于从音素映射表包含的多个标准音素特征中,确定每个样本音素特征的相似音素特征;将所述多个样本音素特征的相似音素特征构成第二语音特征;基于所述语音合成模型

所述第一语音特征及所述第二语音特征,生成所述预测频谱图

[0039]在另一种可能实现方式中,所述音素映射本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音合成模型训练方法,其特征在于,所述方法包括:获取样本语音数据对应的样本频谱图和样本标签,所述样本标签指示所述样本语音数据是否含有噪声;基于特征提取模型,获取所述样本频谱图对应的第一语音特征;对所述第一语音特征进行分类,得到预测标签,所述预测标签指示所述样本语音数据含有噪声的可能性;基于本次训练的损失值关于所述第一语音特征的第一梯度信息,确定与所述第一梯度信息反向的第二梯度信息,所述损失值基于所述样本标签与所述预测标签确定;基于语音合成模型和所述第一语音特征,生成预测频谱图;基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型
。2.
根据权利要求1所述的方法,其特征在于,所述基于本次训练的损失值关于所述第一语音特征的第一梯度信息,确定与所述第一梯度信息反向的第二梯度信息之前,所述方法还包括:获取目标损失函数关于第一参数的梯度函数,所述目标损失函数包含指代所述样本标签的第二参数以及指代所述预测标签的第三参数,所述第三参数包括所述第一参数,所述第一参数指代所述第一语音特征,所述梯度函数表示所述第一梯度信息与所述样本标签

所述预测标签以及所述第一语音特征之间的关系;基于所述梯度函数

所述样本标签

所述预测标签以及所述第一语音特征,确定所述第一梯度信息
。3.
根据权利要求1所述的方法,其特征在于,所述第一语音特征包括多个样本音素特征;所述基于语音合成模型和所述第一语音特征,生成预测频谱图,包括:从音素映射表包含的多个标准音素特征中,确定每个样本音素特征的相似音素特征;将所述多个样本音素特征的相似音素特征构成第二语音特征;基于所述语音合成模型

所述第一语音特征及所述第二语音特征,生成所述预测频谱图
。4.
根据权利要求3所述的方法,其特征在于,所述音素映射表包含于音素聚类模型中,基于所述第一语音特征获取所述第二语音特征的步骤基于所述音素聚类模型实现;所述基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型,包括:基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型

所述特征提取模型

所述音素聚类模型及所述音素映射表
。5.
根据权利要求1所述的方法,其特征在于,所述基于语音合成模型和所述第一语音特征,生成预测频谱图,包括:基于语音合成模型,对所述样本语音数据对应的音素序列及所述第一语音特征进行处理,得到所述预测频谱图,所述音素序列包括至少一个音素,所述至少一个音素的发音与所述样本语音数据中的声音相匹配
。6.
根据权利要求5所述的方法,其特征在于,所述对所述样本语音数据对应的音素序列及所述第一语音特征进行处理,得到所述预测频谱图,包括:获取所述音素序列对应的第一音素特征信息;
将所述第一音素特征信息与所述第一语音特征进行融合,得到融合特征;对所述融合特征进行语音合成,得到所述预测频谱图
。7.
根据权利要求6所述的方法,其特征在于,所述获取所述音素序列对应的第一音素特征信息,包括:对所述音素序列进行特征提取,得到第二音素特征信息,所述第二音素特征信息包括所述音素序列中每个音素对应的音素特征;按照所述每个音素的样本持续时长,分别对所述第二音素特征信息中所述每个音素对应的音素特征进行扩充,得到所述第一音素特征信息,以使所述第一音素特征信息中所述每个音素对应的音素特征的数目与对应的样本持续时长匹配,所述样本持续时长指示所述音素的发音在所述样本语音数据中的持续时长
。8.
根据权利要求5所述的方法,其特征在于,所述方法还包括:对样本语音数据进行情感识别,得到所述样本语音数据所属的情感类型;获取所述情感类型对应的情感特征;所述基于语音合成模型,对所述样本语音数据对应的音素序列及所述第一语音特征进行处理,得到所述预测频谱图,包括:基于所述语音合成模型,对所述音素序列

所述情感特征及所述第一语音特征进行处理,得到所述预测频谱图
。9.
根据权利要求5‑8任一项所述的方法,其特征在于,所述基于所述样本频谱图

所述预测频谱图及所述第二梯度信息,训练所述语音合成模型和所述特征提取模型之后,所述方法还包括:获取目标文本信息;对所述目标文本信息进行音素映射,得到所述目标文本信息对应的目标音素序列;基于所述目标语音合成模型,对所述目标音素序列进行处理,得到目标频谱图;对所述目标频谱图进行语音转换,得到所述目标文本信息对应的目标语...

【专利技术属性】
技术研发人员:杨培基廖欣欣
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1