一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置制造方法及图纸

技术编号:31017405 阅读:12 留言:0更新日期:2021-11-30 03:00
本发明专利技术实施例提供了一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置。其中的方法包括:从多人语音数据中选取音素覆盖完全的数据子集;将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据,利用所述训练数据对多人语音合成模型进行自适应训练,得到所述目标说话人的单人语音合成模型。本发明专利技术实施例可以弥补目标说话人的单人语音数据音素覆盖不完全的问题,进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。合成模型的发音准确性。合成模型的发音准确性。

【技术实现步骤摘要】
一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置


[0001]本专利技术涉及输入法
,尤其涉及一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置。

技术介绍

[0002]随着深度学习的发展,语音合成技术进入到端到端的发展阶段。端到端的语音合成模型能够基于输入的文本,直接输出与该文本对应的语音。语音合成技术广泛应用在智能问答、语音播报等场景中。
[0003]目前,可以先使用大量说话人的语音数据训练语音合成模型,再在训练完成的语音合成模型的基础上使用单个说话人的语音数据进行自适应训练,得到目标说话人音色的语音合成模型。
[0004]然而,单个说话人的语音数据量较小,很难发音全覆盖,将导致合成的语音出现发音错误或者发音不准确的情况。

技术实现思路

[0005]本专利技术实施例提供一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置,可以弥补目标说话人的单人语音数据音素覆盖不完全的问题,进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。
[0006]为了解决上述问题,本专利技术实施例公开了一种语音合成模型的构建方法,所述方法包括:
[0007]从多人语音数据中选取音素覆盖完全的数据子集;
[0008]将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据,利用所述训练数据对多人语音合成模型进行自适应训练,得到所述目标说话人的单人语音合成模型。
[0009]可选地,所述方法还包括:
[0010]对所述多人语音数据进行标注,得到第一输入数据,所述第一输入数据包括所述多人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列;
[0011]提取所述每条语音数据的声学特征;
[0012]根据所述第一输入数据和所述声学特征,训练多人语音合成模型。
[0013]可选地,所述对所述多人语音数据进行标注,包括:
[0014]对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注,将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。
[0015]可选地,所述第一输入数据还包括所述音素序列对应的语种序列,所述方法还包括:
[0016]对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别,确定所述
音素序列中每个音素对应的语种,得到每个音素序列对应的语种序列。
[0017]可选地,所述多人语音数据中包含M种音素,所述从多人语音数据中选取音素覆盖完全的数据子集,包括:
[0018]对于所述M种音素中的每个音素,从所述多人语音数据任意选择N条包含所述音素的语音数据,得到M*N条语音数据作为数据子集,且所述M*N的数据量小于所述目标说话人的单人语音数据的数据量;其中,M和N分别为正整数。
[0019]可选地,所述利用所述训练数据对多人语音合成模型进行自适应训练,包括:
[0020]获取第二输入数据,所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列;
[0021]将所述第二输入数据输入初始的单人语音合成模型,所述初始的单人语音合成模型为训练完成的多人语音合成模型;
[0022]将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器;
[0023]根据所述判别器输出的判别结果,计算所述单人语音合成模型的模型误差;
[0024]在每一轮训练中,通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数,当模型误差小于预设阈值时得到训练完成的单人语音合成模型。
[0025]可选地,所述生成对抗网络包括至少两个判别器,每个判别器对应不同的预设频带;所述将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器,包括:
[0026]将所述单人语音合成模型输出的预测声学特征,和所述第二输入数据对应的真实声学特征按照预设频带进行划分,得到各预设频带对应的预测声学特征和真实声学特征;
[0027]将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器;
[0028]所述根据所述判别器输出的判别结果,计算所述单人语音合成模型的模型误差,包括:
[0029]根据所述预测声学特征和所述真实声学特征,计算声学特征的均方误差;
[0030]根据每个判别器的判别结果分别计算每个判别器产生的生成误差和判别误差;
[0031]根据所述声学特征的均方误差和各判别器产生的生成误差,计算模型误差;
[0032]所述在每一轮训练中,通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数,包括:
[0033]在每一轮训练中,根据所述模型误差迭代更新所述单人语音合成模型的参数,以及根据各判别器的判别误差更新各判别器的参数。
[0034]另一方面,本专利技术实施例公开了一种语音合成模型的构建装置,所述装置包括:
[0035]子集确定模块,用于从多人语音数据中选取音素覆盖完全的数据子集;
[0036]模型训练模块,用于将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据,利用所述训练数据对多人语音合成模型进行自适应训练,得到所述目标说话人的单人语音合成模型。
[0037]可选地,所述装置还包括:
[0038]第一数据确定模块,用于对所述多人语音数据进行标注,得到第一输入数据,所述
第一输入数据包括所述多人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列;
[0039]特征提取模块,用于提取所述每条语音数据的声学特征;
[0040]第一训练模块,用于根据所述第一输入数据和所述声学特征,训练多人语音合成模型。
[0041]可选地,所述第一数据确定模块,具体用于对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注,将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。
[0042]可选地,所述第一输入数据还包括所述音素序列对应的语种序列,所述装置还包括:
[0043]语种识别模块,用于对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别,确定所述音素序列中每个音素对应的语种,得到每个音素序列对应的语种序列。
[0044]可选地,所述多人语音数据中包含M种音素,所述子集确定模块具体用于:对于所述M种音素中的每个音素,从所述多人语音数据任意选择N条包含所述音素的语音数据,得到M*N条语音数据作为数据子集,且所述M*N的数据量小于所述目标说话人的单人语音数据的数据量;其中,M和N分别为正整数。
[0045]可选地,所述模型训练模块,包括:
[0046]第二数据确定子模块,用于获取第二输入数据,所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的构建方法,其特征在于,所述方法包括:从多人语音数据中选取音素覆盖完全的数据子集;将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据,利用所述训练数据对多人语音合成模型进行自适应训练,得到所述目标说话人的单人语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述多人语音数据进行标注,得到第一输入数据,所述第一输入数据包括所述多人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列;提取所述每条语音数据的声学特征;根据所述第一输入数据和所述声学特征,训练多人语音合成模型。3.根据权利要求2所述的方法,其特征在于,所述对所述多人语音数据进行标注,包括:对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注,将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。4.根据权利要求2所述的方法,其特征在于,所述第一输入数据还包括所述音素序列对应的语种序列,所述方法还包括:对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别,确定所述音素序列中每个音素对应的语种,得到每个音素序列对应的语种序列。5.根据权利要求1所述的方法,其特征在于,所述多人语音数据中包含M种音素,所述从多人语音数据中选取音素覆盖完全的数据子集,包括:对于所述M种音素中的每个音素,从所述多人语音数据任意选择N条包含所述音素的语音数据,得到M*N条语音数据作为数据子集,且所述M*N的数据量小于所述目标说话人的单人语音数据的数据量;其中,M和N分别为正整数。6.根据权利要求1所述的方法,其特征在于,所述利用所述训练数据对多人语音合成模型进行自适应训练,包括:获取第二输入数据,所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列;将所述第二输入数据输入初始的单人语音合成模型,所述初始的单人语音合成模型为训练完成的多人语音合成模型;将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器;根据所述判别器输出的判别结果,计算所述单人语音合成模型的模型误差;在每一轮训练中,通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数,当模型误差小于预设阈值时得到训练完成的单人语音合成模型。7.根据权利要求6所述的方法,其特征在于,所述生成对抗网络包括至少两个判别器,每个判别器对应不同的预设频带;所述将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器,包括:将所述单人语音合成模型输出的预测声学特征,和所述第二输入数据对应的真实声学特征按照预设频带进行划分,得到各预设频带对应的预测声学特征和真实声学特征;将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判
别器;所述根据所述判别器输出的判别结果,计算所述单人语音合成模型的模型误差,包括:根据所述预测声学特征和所述真实声学特征,计算声学特征的均方误差;根据每个判别器的判别结果分别计算每个判别器产生的生成误差和判别误差;根据所述声学特征的均方误差和各判别器产生的生成误差,计算模型误差;所述在每一轮训练中,通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数,包括:在每一轮训练中,根据所述模型误差迭代更新所述单人语音合成模型的参数,以及根据各判别器的判别误差更新各判别器的参数。8.一种语音合成模型的构建装置,其特征在于,所述装置包括:子集确定模块,用于从多...

【专利技术属性】
技术研发人员:王睿敏孟凡博刘恺王砚峰
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1