语音合成方法、装置、存储介质和电子设备制造方法及图纸

技术编号:37374162 阅读:16 留言:0更新日期:2023-04-27 07:18
本公开涉及人工智能领域,具体地,涉及一种语音合成方法、装置、存储介质和电子设备。该方法包括:通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;通过第二类型的发音特征提取模型,分别确定目标发音人对应的第三发音特征信息、以及每个参考发音人对应的第四发音特征信息;根据第一发音特征信息、第二发音特征信息、第三发音特征信息和第四发音特征信息,确定目标发音特征信息;根据目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。如此,能够在确保目标语音合成效果的情况下,减少对目标发音人的语料数据的需求量。求量。求量。

【技术实现步骤摘要】
语音合成方法、装置、存储介质和电子设备


[0001]本公开涉及人工智能领域,具体地,涉及一种语音合成方法、装置、存储介质和电子设备。

技术介绍

[0002]现有语音合成系统通常是由目标发音人录制大量语料数据,基于这些语料数据合成该目标发音人的语音。虽然通过该方法合成的语音音色与发音人本身发出的语音较为接近,但是需要录制目标发音人的大量语料数据,工作量大,耗费周期长,而且成本较高。

技术实现思路

[0003]本公开的目的是提供一种语音合成方法、装置、存储介质和电子设备,以在确保语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
[0004]为了实现上述目的,本公开第一方面提供一种语音合成方法,该方法包括:
[0005]通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
[0006]通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
[0007]根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
[0008]根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
[0009]可选地,所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息,包括:
[0010]确定每个所述参考发音人对应的权重信息;
[0011]根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。
[0012]可选地,所述确定每个所述参考发音人对应的权重信息,包括:
[0013]针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;
[0014]针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度,并根据所述第二相似度,确定所述参考发音人对应的第二权重;
[0015]所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:
[0016]根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息。
[0017]可选地,所述根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息,包括:
[0018]根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重,确定第一融合特征信息;
[0019]根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定第二融合特征信息;
[0020]根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
[0021]可选地,所述确定每个所述参考发音人对应的权重信息,包括:
[0022]针对每个所述参考发音人,若确定所述参考发音人与所述目标发音人为相同性别,则将第三权重作为所述参考发音人对应的权重信息;若确定所述参考发音人与所述目标发音人为不同性别,则将第四权重作为所述参考发音人对应的权重信息,其中,所述第三权重大于所述第四权重。
[0023]可选地,根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:
[0024]根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述权重信息,确定第一融合特征信息;
[0025]根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述权重信息,确定第二融合特征信息;
[0026]根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
[0027]可选地,所述根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音,包括:
[0028]将所述文本信息输入至预先训练的声学模型中,获得所述声学模型输出的与所述文本信息对应的声学特征;
[0029]将所述声学特征输入至预先训练的声码器模型中,获得所述声码器模型输出的音频,以得到所述目标语音,其中,所述声学模型和所述声码器模型是基于所述目标发音特征信息训练得到的。
[0030]本公开第二方面提供一种语音合成装置,该装置包括:
[0031]第一确定模块,用于通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
[0032]第二确定模块,用于通过第二类型的发音特征提取模型,分别确定所述目标发音
人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
[0033]第三确定模块,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
[0034]合成模块,用于根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
[0035]可选地,所述第三确定模块包括:
[0036]第一确定子模块,用于确定每个所述参考发音人对应的权重信息;
[0037]第二确定子模块,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。
[0038]可选地,第一确定子模块包括:
[0039]第三确定子模块,用于针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;
[0040]第四确定子模块,用于针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息,包括:确定每个所述参考发音人对应的权重信息;根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。3.根据权利要求2所述的方法,其特征在于,所述确定每个所述参考发音人对应的权重信息,包括:针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度,并根据所述第二相似度,确定所述参考发音人对应的第二权重;所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息,包括:根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重,确定第一融合特征信息;根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定第二融合特征信息;根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。

【专利技术属性】
技术研发人员:付景川李锐
申请(专利权)人:达闼科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1