一种语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37994225 阅读:10 留言:0更新日期:2023-06-30 10:08
本申请提供一种语音合成方法、装置、电子设备及存储介质,其中语音合成方法包括:获取目标说话人训练数据,并提取目标说话人音色特征;在预训练数据中筛选与目标说话人的相似说话人音色特征;将训练好的预训练语音合成模型的模型参数加载至finetune语音合成模型;采用相似说话人音色特征与目标说话人音色特征共同训练finetune语音合成模型;将待合成文本输入训练好的finetune语音合成模型进行语音合成任务。通过预选构建的预训练模型,通过finetune的方式对预训练模型进行微调,以满足语音合成任务的及时性需求,极大提升了个性化语音合成模型的训练效率,进而提升了个性化语音合成任务的整体效率。音合成任务的整体效率。音合成任务的整体效率。

【技术实现步骤摘要】
一种语音合成方法、装置、电子设备及存储介质


[0001]本申请涉及语音合成
,具体而言,涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]现有的语音合成算法中,对于特定的说话人语音,都是采用集合内部训练的方式实现,如果出现新的集合外的个性化语音,需要重新进行建模,并重新进行所有的模型训练,非常的耗时耗力,极大地降低了语音合成任务的效率。

技术实现思路

[0003]本申请实施例的目的在于提供一种语音合成方法、装置、电子设备及存储介质,用以提高语音合成任务的效率。
[0004]第一方面,本申请实施例提供一种语音合成方法,包括:获取目标说话人训练数据,并提取目标说话人音色特征;在用于对预训练语音合成模型进行训练的预训练数据中筛选与目标说话人的相似说话人音色特征;将训练好的预训练语音合成模型的模型参数加载至finetune语音合成模型;采用相似说话人音色特征与目标说话人音色特征共同训练finetune语音合成模型;将待合成文本输入训练好的finetune语音合成模型进行语音合成任务。
[0005]在上述方案的实现过程中,通过finetune的方式对预训练模型进行微调,以满足语音合成任务的及时性需求,极大提升了个性化语音合成模型的训练效率,进而提升了个性化语音合成任务的整体效率。
[0006]在第一方面的一种实现方式中,所述预训练语音合成模型为:由包含有多个说话人训练数据的预训练数据所训练的预训练多人语音合成模型。
[0007]在上述方案的实现过程中,预训练语音合成模型采用多人语音合成模型,以便在预训练数据中筛选获得与目标说话人的相似说话人音色特征后,可以直接对预训练语音合成模型进行finetune微调,以获得能够合成目标说话人声音的finetune语音合成模型,大大提高了语音合成的效率。
[0008]在第一方面的一种实现方式中,所述finetune语音合成模型为:由包含有一个目标说话人训练数据的目标说话人训练数据所训练的finetune单人语音合成模型;或者,由包含有多个目标说话人训练数据的目标说话人训练数据所训练的finetune多人语音合成模型。
[0009]在上述方案的实现过程中,finetune语音合成模型可以为单人语音合成模型,也可以为多人语音合成模型,即上述语音合成方法不仅支持单人语音合成,还支持多人语音合成,在完成对finetune语音合成模型的训练后,用户仅需选择所需要的目标说话人,即可合成该说话人的声音,使得上述语音合成方法能够适用于更多的场景,提高了上述语音合成方法的适应性。
[0010]在第一方面的一种实现方式中,在所述finetune语音合成模型为finetune多人语音合成模型时,所述在用于对预训练语音合成模型进行训练的预训练数据中筛选与目标说话人的相似说话人音色特征,包括:在所述预训练数据中的N个说话人音色特征中分别筛选M个目标说话人的相似说话人音色特征,包括:将所述N个说话人音色特征进行特征平均化处理后的平均音色特征分别作为M个目标说话人的相似说话人音色特征;或者,在所述预训练数据中的N个说话人音色特征中任意选取M个说话人音色特征作为M个目标说话人的相似说话人音色特征;或者,计算预训练数据中N个说话人与M个目标说话人音色相似度,分别将与M个目标说话人的音色相似度最大的说话人音色特征作为M个目标说话人的相似说话人音色特征。
[0011]在上述方案的实现过程中,为了实现多人个性化语音合成,对多个目标说话人与预训练数据中的说话人进行适配处理,以便快速高效地获取目标说话人的相似说话人音色特征,大大提高了语音合成模型的训练效率;同时,可以采用多种方式进行适配处理,使得上述语音合成方法能够适用于更多的场景,提高了上述语音合成方法的适应性。
[0012]在第一方面的一种实现方式中,所述计算预训练数据中N个说话人与M个目标说话人音色相似度,包括:分别计算预训练数据中N个说话人与M个目标说话人的音色距离作为音色相似度;或者,分别计算预训练数据中N个说话人的音色特征与M个目标说话人的音色特征之间的余弦相似度作为音色相似度。
[0013]在上述方案的实现过程中,通过多种方式计算音色相似度,使得上述语音合成方法能够适应更多应用场景,提高了上述语音合成方法的适应性。
[0014]第二方面,本申请实施例提供一种语音合成装置,包括:
[0015]目标说话人训练数据获取模块,用于获取目标说话人训练数据;
[0016]目标说话人音色特征提取模块,用于提取目标说话人音色特征;
[0017]相似说话人音色特征获取模块,用于在用于对预训练语音合成模型进行训练的预训练数据中筛选与目标说话人的相似说话人音色特征;
[0018]加载模块,用于将训练好的预训练语音合成模型的模型参数加载至finetune语音合成模型;
[0019]finetune语音合成模型训练模块,用于对finetune语音合成模型进行训练;
[0020]合成任务执行模块,用于将待合成文本输入训练好的finetune语音合成模型进行语音合成任务。
[0021]可选地,在本申请实施例中,预训练语音合成模型和finetune语音合成模型均包括:
[0022]说话人Embedding层,用于提取音色特征;
[0023]音素Embedding层,用于提取音素特征;
[0024]文本Embedding层,用于提取文本特征;
[0025]Concat层,用于对说话人Embedding层、音素Embedding层和文本Embedding层输出的音色特征、音素特征和文本特征进行拼接;
[0026]Encoder,用于对Concat层输出的拼接特征进行编码处理;
[0027]Variance adaptor,用于根据编码器Encoder的输出对音高特征、能量特征和音素时长特征中至少一项进行预测;
[0028]Positional encoding,用于对Variance adaptor输出的数据进行位置编码;
[0029]mel

spectrogram Decoder,用于对进行位置编码后的编码信息进行解码以获得梅尔频谱特征。
[0030]可选地,在本申请实施例中,finetune语音合成模型的所述说话人Embedding层,还包括:提取目标说话人音色特征和相似说话人音色特征。
[0031]可选地,在本申请实施例中,语音合成装置还包括:
[0032]预训练数据获取模块,用于获取预训练数据;
[0033]预训练数据中说话人音色特征提取模块,用于提取预训练数据中说话人的音色特征;
[0034]预训练语音合成模型训练模块,用于对预训练语音合成模型进行训练。
[0035]第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
[0036]所述处理器和所述存储器通过所述总线完成相互间的通信;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取目标说话人训练数据,并提取目标说话人音色特征;在用于对预训练语音合成模型进行训练的预训练数据中筛选与目标说话人的相似说话人音色特征;将训练好的预训练语音合成模型的模型参数加载至finetune语音合成模型;采用相似说话人音色特征与目标说话人音色特征共同训练finetune语音合成模型;将待合成文本输入训练好的finetune语音合成模型进行语音合成任务。2.根据权利要求1所述的语音合成方法,其特征在于,所述预训练语音合成模型为:由包含有多个说话人训练数据的预训练数据所训练的预训练多人语音合成模型。3.根据权利要求1所述的语音合成方法,其特征在于,所述finetune语音合成模型为:由包含有一个目标说话人训练数据的目标说话人训练数据所训练的finetune单人语音合成模型;或者,由包含有多个目标说话人训练数据的目标说话人训练数据所训练的finetune多人语音合成模型。4.根据权利要求3所述的语音合成方法,其特征在于,在所述finetune语音合成模型为finetune多人语音合成模型时,所述在用于对预训练语音合成模型进行训练的预训练数据中筛选与目标说话人的相似说话人音色特征,包括:在所述预训练数据中的N个说话人音色特征中分别筛选M个目标说话人的相似说话人音色特征,包括:将所述N个说话人音色特征进行特征平均化处理后的平均音色特征分别作为M个目标说话人的相似说话人音色特征;或者,在所述预训练数据中的N个说话人音色特征中任意选取M个说话人音色特征作为M个目标说话人的相似说话人音色特征;或者,计算预训练数据中N个说话人与M个目标说话人音色相似度,分别将与M个目标说话人的音色相似度最大的说话人音色特征作为M个目标说话人的相似说话人音色特征。5.根据权利要求4所述的语音合成方法,其特征在于,所述计算预训练数据中N个说话人与M个目标说话人音色相似度,包括:分别计算预训练数据中N个说话人与M个目标说话人的音色距离作为音色相似度;或者,分别计算预训练数据中N个说话人的音色特征与M个目标说话人的音色特征之间的余弦相似度作为音色相似度。6.一种语音合成装置,其特征在于,包括:目标说话人训练数据获取模块,用于获取目标说话人训练数据;目标说话人...

【专利技术属性】
技术研发人员:樊冯飞姚树杰赵言
申请(专利权)人:鼎富新动力北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1