语音合成方法、模型训练方法、设备及存储介质技术

技术编号:32931848 阅读:18 留言:0更新日期:2022-04-07 12:22
本申请提供一种语音合成方法、模型训练方法、设备及存储介质,该语音合成方法包括:获取待合成文本,输入到训练好的目标语音合成模型,得到待合成文本对应的目标语音;其中,根据预训练集对预设的语音合成模型进行预训练得到语音合成模型;采用目标应用场景对应的目标时长预测网络替换语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,目标训练集包括目标说话人的语音样本;从预训练集中挑选出目标说话人的同类说话人的语音样本进行mask加噪得到加噪语音样本;根据目标训练集和加噪语音样本对目标语音合成模型进行训练,得到训练好的目标语音合成模型。本申请能够合成与特定说话人说话风格更为契合的高质量自然流畅语音。质量自然流畅语音。质量自然流畅语音。

【技术实现步骤摘要】
语音合成方法、模型训练方法、设备及存储介质


[0001]本申请涉及语音合成
,尤其涉及一种语音合成方法、模型训练方法、设备及存储介质。

技术介绍

[0002]语音合成(speechsynthesis)又称文语转换(text

to

speech,TTS),旨在实现将输入文本转换为流畅自然的输出语音,是实现智能人机语音交互的关键技术。
[0003]传统的语音合成技术中,构建一个特定说话人的语音合成模型,需要该特定说话人10

20h的录音数据,并且录音数据质量越好,合成语音的效果越好。随着应用场景的多样化,如手机助理、车载导航、亲人声音复刻等,每个应用场景都要求其代表性发言人大量的录音数据,难度大成本高。然而,现有基于少量训练数据建模得到的语音合成模型,很容易拟合噪声,且合成的语音机械感严重,不够流畅,与说话人的音色、韵律等说话风格也相差甚远。

技术实现思路

[0004]本申请提供了一种语音合成方法、模型训练方法、设备及存储介质,旨在提升语音合成模型的泛化能力和鲁棒性,使得语音合成模型能够合成与特定说话人的说话风格更为契合的高质量自然流畅语音。
[0005]第一方面,本申请提供了一种语音合成方法,所述方法包括:
[0006]获取待合成文本,输入到训练好的目标语音合成模型,得到所述待合成文本对应的目标语音,其中,所述训练好的目标语音合成模型通过如下方法得到:
[0007]根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,其中,所述预训练集包括多个说话人的语音样本,所述语音合成模型包括时长预测网络;
[0008]确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络,得到目标语音合成模型;
[0009]获取目标训练集,其中,所述目标训练集包括目标说话人的语音样本;
[0010]从所述预训练集中获取与所述目标说话人的同类说话人的语音样本,对所述同类说话人的语音样本进行mask加噪处理,得到加噪语音样本;
[0011]根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到所述训练好的目标语音合成模型。
[0012]第二方面,本申请提供了一种语音合成模型的训练方法,所述方法包括:
[0013]根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,其中,所述预训练集包括多个说话人的语音样本,所述语音合成模型包括时长预测网络;
[0014]确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络,得到目标语音合成模型;
[0015]获取目标训练集,其中,所述目标训练集包括目标说话人的语音样本;
[0016]从所述预训练集中获取与所述目标说话人的同类说话人的语音样本,对所述同类说话人的语音样本进行mask加噪处理,得到加噪语音样本;
[0017]根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到训练好的目标语音合成模型。
[0018]第三方面,本申请还提供了一种计算机设备,所述计算机设备包括:
[0019]存储器和处理器;
[0020]其中,所述存储器与所述处理器连接,用于存储程序;
[0021]所述处理器用于通过运行所述存储器中存储的程序,实现如本申请实施例提供的任一项所述的语音合成方法的步骤,或者实现如本申请实施例提供的任一项所述的语音合成模型的训练方法的步骤。
[0022]第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请实施例提供的任一项所述的语音合成方法的步骤,或者实现如本申请实施例提供的任一项所述的语音合成模型的训练方法的步骤。
[0023]本申请公开的语音合成方法、模型训练方法、设备及存储介质,该语音合成方法,获取待合成文本,输入到训练好的目标语音合成模型,得到待合成文本对应的目标语音,其中,训练好的目标语音合成模型通过如下方法得到:预训练阶段采用多个说话人的语音样本预训练得到语音合成模型,然后采用目标应用场景对应的目标时长预测网络替换掉语音合成模型中的时长预测网络,得到目标语音合成模型,从而在微调阶段采用目标说话人少量的语音样本以及目标说话人的同类说话人的加噪语音样本,对目标语音合成模型进行微调,得到训练好的目标语音合成模型。一方面,相比采用多个说话人的语音样本预训练得到的时长预测网络,目标应用场景对应的目标时长预测网络稳定性更高,在目标应用场景对应的目标时长预测网络上微调,使得训练好的目标语音合成模型能够预测与目标说话人的发音风格更为契合的音素时长,从而使得训练好的目标语音合成模型合成的语音的韵律,与目标说话人的真实语音更为接近,提升了合成的语音的自然度和流畅度;另一方面,目标说话人的同类说话人的加噪语音样本是对预训练阶段使用过的目标说话人的同类说话人的语音样本进行mask加噪处理得到的,在对目标语音合成模型进行微调时可以防止目标语音合成模型将历史信息“搬运”过来预测现在,有效降低训练好的目标语音合成模型过拟合,从而提升训练好的目标语音合成模型的泛化能力,使得训练好的目标语音合成模型对噪声场景也具有极高的鲁棒性,进而提高了合成的语音的质量。
[0024]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0025]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1a是本申请的实施例提供的一种现有fewshot技术构建个性化语音合成系统的示意图;
[0027]图1b是本申请的实施例提供的一种现有oneshot技术构建个性化语音合成系统的示意图;
[0028]图2是本申请的实施例提供的一种语音合成方法的步骤示意流程图;
[0029]图3是本申请的实施例提供的一种预设的语音合成模型的结构示意图;
[0030]图4是本申请的实施例提供的一种对目标说话人的同类说话人的语音样本进行mask加噪处理的示例图;
[0031]图5是本申请的实施例提供的一种将声学特征表征为图像的示例图;
[0032]图6是本申请的实施例提供的一种语音合成模型的训练方法的步骤示意流程图;
[0033]图7是本申请的实施例提供的一种计算机设备的示意框图。
[0034]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
具体实施方式
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取待合成文本,输入到训练好的目标语音合成模型,得到所述待合成文本对应的目标语音,其中,所述训练好的目标语音合成模型通过如下方法得到:根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,其中,所述预训练集包括多个说话人的语音样本,所述语音合成模型包括时长预测网络;确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,其中,所述目标训练集包括目标说话人的语音样本;从所述预训练集中获取与所述目标说话人的同类说话人的语音样本,对所述同类说话人的语音样本进行mask加噪处理,得到加噪语音样本;根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到所述训练好的目标语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述预设的语音合成模型包括序列到序列网络和时长预测网络;所述根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,包括:根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练,保存所述序列到序列网络和时长预测网络的参数,得到语音合成模型。3.根据权利要求2所述的方法,其特征在于,所述多个说话人的语音样本包括所述多个说话人的音频数据的声学特征,以及所述多个说话人的音频数据的文本对应的音素时长;所述根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练,包括:将所述预训练集中多个说话人的语音样本输入至预设的语音合成模型中,在所述序列到序列网络的编码端对所述声学特征和所述音素时长进行编码,得到声学特征编码向量和音素时长编码向量;在所述序列到序列网络的解码端增加对噪声的嵌入操作得到噪声嵌入向量;以所述音素时长编码向量作为输入,所述音素时长作为预测目标,训练所述时长预测网络;基于所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量,以所述声学特征作为预测目标,训练所述序列到序列网络网络。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在训练所述时长预测网络时,计算所述时长预测网络的第一损失函数;在训练所述序列到序列网络时,计算所述序列到序列网络的第二损失函数;根据所述第一损失函数和所述第二损失函数,计算所述预设的语音合成模型的损失函数,直至所述损失函数收敛,得到语音合成模型。5.根据权利要求4所述的方法,其特征在于,所述多个说话人的语音样本包括所述多个说话人的音频数据对应的标签,所述标签包括clean标签和noise标签;所述在训练所述序列到序列网络时,计算所述序列到序列网络的第二损失函数,包括:根据所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量获得融合预测向量;
在所述序列到序列网络的解码端对所述融合预测向量进行自回归解码,以使所述序列到序列网络在所述标签为clean标签时学习预测clean声学特征、所述标签为noise标签时学习预测noise声学特征,计算所述序列到序列网络网络的第二损失函数。6.根据权利要求1

5任一项所述的方法,其...

【专利技术属性】
技术研发人员:宋锐江源
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1