语音合成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:35482321 阅读:15 留言:0更新日期:2022-11-05 16:33
本申请公开了一种语音合成模型的训练方法、装置、设备及存储介质,涉及人工智能领域。方法包括:通过文本编码器得到样本隐藏文本表征;基于样本隐藏文本表征和样本声学特征,通过第一解码器得到第一发音时长和第一预测声学特征;基于样本隐藏文本特征,通过时长预测器得到第二发音时长;基于对第一发音时长进行上采样处理得到的样本隐藏文本扩展表征,通过第二解码器得到第二预测声学特征;基于第一发音时长、第二发音时长、样本声学特征、第一预测声学特征和第二预测声学特征,训练文本编码器、时长预测器、第一解码器和第二解码器;基于训练好的文本编码器、时长预测器和第二解码器构建语音合成模型。本方案有助于提升语音合成模型的训练效果。模型的训练效果。模型的训练效果。

【技术实现步骤摘要】
语音合成模型的训练方法、装置、设备及存储介质


[0001]本申请实施例涉及人工智能领域,特别涉及一种语音合成模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]语音合成是指将文本转化为音频的过程,该过程中,通常利用语音合成模型进行语音合成。
[0003]相关技术中,在训练语音合成模型时,需要进行多次独立训练,使得语音合成模型的训练流程割裂,训练流程繁琐且无法实现融合训练的优势,合成的音频较为生硬、自然度不高。

技术实现思路

[0004]本申请实施例提供了一种语音合成模型的训练方法、装置、设备及存储介质。所述技术方案如下:
[0005]一方面,本申请实施例提供了一种语音合成模型的训练方法,所述方法包括:
[0006]通过文本编码器对样本文本进行编码,得到样本隐藏文本表征;
[0007]基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征;
[0008]基于所述样本隐藏文本特征,通过时长预测器进行时长预测,得到第二发音时长;
[0009]基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征;
[0010]通过第二解码器对所述样本隐藏文本扩展表征进行解码,得到第二预测声学特征;
[0011]将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器;
[0012]基于训练得到的所述文本编码器、所述时长预测器以及所述第二解码器构建语音合成模型。
[0013]另一方面,本申请实施例提供了一种语音合成模型的训练装置,所述装置包括:
[0014]文本编码模块,用于通过文本编码器对样本文本进行编码,得到样本隐藏文本表征;
[0015]第一解码模块,用于基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征;
[0016]时长预测模块,用于基于所述样本隐藏文本特征,通过时长预测器进行时长预测,
得到第二发音时长;
[0017]上采样模块,用于基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征;
[0018]第二解码模块,用于通过第二解码器对所述样本隐藏文本扩展表征进行解码,得到第二预测声学特征;
[0019]训练模块,用于将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器;
[0020]模型构建模块,用于基于训练得到的所述文本编码器、所述时长预测器以及所述第二解码器构建语音合成模型。
[0021]另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的语音合成模型的训练方法。
[0022]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上述方面所述的语音合成模型的训练方法。
[0023]另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该耳机执行上述方面提供的语音合成模型的训练方法。
[0024]本申请实施例提供的技术方案带来的有益效果至少包括:
[0025]本申请实施例中,计算机设备首先通过文本编码器对样本文本进行编码,得到样本隐藏文本表征,进而基于样本隐藏文本表征以及样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到样本隐藏文本表征对应的第一发音时长以及第一预测声学特征,并基于样本隐藏文本特征,通过时长预测器进行时长预测,得到第二发音时长,基于第一发音时长对样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征,进一步的,通过第二解码器对样本隐藏文本扩展表征进行解码,得到第二预测声学特征,最后将第一发音时长作为第二发音时长的监督,以及将样本声学特征作为第一预测声学特征和第二预测声学特征的监督,采用端到端方式训练文本编码器、时长预测器、第一解码器以及第二解码器,并基于训练得到的文本编码器、时长预测器以及第二解码器构建语音合成模型;采用本申请实施例提供的方案,可基于第一发音时长对样本隐藏文本表征进行上采样处理,然后再输入到第二解码器中,解决了样本文本长度与对应样本声学特征间长度不匹配的问题,并通过采用端到端的训练方式,进一步简化声学模型的结构,提高声学模型将待合成文本转换为声学特征的效率以及转换质量。
附图说明
[0026]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
[0027]图1示出了本申请示例性实施例提供的语音合成模型的实施环境的示意图;
[0028]图2示出了本申请一个示例性实施例提供的语音合成模型的训练方法的流程图;
[0029]图3示出了本申请一个示例性实施例提供的语音合成模型训练过程的实施示意图;
[0030]图4示出了本申请一个示例性实施例提供的第一解码器进行时长预测以及解码过程的流程图;
[0031]图5示出了本申请一个示例性实施例提供的第一解码器时长预测以及解码的过程的实施示意图;
[0032]图6示出了本申请另一个示例性实施例提供的语音合成模型的训练方法的流程图;
[0033]图7示出了本申请另一个示例性实施例提供的语音合成模型训练过程的实施示意图;
[0034]图8示出了本申请一个示例性实施例提供的语音合成过程的流程图;
[0035]图9示出了本申请一个示例性实施例提供的语音合成过程的实施示意图;
[0036]图10是本申请一个示例性实施例提供的语音合成模型的训练装置的结构框图;
[0037]图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
[0038]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0039]在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:通过文本编码器对样本文本进行编码,得到样本隐藏文本表征;基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征;基于所述样本隐藏文本特征,通过时长预测器进行时长预测,得到第二发音时长;基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征;通过第二解码器对所述样本隐藏文本扩展表征进行解码,得到第二预测声学特征;将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器;基于训练得到的所述文本编码器、所述时长预测器以及所述第二解码器构建语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述第一解码器包括注意力机制以及子解码器;所述基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征,包括:基于所述样本隐藏文本表征以及所述样本声学特征,通过注意力机制确定所述样本隐藏文本表征与所述样本声学特征之间的对齐矩阵以及注意力权重;基于所述对齐矩阵,确定所述样本隐藏文本表征对应的所述第一发音时长;基于所述注意力权重、所述样本隐藏文本表征以及所述样本声学特征,通过所述子解码器进行解码,得到所述第一预测声学特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述注意力权重以及所述样本隐藏文本表征,通过所述子解码器进行解码,得到所述第一预测声学特征,包括:基于第t时刻的所述注意力权重,对所述样本隐藏文本表征进行注意力计算,得到第t时刻的上下文特征;基于第t时刻的所述上下文特征以及第t

1时刻的所述样本声学特征,通过所述子解码器进行解码,得到第t时刻的预测声学子特征;基于各个时刻的所述预测声学子特征生成所述第一预测声学特征。4.根据权利要求1所述的方法,其特征在于,所述将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器,包括:基于所述第一发音时长和所述第二发音时长,确定时长预测损失;基于所述样本声学特征和所述第一预测声学特征,确定第一声学特征预测损失;基于所述样本声学特征和所述第二预测声学特征,确定第二声学特征预测损失;基于所述时长预测损失、所述第一声学特征预测损失以及所述第二声学特征预测损
失,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器。5.根据权利要求1所述的方法,其特征在于,所述第一发音时长用于指示所述样本隐藏文本表征中不同样本隐藏文本子表征对应的声学特征的发音帧数;所述基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征,包括:基于所述第一发音时长所指示的所述发音帧数,对所述样本隐藏文本表征中的所述样本隐藏文本子表征进行表征复制,得到所述样本隐藏文本...

【专利技术属性】
技术研发人员:林诗伦蒙力苏文超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1