一种模型训练方法、装置、服务器和介质制造方法及图纸

技术编号:35249158 阅读:26 留言:0更新日期:2022-10-19 09:57
本申请实施例公开了一种模型训练方法、装置、服务器和介质,该方法包括:获取目标文本,调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理,得到预测发音时长;获取目标文本的标注音频数据,采用注意力机制对文本特征及标注音频数据对应的标注声学特征进行时长预测处理,得到参考发音时长;调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理,得到预测声学特征,基于预测声学特征合成预测音频数据;基于预测发音时长与参考发音时长之间的差异,预测声学特征与标注声学特征之间的差异,标注音频数据和预测音频数据之间的差异,对语音处理模型进行训练,可提高模型训练效率,提升音频合成质量。合成质量。合成质量。

【技术实现步骤摘要】
一种模型训练方法、装置、服务器和介质


[0001]本申请涉及计算机
,尤其涉及一种模型训练方法、装置、服务器和介质。

技术介绍

[0002]随着人工智能技术和各种智能化设备的发展,各种深度学习方法在语音处理领域不断取得突破,语音交互技术也得以广泛地应用在各种智能化设备中。语音合成是语音交互技术中的重要环节,通过语音合成可以将文本内容转换为相应的语音数据。语音合成技术可应用在譬如客服机器人等人机交互场景,也可应用在有声书播放等自然语言输出的场景。在语音合成领域中通常是基于相应的语音处理模型来达到语音合成的效果。然而,经研究表明,目前绝大多数用于实现语音合成的语音处理模型的训练存在训练效率不高的问题,由此可见,如何有效提升语音合成类模型的训练效率,成为了当前的研究热点。

技术实现思路

[0003]本申请实施例提供一种模型训练方法、装置、服务器和介质,可简化模型训练流程,实现端到端训练,从而提高模型训练效率,提升音频合成质量。
[0004]一方面,本申请实施例提供了一种模型训练方法,包括:获取目标文本,并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理,得到目标文本的预测发音时长;获取目标文本的标注音频数据,并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理,得到目标文本的参考发音时长;调用语音处理模型基于参考发音时长,对文本特征进行声学特征预测处理,得到目标文本的预测声学特征,并基于预测声学特征合成目标文本的预测音频数据;基于预测发音时长与参考发音时长之间的差异,预测声学特征与标注声学特征之间的差异,以及标注音频数据和预测音频数据之间的差异,对语音处理模型进行训练;训练完成的语音处理模型用于预测待处理文本对应的音频数据。
[0005]一方面,本申请实施例提供了一种模型训练装置,包括:处理模块,用于获取目标文本,并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理,得到目标文本的预测发音时长;处理模块,还用于获取目标文本的标注音频数据,并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理,得到目标文本的参考发音时长;处理模块,还用于调用语音处理模型基于参考发音时长,对文本特征进行声学特征预测处理,得到目标文本的预测声学特征,并基于预测声学特征合成目标文本的预测音频数据;训练模块,用于基于预测发音时长与参考发音时长之间的差异,预测声学特征与
标注声学特征之间的差异,以及标注音频数据和预测音频数据之间的差异,对语音处理模型进行训练;训练完成的语音处理模型用于预测待处理文本对应的音频数据。
[0006]相应地,本申请实施例提供了一种服务器,包括:处理器、存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例中模型训练方法。
[0007]相应地,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例的模型训练方法。
[0008]在本申请实施例中,可获取目标文本和目标文本的标注音频数据,调用语音处理模型对目标文本的文本特征进行发音时长预测处理,得到目标文本的预测发音时长,以及采用注意力机制对文本特征和标注音频数据对应的标注声学特征进行时长预测处理,得到目标文本的参考发音时长,接着,可调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理,得到预测声学特征,进而基于该预测声学特征合成预测音频数据,进一步地,基于预测发音时长和参考发音时长之间的差异、预测声学特征和标注声学特征之间的差异、标注音频数据和预测音频数据之间的差异可对语音处理模型进行训练,得到训练完成的语音处理模型。可见,语音处理模型的训练是完全端到端的训练,即通过目标文本和标注音频数据的输入,可以输出预测音频数据,并基于各个调用语音处理模型的环节预测得到的预测数据(包括预测发音时长、预测声学特征和预测音频数据)与相应标签数据(包括参考发音时长、标注声学特征以及标注音频数据)之间的差异,融合训练语音处理模型,整个模型训练流程并不是割裂而是一体化的,基于各种差异一并训练语音处理模型,模型训练更加简单高效。并且端到端的训练可以使得语音处理模型学习到文本到音频之间的最佳映射关系,能够提升训练效果,训练完成的语音处理模型是符合预期的语音处理模型,进而在使用训练完成的语音处理模型预测待处理文本对应的音频数据时,能够得到高质量的音频数据,提升语音合成效果。
附图说明
[0009]图1a是本申请实施例提供的一种模型训练系统的架构图;图1b是本申请实施例提供的一种私有化应用场景的示意图;图2是本申请实施例提供的一种模型训练方法的流程示意图;图3是本申请实施例提供的一种音频分帧的效果示意图;图4为本申请实施例提供的另一种模型训练方法的流程示意图;图5a为本申请实施例提供的一种中间声学特征的生成示意图;图5b为本申请实施例提供的一种特征对齐矩阵的示意图;图5c为本申请实施例提供的一种注意力网络的处理原理示意图;图5d为本申请实施例提供的一种对文本特征进行上采样处理的示意图;图6a为本申请实施例提供的一种语音合成系统的结构示意图;图6b为本申请实施例提供的一种实时神经网络声码器的网络结构示意图;图6c为本申请实施例提供的一种多频带多时间实时神经网络声码器的网络结构示意图;
图6d为本申请实施例提供的一种语音处理模型的结构示意图;图6e为本申请实施例提供的一种训练完成的语音处理模型的结构示意图;图7是本申请实施例提供的一种模型训练装置的结构示意图;图8是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
[0010]本申请提供了一种模型训练方案,服务器可获取目标文本,并调用语音处理模型对目标文本进行编码处理,得到目标文本的文本特征,再对文本特征进行发音时长预测处理,得到目标文本的预测发音时长;服务器还可获取目标文本的标注音频数据,对标注音频数据进行声学特征提取处理,得到该标注音频数据对应的标注声学特征,进而采用注意力机制对文本特征和标注声学特征进行时长预测处理,得到目标文本的参考发音时长,通过注意力机制可以使得模型学习到文本特征和标注声学特征之间的关键信息,有利于参考发音时长的准确提取,进一步地,服务器可调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理,得到预测声学特征,实现文本特征至声学特征的转换,进而基于声学特征合成目标文本对应的预测音频数据,至此,在语音处理模型的处理下,完成目标文本到预测音频数据的合成。接着,服务器可基于预测发音时长和参考发音时长之间的差异、预测声学特征和标注声学特征之间的差异、标注音频数据和预测音频数据之间的差异,对语音处理模型进行训练,使得语音处理模型在发音时长预测处理、声学特征预测处理、以及音频数据合成处理这几个处理阶段能够更加贴近于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取目标文本,并调用语音处理模型对所述目标文本进行编码处理后得到的文本特征进行发音时长预测处理,得到所述目标文本的预测发音时长;获取所述目标文本的标注音频数据,并采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理,得到所述目标文本的参考发音时长;调用所述语音处理模型基于所述参考发音时长,对所述文本特征进行声学特征预测处理,得到所述目标文本的预测声学特征,并基于所述预测声学特征合成所述目标文本的预测音频数据;基于所述预测发音时长与所述参考发音时长之间的差异,所述预测声学特征与所述标注声学特征之间的差异,以及所述标注音频数据和所述预测音频数据之间的差异,对所述语音处理模型进行训练;训练完成的语音处理模型用于预测待处理文本对应的音频数据。2.如权利要求1所述的方法,其特征在于,所述目标文本包含多个文本字符,所述文本特征包含多个字符特征,且一个字符特征与一个文本字符相对应;所述采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理,得到所述目标文本的参考发音时长,包括:根据所述标注音频数据对应的标注声学特征进行特征转换处理,得到中间声学特征;采用注意力机制,计算所述中间声学特征在所述文本特征中的各字符特征下对应的注意力分数;根据任一字符特征对应的注意力分数,预测所述任一字符特征对应文本字符的发音时长,并将每个文本字符的发音时长整合为所述目标文本的参考发音时长。3.如权利要求2所述的方法,其特征在于,所述标注声学特征包含多个声学特征帧;所述根据所述标注音频数据对应的标注声学特征进行特征转换处理,得到中间声学特征,包括:从所述标注声学特征包含的多个声学特征帧中,依次选取一个声学特征帧作为参考声学特征帧,并基于所述参考声学特征帧进行特征预测处理,得到所述参考声学特征帧对应的初始声学特征帧;基于每个参考声学特征帧的选取顺序,对相应的初始声学特征帧进行排序,得到初始声学特征帧序列,并将所述初始声学特征帧序列作为中间声学特征。4.如权利要求2所述的方法,其特征在于,所述标注声学特征包含多个声学特征帧,所述中间声学特征在各字符特征下对应的注意力分数包括:各声学特征帧在不同字符特征下对应的注意力分数;所述根据任一字符特征对应的注意力分数,预测所述任一字符特征对应文本字符的发音时长,包括:从各声学特征帧在不同字符特征下对应的注意力分数中,确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量;基于确定出的所述声学特征帧数量,得到所述任一字符特征对应预测的发音时长。5.如权利要求4所述的方法,其特征在于,所述从各声学特征帧在不同字符特征下对应的注意力分数中,确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量,包括:
根据各声学特征帧与相应字符特征之间的注意力分数,构建特征对齐矩阵;所述特征对齐矩阵包含多个分别与相应字符特征对应的列,且处于一列的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数;从所述特征对齐矩阵中选取出任一列,并从选取出的任一列包含的注意力分数中,确定出对应注意力分数大于分数阈值的目标数量;将所述目标数量,作为各声学特征帧在任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。6.如权利要求4所述的方法,其特征在于,所述基于确定出的所述声学特征帧数量,得到所述任一字符特征对应预测的发音时长,包括:将确定出的所述声学特征帧数量,作为所述任一字符特征对应预测的发音时长;或者,获取每个声学特征帧对应的时长,并将每个声学特征帧对应的时长和确定出的声学特征帧数量之间的乘积,作为所述任一字符特征对应预测的发音时长。7.如权利要求1所述的方法,其特征在于,所述参考发音时长是基于注意力网络中包含的注意力机制进行预测得到的,所述预测发音时长是由所述语音处理模型中的时长预测网络进行预测得到的;其中,所述注意力网络对应网络结构的复杂度大于所述时长预测网络对应网络结构的复杂度,以使由所述注意力网络预测得到的参考发音时长的预测准确度,高于由所述时长预测网络预测得到的预测发音时长的预测准确度。8.如权利要求7所述的方法,其特征在于,所述注意力网络还包括辅助解码器;所述方法还包括:获取根据所述标注声学特征进行特征转换处理得到的中间声学特征,并采用所述辅助解码器对所述中间声学特征进行特征提纯处理,得到目标声...

【专利技术属性】
技术研发人员:林诗伦苏文超蒙力
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1