一种模型训练方法、装置、服务器和介质制造方法及图纸

技术编号：35249158 阅读：26 留言：0更新日期：2022-10-19 09:57

本申请实施例公开了一种模型训练方法、装置、服务器和介质，该方法包括：获取目标文本，调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到预测发音时长；获取目标文本的标注音频数据，采用注意力机制对文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到参考发音时长；调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理，得到预测声学特征，基于预测声学特征合成预测音频数据；基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练，可提高模型训练效率，提升音频合成质量。合成质量。合成质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置、服务器和介质

[0001]本申请涉及计算机
，尤其涉及一种模型训练方法、装置、服务器和介质。

技术介绍

[0002]随着人工智能技术和各种智能化设备的发展，各种深度学习方法在语音处理领域不断取得突破，语音交互技术也得以广泛地应用在各种智能化设备中。语音合成是语音交互技术中的重要环节，通过语音合成可以将文本内容转换为相应的语音数据。语音合成技术可应用在譬如客服机器人等人机交互场景，也可应用在有声书播放等自然语言输出的场景。在语音合成领域中通常是基于相应的语音处理模型来达到语音合成的效果。然而，经研究表明，目前绝大多数用于实现语音合成的语音处理模型的训练存在训练效率不高的问题，由此可见，如何有效提升语音合成类模型的训练效率，成为了当前的研究热点。

技术实现思路

[0003]本申请实施例提供一种模型训练方法、装置、服务器和介质，可简化模型训练流程，实现端到端训练，从而提高模型训练效率，提升音频合成质量。
[0004]一方面，本申请实施例提供了一种模型训练方法，包括：获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长；获取目标文本的标注音频数据，并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长；调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取目标文本，并调用语音处理模型对所述目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到所述目标文本的预测发音时长；获取所述目标文本的标注音频数据，并采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理，得到所述目标文本的参考发音时长；调用所述语音处理模型基于所述参考发音时长，对所述文本特征进行声学特征预测处理，得到所述目标文本的预测声学特征，并基于所述预测声学特征合成所述目标文本的预测音频数据；基于所述预测发音时长与所述参考发音时长之间的差异，所述预测声学特征与所述标注声学特征之间的差异，以及所述标注音频数据和所述预测音频数据之间的差异，对所述语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。2.如权利要求1所述的方法，其特征在于，所述目标文本包含多个文本字符，所述文本特征包含多个字符特征，且一个字符特征与一个文本字符相对应；所述采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理，得到所述目标文本的参考发音时长，包括：根据所述标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征；采用注意力机制，计算所述中间声学特征在所述文本特征中的各字符特征下对应的注意力分数；根据任一字符特征对应的注意力分数，预测所述任一字符特征对应文本字符的发音时长，并将每个文本字符的发音时长整合为所述目标文本的参考发音时长。3.如权利要求2所述的方法，其特征在于，所述标注声学特征包含多个声学特征帧；所述根据所述标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征，包括：从所述标注声学特征包含的多个声学特征帧中，依次选取一个声学特征帧作为参考声学特征帧，并基于所述参考声学特征帧进行特征预测处理，得到所述参考声学特征帧对应的初始声学特征帧；基于每个参考声学特征帧的选取顺序，对相应的初始声学特征帧进行排序，得到初始声学特征帧序列，并将所述初始声学特征帧序列作为中间声学特征。4.如权利要求2所述的方法，其特征在于，所述标注声学特征包含多个声学特征帧，所述中间声学特征在各字符特征下对应的注意力分数包括：各声学特征帧在不同字符特征下对应的注意力分数；所述根据任一字符特征对应的注意力分数，预测所述任一字符特征对应文本字符的发音时长，包括：从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量；基于确定出的所述声学特征帧数量，得到所述任一字符特征对应预测的发音时长。5.如权利要求4所述的方法，其特征在于，所述从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量，包括：
根据各声学特征帧与相应字符特征之间的注意力分数，构建特征对齐矩阵；所述特征对齐矩阵包含多个分别与相应字符特征对应的列，且处于一列的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数；从所述特征对齐矩阵中选取出任一列，并从选取出的任一列包含的注意力分数中，确定出对应注意力分数大于分数阈值的目标数量；将所述目标数量，作为各声学特征帧在任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。6.如权利要求4所述的方法，其特征在于，所述基于确定出的所述声学特征帧数量，得到所述任一字符特征对应预测的发音时长，包括：将确定出的所述声学特征帧数量，作为所述任一字符特征对应预测的发音时长；或者，获取每个声学特征帧对应的时长，并将每个声学特征帧对应的时长和确定出的声学特征帧数量之间的乘积，作为所述任一字符特征对应预测的发音时长。7.如权利要求1所述的方法，其特征在于，所述参考发音时长是基于注意力网络中包含的注意力机制进行预测得到的，所述预测发音时长是由所述语音处理模型中的时长预测网络进行预测得到的；其中，所述注意力网络对应网络结构的复杂度大于所述时长预测网络对应网络结构的复杂度，以使由所述注意力网络预测得到的参考发音时长的预测准确度，高于由所述时长预测网络预测得到的预测发音时长的预测准确度。8.如权利要求7所述的方法，其特征在于，所述注意力网络还包括辅助解码器；所述方法还包括：获取根据所述标注声学特征进行特征转换处理得到的中间声学特征，并采用所述辅助解码器对所述中间声学特征进行特征提纯处理，得到目标声...

【专利技术属性】
技术研发人员：林诗伦，苏文超，蒙力，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人