语音合成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：35482321 阅读：15 留言：0更新日期：2022-11-05 16:33

本申请公开了一种语音合成模型的训练方法、装置、设备及存储介质，涉及人工智能领域。方法包括：通过文本编码器得到样本隐藏文本表征；基于样本隐藏文本表征和样本声学特征，通过第一解码器得到第一发音时长和第一预测声学特征；基于样本隐藏文本特征，通过时长预测器得到第二发音时长；基于对第一发音时长进行上采样处理得到的样本隐藏文本扩展表征，通过第二解码器得到第二预测声学特征；基于第一发音时长、第二发音时长、样本声学特征、第一预测声学特征和第二预测声学特征，训练文本编码器、时长预测器、第一解码器和第二解码器；基于训练好的文本编码器、时长预测器和第二解码器构建语音合成模型。本方案有助于提升语音合成模型的训练效果。模型的训练效果。模型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练方法、装置、设备及存储介质

[0001]本申请实施例涉及人工智能领域，特别涉及一种语音合成模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]语音合成是指将文本转化为音频的过程，该过程中，通常利用语音合成模型进行语音合成。
[0003]相关技术中，在训练语音合成模型时，需要进行多次独立训练，使得语音合成模型的训练流程割裂，训练流程繁琐且无法实现融合训练的优势，合成的音频较为生硬、自然度不高。

技术实现思路

[0004]本申请实施例提供了一种语音合成模型的训练方法、装置、设备及存储介质。所述技术方案如下：
[0005]一方面，本申请实施例提供了一种语音合成模型的训练方法，所述方法包括：
[0006]通过文本编码器对样本文本进行编码，得到样本隐藏文本表征；
[0007]基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征，通过第一解码器进行时长预测以及解码，得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征；
[0008]基于所述样本隐藏文本特征，通过时长预测器进行时长预测，得到第二发音时长；
[0009]基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理，得到样本隐藏文本扩展表征；
[0010]通过第二解码器对所述样本隐藏文本扩展表征进行解码，得到第二预测声学特征；
[0011]将所述第一发音时长作为所述第二发音时长的监督，以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，所述方法包括：通过文本编码器对样本文本进行编码，得到样本隐藏文本表征；基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征，通过第一解码器进行时长预测以及解码，得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征；基于所述样本隐藏文本特征，通过时长预测器进行时长预测，得到第二发音时长；基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理，得到样本隐藏文本扩展表征；通过第二解码器对所述样本隐藏文本扩展表征进行解码，得到第二预测声学特征；将所述第一发音时长作为所述第二发音时长的监督，以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督，采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器；基于训练得到的所述文本编码器、所述时长预测器以及所述第二解码器构建语音合成模型。2.根据权利要求1所述的方法，其特征在于，所述第一解码器包括注意力机制以及子解码器；所述基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征，通过第一解码器进行时长预测以及解码，得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征，包括：基于所述样本隐藏文本表征以及所述样本声学特征，通过注意力机制确定所述样本隐藏文本表征与所述样本声学特征之间的对齐矩阵以及注意力权重；基于所述对齐矩阵，确定所述样本隐藏文本表征对应的所述第一发音时长；基于所述注意力权重、所述样本隐藏文本表征以及所述样本声学特征，通过所述子解码器进行解码，得到所述第一预测声学特征。3.根据权利要求2所述的方法，其特征在于，所述基于所述注意力权重以及所述样本隐藏文本表征，通过所述子解码器进行解码，得到所述第一预测声学特征，包括：基于第t时刻的所述注意力权重，对所述样本隐藏文本表征进行注意力计算，得到第t时刻的上下文特征；基于第t时刻的所述上下文特征以及第t
‑
1时刻的所述样本声学特征，通过所述子解码器进行解码，得到第t时刻的预测声学子特征；基于各个时刻的所述预测声学子特征生成所述第一预测声学特征。4.根据权利要求1所述的方法，其特征在于，所述将所述第一发音时长作为所述第二发音时长的监督，以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督，采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器，包括：基于所述第一发音时长和所述第二发音时长，确定时长预测损失；基于所述样本声学特征和所述第一预测声学特征，确定第一声学特征预测损失；基于所述样本声学特征和所述第二预测声学特征，确定第二声学特征预测损失；基于所述时长预测损失、所述第一声学特征预测损失以及所述第二声学特征预测损
失，采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器。5.根据权利要求1所述的方法，其特征在于，所述第一发音时长用于指示所述样本隐藏文本表征中不同样本隐藏文本子表征对应的声学特征的发音帧数；所述基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理，得到样本隐藏文本扩展表征，包括：基于所述第一发音时长所指示的所述发音帧数，对所述样本隐藏文本表征中的所述样本隐藏文本子表征进行表征复制，得到所述样本隐藏文本...

【专利技术属性】
技术研发人员：林诗伦，蒙力，苏文超，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人