【技术实现步骤摘要】
语音合成模型的训练方法、装置、设备及存储介质
[0001]本申请实施例涉及人工智能领域,特别涉及一种语音合成模型的训练方法、装置、设备及存储介质。
技术介绍
[0002]语音合成是指将文本转化为音频的过程,该过程中,通常利用语音合成模型进行语音合成。
[0003]相关技术中,在训练语音合成模型时,需要进行多次独立训练,使得语音合成模型的训练流程割裂,训练流程繁琐且无法实现融合训练的优势,合成的音频较为生硬、自然度不高。
技术实现思路
[0004]本申请实施例提供了一种语音合成模型的训练方法、装置、设备及存储介质。所述技术方案如下:
[0005]一方面,本申请实施例提供了一种语音合成模型的训练方法,所述方法包括:
[0006]通过文本编码器对样本文本进行编码,得到样本隐藏文本表征;
[0007]基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征;
[0008]基于所述样本隐藏文本特征,通过时长预测器进行时长预测,得到第二发音时长;
[0009]基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征;
[0010]通过第二解码器对所述样本隐藏文本扩展表征进行解码,得到第二预测声学特征;
[0011]将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:通过文本编码器对样本文本进行编码,得到样本隐藏文本表征;基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征;基于所述样本隐藏文本特征,通过时长预测器进行时长预测,得到第二发音时长;基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征;通过第二解码器对所述样本隐藏文本扩展表征进行解码,得到第二预测声学特征;将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器;基于训练得到的所述文本编码器、所述时长预测器以及所述第二解码器构建语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述第一解码器包括注意力机制以及子解码器;所述基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器进行时长预测以及解码,得到所述样本隐藏文本表征对应的第一发音时长以及第一预测声学特征,包括:基于所述样本隐藏文本表征以及所述样本声学特征,通过注意力机制确定所述样本隐藏文本表征与所述样本声学特征之间的对齐矩阵以及注意力权重;基于所述对齐矩阵,确定所述样本隐藏文本表征对应的所述第一发音时长;基于所述注意力权重、所述样本隐藏文本表征以及所述样本声学特征,通过所述子解码器进行解码,得到所述第一预测声学特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述注意力权重以及所述样本隐藏文本表征,通过所述子解码器进行解码,得到所述第一预测声学特征,包括:基于第t时刻的所述注意力权重,对所述样本隐藏文本表征进行注意力计算,得到第t时刻的上下文特征;基于第t时刻的所述上下文特征以及第t
‑
1时刻的所述样本声学特征,通过所述子解码器进行解码,得到第t时刻的预测声学子特征;基于各个时刻的所述预测声学子特征生成所述第一预测声学特征。4.根据权利要求1所述的方法,其特征在于,所述将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器,包括:基于所述第一发音时长和所述第二发音时长,确定时长预测损失;基于所述样本声学特征和所述第一预测声学特征,确定第一声学特征预测损失;基于所述样本声学特征和所述第二预测声学特征,确定第二声学特征预测损失;基于所述时长预测损失、所述第一声学特征预测损失以及所述第二声学特征预测损
失,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器。5.根据权利要求1所述的方法,其特征在于,所述第一发音时长用于指示所述样本隐藏文本表征中不同样本隐藏文本子表征对应的声学特征的发音帧数;所述基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征,包括:基于所述第一发音时长所指示的所述发音帧数,对所述样本隐藏文本表征中的所述样本隐藏文本子表征进行表征复制,得到所述样本隐藏文本...
【专利技术属性】
技术研发人员:林诗伦,蒙力,苏文超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。