【技术实现步骤摘要】
一种网络训练方法、数据处理方法及相关设备
[0001]本申请实施例涉及语音合成领域,尤其涉及一种网络训练方法、数据处理方法及相关设备。
技术介绍
[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到研究者的广泛关注。在端对端的语音合成(text to speech,TTS)场景下,为了保证合成语音的听感较好,TTS的模型在训练过程中需要校正音素与语音的对应关系,从而根据该对应关系修正模型输出的语音。常用校正音素与语音对应关系的方式是强制对齐等方式。
[0004]然而,上述强制对齐方式中,可能出现音素与语音的对齐效果较差的情况,即可能出现音素的遗漏。
技术实现思路
[0005]本申请实施例提供了一种网络训练方法、数据处理方法及相关设备,通过注意力机制与动态规划方法得到音素的时长信息,从而减少音素的遗漏,提升应用于 ...
【技术保护点】
【技术特征摘要】
1.一种网络训练方法,其特征在于,所述方法包括:获取第一文本以及与所述第一文本对应的第一语音;基于所述第一文本,得到第一音素序列;基于注意力机制获取所述第一语音与所述第一音素序列的对应关系,所述对应关系用于表示所述第一音素序列中各音素在所述第一语音中的时长;基于动态规划方法修正所述对应关系得到所述第一音素序列中各音素的第一时长信息;基于所述第一音素序列与所述第一时长信息训练第一预测网络,得到训练好的第一预测网络,所述训练好的第一预测网络用于预测待处理文本中各音素的时长信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音素序列与所述第一时长信息训练第一预测网络,包括:以所述第一音素序列作为所述第一预测网络的输入,以第一损失函数的值小于第一阈值为目标对所述第一预测网络进行训练得到所述训练好的第一预测网络,所述第一损失函数用于表示所述第一预测网络输出的时长信息与所述第一时长信息之间的差异。3.根据权利要求1或2所述的方法,其特征在于,所述第一语音包括至少两类语种/方言的语音;所述方法还包括:获取第二文本以及与所述第二文本对应的第二语音,所述第二语音包括所述至少两类语种/方言中的一类语种/方言的语音;获取所述第二文本的第二音素序列;获取所述第二音素序列中各音素的第二时长信息;以所述第二音素序列作为第二预测网络的输入,以第二损失函数的值小于第二阈值为目标对所述第二预测网络进行训练得到所述第一预测网络,所述第二损失函数用于表示所述第二预测网络输出的时长信息与所述第二时长信息之间的差异。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:获取所述第一语音的第一梅尔谱特征;获取第一发音特征,所述第一发音特征用于描述所述第一语音的音色特征;以所述第一音素序列、所述第一时长信息以及所述第一发音特征作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对所述第一语音合成网络进行训练得到训练好的第一语音合成网络与训练好的第一发音特征,所述第三损失函数用于表示所述第一语音合成网络输出的第二梅尔谱特征与所述第一梅尔谱特征之间的差异,所述第二梅尔谱特征是经过所述第一时长信息扩展后得到的。5.根据权利要求4所述的方法,其特征在于,所述第一语音合成网络包括编码器与自回归解码器;所述以所述第一音素序列与所述第一时长信息作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对第一语音合成网络进行训练得到训练好的第一语音合成网络,包括:基于所述编码器获取所述第一音素序列对应的第一特征;基于所述第一时长信息对所述第一特征进行扩展得到第二特征;基于自回归解码器与所述第二特征得到所述第二梅尔谱特征;
以所述第三损失函数的值小于所述第三阈值为目标对所述编码器与所述自回归解码器进行训练,得到所述训练好的第一语音合成网络。6.根据权利要求5所述的方法,其特征在于,所述基于自回归解码器与所述第二特征得到所述第二梅尔谱特征,包括:将所述第二特征输入所述自回归解码器得到所述第二梅尔谱特征。7.根据权利要求5所述的方法,其特征在于,所述基于自回归解码器与所述第二特征得到所述第二梅尔谱特征,包括:将所述第二特征进行卷积处理得到第三特征;将所述第三特征输入所述自回归解码器得到所述第二梅尔谱特征。8.根据权利要求4至7中任一项所述的方法,其特征在于,所述第一语音包括至少两类语种/方言的语音;所述方法还包括:获取第三文本以及与所述第三文本对应的第三语音,所述第三语音包括至少两类语种/方言中的一类语种/方言的语音;获取所述第三文本的第三音素序列;获取所述第三音素序列中各音素的第三时长信息;获取第二发音特征,所述第二发音特征用于描述所述第三语音的音色特征;获取所述第三语音的第三梅尔谱特征;以所述第三音素序列、所述第三时长信息以及所述第二发音特征作为第二语音合成网络的输入,以第四损失函数的值小于第四阈值为目标对所述第二语音合成网络进行训练得到所述第一语音合成网络与训练好的第二发音特征,所述第四损失函数用于表示所述第二语音合成网络输出的第四梅尔谱特征与所述第三梅尔谱特征之间的差异,所述第四梅尔谱特征是经过所述第三时长信息扩展后得到的。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述动态规划方法包括单调对齐搜索MAS方法或尼德曼
‑
翁施算法。10.一种数据处理方法,其特征在于,所述方法包括:获取待处理文本;基于所述待处理文本,得到所述待处理文本的音素序列;基于训练好的预测网络预测所述音素序列中各音素的时长信息,所述训练好的预测网络是基于第一文本以及第一时长信息训练得到,所述第一时长信息是经过动态规划方法修正所述第一文本与第一语音的对应关系得到,所述第一语音为所述第一文本的语音,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。