一种网络训练方法、数据处理方法及相关设备技术

技术编号:31979020 阅读:12 留言:0更新日期:2022-01-20 01:33
本申请实施例公开了一种网络训练方法、数据处理方法及相关设备,用于语音合成场景。本申请实施例方法包括:获取第一文本以及与第一文本对应的第一语音;获取第一文本的第一音素序列;基于注意力机制获取第一语音与第一音素序列的对应关系;基于动态规划方法修正对应关系得到第一音素序列中各音素的第一时长信息;基于第一音素序列与第一时长信息训练第一预测网络,得到训练好的第一预测网络,训练好的第一预测网络用于预测待处理文本中各音素的时长信息。由于动态规划可以通过单调性等方式推断出未对齐的音素,通过注意力机制与动态规划方法得到音素的时长信息,从而减少音素的遗漏或错位,提升应用于语音合成场景中合成语音的听感。的听感。的听感。

【技术实现步骤摘要】
一种网络训练方法、数据处理方法及相关设备


[0001]本申请实施例涉及语音合成领域,尤其涉及一种网络训练方法、数据处理方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到研究者的广泛关注。在端对端的语音合成(text to speech,TTS)场景下,为了保证合成语音的听感较好,TTS的模型在训练过程中需要校正音素与语音的对应关系,从而根据该对应关系修正模型输出的语音。常用校正音素与语音对应关系的方式是强制对齐等方式。
[0004]然而,上述强制对齐方式中,可能出现音素与语音的对齐效果较差的情况,即可能出现音素的遗漏。

技术实现思路

[0005]本申请实施例提供了一种网络训练方法、数据处理方法及相关设备,通过注意力机制与动态规划方法得到音素的时长信息,从而减少音素的遗漏,提升应用于语音合成场景中合成语音的听感。
[0006]本申请实施例第一方面提供了一种网络训练方法,该方法可以由数据处理设备(例如终端设备或服务器)执行,也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括:获取第一文本以及与第一文本对应的第一语音;获取第一文本的第一音素序列;基于注意力机制获取第一语音与第一音素序列的对应关系,对应关系用于表示第一音素序列中各音素在第一语音中的时长(或者理解为音素占第一语音的帧数,或者音素在第一语音中所占的时长);基于动态规划方法修正对应关系得到第一音素序列中各音素的第一时长信息;基于第一音素序列与第一时长信息训练第一预测网络,得到训练好的第一预测网络,训练好的第一预测网络用于预测待处理文本中各音素的时长信息。其中,该第一语音可以是指单语种/方言的语音,还可以是指包括至少两种语种/方言的语音,具体此处不做限定。
[0007]本实施例中,可以基于注意力机制与动态规划方法得到第一文本中各音素的第一时长信息,由于动态规划可以通过单调性等方式推断出未对齐的音素,从而可以减少音素
被错误估计(例如音素错位或音素被吞掉)的概率。进而训练的第一预测网络可以实现待处理文本中音素的时长预测。方便应用于语音合成等需要用到音素时长信息的场景。
[0008]可选地,在第一方面的一种可能的实现方式中,上述步骤:基于第一音素序列与第一时长信息训练第一预测网络,包括:以第一音素序列作为第一预测网络的输入,以第一损失函数的值小于第一阈值为目标对第一预测网络进行训练得到训练好的第一预测网络,第一损失函数用于表示第一预测网络输出的时长信息与第一时长信息之间的差异。
[0009]该种可能的实现方式中,通过不断减小第一预测网络输出的时长信息与第一时长信息之间的差异,可以提升预测网络预测音素时长信息的准确性。
[0010]可选地,在第一方面的一种可能的实现方式中,上述步骤:第一语音包括至少两类语种/方言/少数民族语言的语音;方法还包括:获取第二文本以及与第二文本对应的第二语音,第二语音包括至少两类语种/方言/少数民族语言中的一类语种/方言/少数民族语言的语音;获取第二文本的第二音素序列;获取第二音素序列中各音素的第二时长信息;以第二音素序列作为第二预测网络的输入,以第二损失函数的值小于第二阈值为目标对第二预测网络进行训练得到第一预测网络,第二损失函数用于表示第二预测网络输出的时长信息与第二时长信息之间的差异。
[0011]该种可能的实现方式中,由于对于一个发音者的第一语音的数据集的需求量较大,即对于发音者的语种/方言的要求较高。为了解决该问题,可以在使用少量的混合数据集(第一文本以及第一语音)对第一预测网络训练之前,先获取大量的单数据集(即一种语言/方言对应的数据集),并使用该单数据集先对第二预测网络进行训练得到第一预测网络,再通过混合数据集对第一预测网络做进一步的训练从而得到训练好的第一预测网络。
[0012]可选地,在第一方面的一种可能的实现方式中,上述步骤还包括:获取第一语音的第一梅尔谱特征;获取第一发音特征,第一发音特征用于描述第一语音的音色特征;以第一音素序列、第一时长信息以及第一发音特征作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对第一语音合成网络进行训练得到训练好的第一语音合成网络与训练好的第一发音特征,第三损失函数用于表示第一语音合成网络输出的第二梅尔谱特征与第一梅尔谱特征之间的差异,第二梅尔谱特征是经过第一时长信息扩展后得到的。
[0013]该种可能的实现方式中,可以通过第一音素序列、第一发音特征以及第一时长信息训练第一语音合成网络,使得训练好的第一语音合成网络可以实现跨语种或跨方言的语音合成。
[0014]可选地,在第一方面的一种可能的实现方式中,上述的第一语音合成网络包括编码器与自回归解码器;以第一音素序列与第一时长信息作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对第一语音合成网络进行训练得到训练好的第一语音合成网络,包括:基于编码器获取第一音素序列对应的第一特征;基于第一时长信息对第一特征进行扩展得到第二特征;基于自回归解码器与第二特征得到第二梅尔谱特征;以第三损失函数的值小于第三阈值为目标对编码器与自回归解码器进行训练,得到训练好的第一语音合成网络。
[0015]该种可能的实现方式中,由于动态规划可以通过单调性等方式推断出未对齐的音素,从而可以减少音素被错误估计(例如音素错位或音素被吞掉)的概率。一方面,使得可以通过第一时长信息修正第一特征,进而使得训练好的第一语音合成网络输出的语音减少音
素被错误估计(例如音素错位或音素被吞掉)带来的语音听感较差。另一方面,建立根据第一时长信息控制的自回归模型,实现语音合成的高自然度、强鲁棒性。
[0016]可选地,在第一方面的一种可能的实现方式中,上述步骤:基于自回归解码器与第二特征得到第二梅尔谱特征,包括:将第二特征输入自回归解码器得到第二梅尔谱特征。
[0017]该种可能的实现方式中,一方面,通过引入编码器与自回归解码器使得生成的梅尔谱特征更加准确。另一方面,建立根据第一时长信息控制的自回归模型,实现语音合成的高自然度、强鲁棒性。
[0018]可选地,在第一方面的一种可能的实现方式中,上述步骤:基于自回归解码器与第二特征得到第二梅尔谱特征,包括:将第二特征进行卷积处理得到第三特征;将第三特征输入自回归解码器得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络训练方法,其特征在于,所述方法包括:获取第一文本以及与所述第一文本对应的第一语音;基于所述第一文本,得到第一音素序列;基于注意力机制获取所述第一语音与所述第一音素序列的对应关系,所述对应关系用于表示所述第一音素序列中各音素在所述第一语音中的时长;基于动态规划方法修正所述对应关系得到所述第一音素序列中各音素的第一时长信息;基于所述第一音素序列与所述第一时长信息训练第一预测网络,得到训练好的第一预测网络,所述训练好的第一预测网络用于预测待处理文本中各音素的时长信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音素序列与所述第一时长信息训练第一预测网络,包括:以所述第一音素序列作为所述第一预测网络的输入,以第一损失函数的值小于第一阈值为目标对所述第一预测网络进行训练得到所述训练好的第一预测网络,所述第一损失函数用于表示所述第一预测网络输出的时长信息与所述第一时长信息之间的差异。3.根据权利要求1或2所述的方法,其特征在于,所述第一语音包括至少两类语种/方言的语音;所述方法还包括:获取第二文本以及与所述第二文本对应的第二语音,所述第二语音包括所述至少两类语种/方言中的一类语种/方言的语音;获取所述第二文本的第二音素序列;获取所述第二音素序列中各音素的第二时长信息;以所述第二音素序列作为第二预测网络的输入,以第二损失函数的值小于第二阈值为目标对所述第二预测网络进行训练得到所述第一预测网络,所述第二损失函数用于表示所述第二预测网络输出的时长信息与所述第二时长信息之间的差异。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:获取所述第一语音的第一梅尔谱特征;获取第一发音特征,所述第一发音特征用于描述所述第一语音的音色特征;以所述第一音素序列、所述第一时长信息以及所述第一发音特征作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对所述第一语音合成网络进行训练得到训练好的第一语音合成网络与训练好的第一发音特征,所述第三损失函数用于表示所述第一语音合成网络输出的第二梅尔谱特征与所述第一梅尔谱特征之间的差异,所述第二梅尔谱特征是经过所述第一时长信息扩展后得到的。5.根据权利要求4所述的方法,其特征在于,所述第一语音合成网络包括编码器与自回归解码器;所述以所述第一音素序列与所述第一时长信息作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对第一语音合成网络进行训练得到训练好的第一语音合成网络,包括:基于所述编码器获取所述第一音素序列对应的第一特征;基于所述第一时长信息对所述第一特征进行扩展得到第二特征;基于自回归解码器与所述第二特征得到所述第二梅尔谱特征;
以所述第三损失函数的值小于所述第三阈值为目标对所述编码器与所述自回归解码器进行训练,得到所述训练好的第一语音合成网络。6.根据权利要求5所述的方法,其特征在于,所述基于自回归解码器与所述第二特征得到所述第二梅尔谱特征,包括:将所述第二特征输入所述自回归解码器得到所述第二梅尔谱特征。7.根据权利要求5所述的方法,其特征在于,所述基于自回归解码器与所述第二特征得到所述第二梅尔谱特征,包括:将所述第二特征进行卷积处理得到第三特征;将所述第三特征输入所述自回归解码器得到所述第二梅尔谱特征。8.根据权利要求4至7中任一项所述的方法,其特征在于,所述第一语音包括至少两类语种/方言的语音;所述方法还包括:获取第三文本以及与所述第三文本对应的第三语音,所述第三语音包括至少两类语种/方言中的一类语种/方言的语音;获取所述第三文本的第三音素序列;获取所述第三音素序列中各音素的第三时长信息;获取第二发音特征,所述第二发音特征用于描述所述第三语音的音色特征;获取所述第三语音的第三梅尔谱特征;以所述第三音素序列、所述第三时长信息以及所述第二发音特征作为第二语音合成网络的输入,以第四损失函数的值小于第四阈值为目标对所述第二语音合成网络进行训练得到所述第一语音合成网络与训练好的第二发音特征,所述第四损失函数用于表示所述第二语音合成网络输出的第四梅尔谱特征与所述第三梅尔谱特征之间的差异,所述第四梅尔谱特征是经过所述第三时长信息扩展后得到的。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述动态规划方法包括单调对齐搜索MAS方法或尼德曼

翁施算法。10.一种数据处理方法,其特征在于,所述方法包括:获取待处理文本;基于所述待处理文本,得到所述待处理文本的音素序列;基于训练好的预测网络预测所述音素序列中各音素的时长信息,所述训练好的预测网络是基于第一文本以及第一时长信息训练得到,所述第一时长信息是经过动态规划方法修正所述第一文本与第一语音的对应关系得到,所述第一语音为所述第一文本的语音,所述...

【专利技术属性】
技术研发人员:郑念祖邓利群王雅圣
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1