【技术实现步骤摘要】
【国外来华专利技术】用于文本到语音的自训练WaveNet
[0001]本公开涉及用于文本到语音的自训练WaveNet。
技术介绍
[0002]语音合成系统使用文本到语音(TTS)模型从文本输入生成语音。所生成/合成的语音应该准确地传达消息(可理解性),同时听起来像具有预期的韵律(表现力)的人类语音(自然度)。虽然传统的串联和参数合成模型能够提供可理解的语音,但语音的神经建模的最新进展已经显著地提高合成语音的自然度和保真度。然而,即使这些进步,这些神经网络模型的准确性往往取决于可用于教导神经网络模型如何合成语音的训练示例的语料库。因此,当存在有限数量的训练示例时,神经网络模型缺乏语音合成系统的用户期望或甚至要求的语音合成精度。随着语音合成系统(例如,个人助理)在日常人机交互中变得更加集成,这可能尤其真实。
技术实现思路
[0003]本公开的一个方面提供一种自训练WaveNet的方法。该方法包括在数据处理硬件处接收多个记录语音样本,并且由数据处理硬件使用多个记录语音样本训练第一自回归神经网络。训练后的第一自回归神经网络被配置成输出合 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法(300),包括:在数据处理硬件(134)处接收多个记录语音样本(242);由所述数据处理硬件(134)使用所述多个记录语音样本(242)训练第一自回归神经网络(210),训练后的第一自回归神经网络(210)被配置成输出(212)合成语音作为文本输入(152)的可听表示;由所述数据处理硬件(134)使用所述训练后的第一自回归神经网络(210)生成多个合成语音样本(252);由所述数据处理硬件(134)使用来自所述训练后的第一自回归神经网络(210)的所述多个合成语音样本(252)训练第二自回归神经网络(220);以及由所述数据处理硬件(134)将训练后的第二自回归神经网络(220)提取为前馈神经网络(230)。2.根据权利要求1所述的方法(300),其中,所述第二自回归神经网络(220)包括以下各项中的一个:与所述第一自回归神经网络(210)不同的自回归神经网络;或与所述第一自回归神经网络相同的自回归神经网络,使得使用所述多个合成语音样本(252)训练所述第二自回归神经网络(220)包括使用所述多个合成语音样本(252)重新训练所述第一自回归神经网络(210)。3.根据权利要求1或2所述的方法(300),其中,所述多个记录语音样本(242)包括相应数目的记录语音样本(242)并且所述多个合成语音样本(252)包括相应数目的合成语音样本(252),所述记录语音样本(242)的相应数目小于所述合成语音样本(252)的相应数目。4.根据权利要求3所述的方法(300),其中,所述合成语音样本(252)的相应数目比所述记录语音样本(242)的相应数目大至少一倍。5.根据权利要求1至4中的任一项所述的方法(300),其中,将所述训练后的第二自回归神经网络(220)提取为所述前馈神经网络(230)包括通过基于所述前馈神经网络(230)与所述第二自回归神经网络(220)之间的Kullback
‑
Leibler KL散度来优化损失函数,基于来自所述训练后的第二自回归神经网络(220)的概率分布训练所述前馈神经网络(230)。6.根据权利要求5所述的方法(300),其中,所述损失函数包括所述前馈神经网络(230)与所述第二自回归神经网络(220)之间的所述KL散度、均方误差、音素分类误差和对比损失的加权和。7.根据权利要求1至6中的任一项所述的方法(300),其中,所述前馈神经网络(230)被配置成在不了解一个或多个先前合成语音输出的情况下输出(212)合成语音。8.根据权利要求1至7中的任一项所述的方法(300),其中,所述第二自回归神经网络(220)和所述前馈神经网络(230)中的每一个包括多个扩张残余块,每个扩张残余块包括扩张卷积层。9.根据权利要求1至8中的任一项所述的方法(300),其中,所述前馈神经网络(230)包括多个逆自回归流IAF。10.根据权利要求9所述的方法(300),其中,所述多个IAF流中的每个IAF流包括一个或多个扩张残余块,每个扩张残余块包括扩张卷积层。11.一种系统(130),包括:
数据处理硬件(134);以及存储器硬件(136),所述存储器硬件(136)与所述数据处理硬件(134)通信,所述存储器硬件(136)存储指令,所述指令在所述数据处理硬件(134)上执行时使所述数据处理硬件(134)执行操作,所述操作包括:接收多个记录语音样本(242);使用所述多个记录语音样本(242)训练...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。