训练语音合成以生成不同的语音声音制造技术

技术编号:34236218 阅读:49 留言:0更新日期:2022-07-24 08:15
一种训练文本到语音(TTS)模型(108)的方法(800)包括获得训练数据(150),该训练数据(150)包括:包括字符序列的参考输入文本(104)、表示字符序列的参考音频特征(402)序列和表示参考音频特征的不同语音声音的参考音素标签(502)序列。针对多个时间步中的每个时间步,该方法包括基于针对该时间步的参考输入文本的相应部分来生成对应预测音频特征(120),并且使用音素标签映射网络(510)来生成与预测音频特征相关联的对应预测音素标签(520)。该方法还包括将预测音素标签与参考音素标签对准以确定对应预测音素标签损失(622),以及基于对应预测音素标签损失来更新TTS模型。TTS模型。TTS模型。

【技术实现步骤摘要】
【国外来华专利技术】训练语音合成以生成不同的语音声音


[0001]本公开涉及训练语音合成以生成不同的语音声音。

技术介绍

[0002]神经网络是采用非线性单元的一层或多层以预测所接收的输入的输出的机器学习模型。例如,神经网络可以将输入文本转换成输出语音。除了输出层之外,一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层的输入,即,下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从所接收的输入生成输出。
[0003]训练语音合成系统(即,将输入文本转换成输出语音的神经网络)以生成自然的并且可理解的语音。这些系统通常被训练成使语音信号的假设表示(即网络的输出)与参考(即训练)语音信号之间的距离最小化。

技术实现思路

[0004]本公开的一个方面提供一种训练文本到语音(TTS)模型的方法。该方法包括在数据处理硬件处获得训练数据,该训练数据包括:包括特定语言的字符序列的参考输入文本,表示字符序列的参考音频特征序列,以及表示参考音频特征序列的不同语音的参考音素标签序列。针对多个时间步中的每个时间步,该方法包括由数据处理硬件基于针对时间步的参考输入文本的相应部分来生成对应预测音频特征,以及由数据处理硬件使用音素标签映射网络来生成与针对时间步的预测音频特征相关联的对应预测音素标签。该方法还包括通过数据处理硬件将针对时间步的预测音素标签与针对时间步的参考音素标签对准以确定对应预测音素标签损失,并且通过数据处理硬件基于针对多个时间步中的每个时间步所确定的对应预测音素标签损失来更新TTS模型。
>[0005]本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,该方法还包括,针对多个时间步中的每个时间步,由数据处理硬件基于针对时间步的对应预测音频特征和针对时间步的参考音频特征序列的参考音频特征来确定对应预测音频特征损失。更新TTS模型还可以基于针对多个时间步中的每个时间步所确定的对应预测音频特征损失。
[0006]在一些示例中,该方法还包括:由数据处理硬件使用语音识别模型来执行强制对准过程以将参考音频特征序列与参考音素标签序列进行时间对准。可选地,针对多个时间步中的每个时间步来生成对应预测音频特征可以包括:使用编码器神经网络来处理字符序列以生成字符序列的特征表示,以及使用注意力网络来处理特征表示以生成针对时间步的固定长度的上下文向量。生成对应预测音频特征还可以包括使用解码器神经网络来处理针对时间步的固定长度的上下文向量以生成针对时间步的对应预测音频特征。
[0007]在一些实施方式中,编码器神经网络包括卷积层和双向长短器记忆(LSTM)层,并且特征表示包括表示字符序列中特定字符周围的字符序列的局部结构的序列特征表示。在一些示例中,解码器神经网络包括自回归神经网络,该自回归神经网络包括卷积子网络和
输出层。针对多个时间步中的每个时间步所生成的对应预测音频特征还可以基于针对先前时间步的参考音频特征序列中的参考音频特征以及针对先前时间步的参考音频特征序列中的参考音素标签。
[0008]在一些实施方式中,针对多个时间步中的每个时间步,使用音素标签映射网络来生成对应预测音素标签包括:在音素标签映射网络处接收针对对应时间步所生成的预测音频特征作为特征输入,由音素标签映射网络来处理针对对应时间步所生成的接收到的预测音频特征以生成针对对应时间步的对应预测音素标签,以及由音素标签映射网络将针对对应时间步所生成的对应预测音素标签映射到针对对应时间步所生成的预测音频特征。
[0009]在一些示例中,参考音频特征包括参考梅尔频率谱图并且预测音频特征包括预测梅尔频谱图。参考音频特征序列可以对应于参考时域音频波形,多个时间步中的每个时间步可以对应于预测音频波形中的相应时间,并且针对多个时间步中的每个时间步所生成的对应预测音频特征可以包括在对应时间步处的预测音频波形的幅度值。
[0010]在一些实施方式中,TTS模型包括编码器神经网络、注意力网络和解码器神经网络。在其它实施方式中,TTS模型包括具有单帧同步神经网络的参数合成器模型。
[0011]本公开的另一个方面提供了一种用于训练文本到语音模型的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储当在数据处理硬件上执行时使数据处理硬件执行操作的指令。所述操作包括获得训练数据,该训练数据包括:包括特定语言的字符序列的参考输入文本,表示所述字符序列的参考音频特征序列,以及表示所述参考音频特征序列的不同语音声音的参考音素标签序列。针对多个时间步中的每个时间步,操作包括基于针对时间步的参考输入文本的相应部分来生成对应预测音频特征,并且使用音素标签映射网络来生成与针对时间步的预测音频特征相关联的对应预测音素标签。操作还包括将针对时间步的预测音素标签与针对时间步的参考音素标签对准以确定对应预测音素标签损失,并且基于针对多个时间步中的每个时间步所确定的对应预测音素标签损失来更新TTS模型。
[0012]该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,针对多个时间步中的每个时间步,操作还包括基于针对时间步的对应预测音频特征和针对时间步的参考音频特征序列的参考音频特征来确定对应预测音频特征损失。更新TTS模型还可以基于针对多个时间步中的每个时间步所确定的对应预测音频特征损失。
[0013]在一些示例中,操作还包括使用语音识别模型来执行强制对准过程以将参考音频特征序列与参考音素标签序列进行时间对准。可选地,针对多个时间步中的每个时间步,生成对应预测音频特征可以包括使用编码器神经网络来处理字符序列以生成字符序列的特征表示,以及使用注意力网络来处理特征表示以生成针对时间步的固定长度的上下文向量。生成对应预测音频特征还可以包括使用解码器神经网络来处理针对时间步的固定长度的上下文向量以生成针对时间步的对应预测音频特征。
[0014]在一些实施方式中,编码器神经网络包括卷积层和双向长短期记忆(LSTM)层,并且特征表示包括表示字符序列中特定字符周围的字符序列的局部结构的序列特征表示。在一些示例中,解码器神经网络包括自回归神经网络,该自回归神经网络包括卷积子网络和输出层。针对多个时间步中的每个时间步所生成的对应预测音频特征还可以基于针对先前时间步的参考音频特征序列中的参考音频特征以及针对先前时间步的参考音频特征序列
中的参考音素标签。
[0015]在一些实施方式中,针对多个时间步中的每个时间步,使用音素标签映射网络生成对应预测音素标签包括:在音素标签映射网络处接收针对对应时间步所生成的预测音频特征作为特征输入,由音素标签映射网络处理针对对应时间步所生成的接收到的预测音频特征以生成针对对应时间步的对应预测音素标签,以及由音素标签映射网络将针对对应时间步所生成的对应预测音素标签映射到针对对应时间步所生成的预测音频特征。
[0016]在一些示例中,参考音频特征包括参考梅尔频率谱图,并且预测音频特征包括预测梅尔频谱图。参考音频特征序列可以对应于参考时域音频波形,多个时间步中的每个时间步可以对本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练文本到语音(108)TTS模型(108)的方法(800),所述方法(800)包括:在数据处理硬件(18)处获得训练数据(150),所述训练数据(150)包括:参考输入文本(104),所述参考输入文本(104)包括特定语言的字符序列;表示所述字符序列的参考音频特征(402)序列;以及表示用于所述参考音频特征(402)序列的不同语音声音的参考音素标签(502)序列;针对多个时间步中的每个时间步:由所述数据处理硬件(18)基于针对所述时间步的所述参考输入文本(104)的相应部分来生成对应预测音频特征(120);由所述数据处理硬件(18)使用音素标签(520)映射网络来生成与针对所述时间步的所述预测音频特征(120)相关联的对应预测音素标签(520);以及由所述数据处理硬件(18)将针对所述时间步的所述预测音素标签(520)与针对所述时间步的所述参考音素标签(502)对准以确定对应预测音素标签损失(622);以及由所述数据处理硬件(18)基于针对所述多个时间步中的每个时间步所确定的所述对应预测音素标签损失(622)来更新所述TTS模型(108)。2.根据权利要求1所述的方法(800),还包括:针对所述多个时间步中的每个时间步,由所述数据处理硬件(18)基于针对所述时间步的所述对应预测音频特征(120)和针对所述时间步的所述参考音频特征(402)序列中的所述参考音频特征(402)来确定对应预测音频特征损失(612),其中,更新所述TTS模型(108)还基于针对所述多个时间步中的每个时间步所确定的对应预测音频特征损失(612)。3.根据权利要求1或2所述的方法(800),还包括由所述数据处理硬件(18)使用语音识别模型来执行强制对准过程以将所述参考音频特征(402)序列与所述参考音素标签(502)序列进行时间对准。4.根据权利要求1至3中的任一项所述的方法(800),其中,针对所述多个时间步中的每个时间步来生成所述对应预测音频特征(120)包括:使用编码器神经网络(110)来处理所述字符序列以生成所述字符序列的特征表示;使用注意力网络(113)来处理所述特征表示以生成针对所述时间步的固定长度的上下文向量(115);以及使用解码器神经网络(114)来处理针对所述时间步的所述固定长度的上下文向量(115)以生成针对所述时间步的所述对应预测音频特征(120)。5.根据权利要求4所述的方法(800),其中:所述编码器神经网络(110)包括卷积层(111)和双向长短期记忆(LSTM)层(112);以及所述特征表示包括表示所述字符序列中的特定字符周围的所述字符序列的局部结构的序列特征表示。6.根据权利要求4或5所述的方法(800),其中,所述解码器神经网络(114)包括自回归神经网络(116),所述自回归神经网络(116)包括卷积子网络(310)和输出层(320)。7.根据权利要求1至6中的任一项所述的方法(800),其中,针对所述多个时间步中的每个时间步生成的所述对应预测音频特征(120)还基于针对先前时间步的所述参考音频特征(402)序列中的所述参考音频特征(402)以及针对所述先前时间步的所述参考音频特征
(402)序列中的所述参考音素标签(502)。8.根据权利要求1至7中的任一项所述的方法(800),其中,针对所述多个时间步中的每个时间步,使用所述音素标签映射网络(510)来生成所述对应预测音素标签(520)包括:在所述音素标签映射网络(510)处接收针对所述对应时间步生成的所述预测音频特征(120)作为特征输入;由所述音素标签映射网络(510)处理针对所述对应时间步生成的接收到的预测音频特征(120)以生成针对所述对应时间步的所述对应预测音素标签(520);以及由所述音素标签映射网络(510)将针对所述对应时间步生成的所述对应预测音素标签(520)映射到针对所述对应时间步生成的所述预测音频特征(120)。9.根据权利要求1至8中的任一项所述的方法(800),其中,所述参考音频特征(402)包括参考梅尔频谱图(118),并且所述预测音频特征(120)包括预测梅尔频谱图(118)。10.根据权利要求1至9中的任一项所述的方法(800),其中:所述参考音频特征(402)序列对应于参考时域音频波形;所述多个时间步中的每个时间步对应于预测音频波形(119)中的相应时间;以及针对所述多个时间步中的每个时间步生成的所述对应预测音频特征(120)包括在所述对应时间步处的所述预测音频波形(119)的幅度值。11.根据权利要求1至10中的任一项所述的方法(800),其中,所述TTS模型(108)包括编码器神经网络(110)、注意力网络(113)和解码器神经网络(114)。12.根据权利要求1至11中的任一项所述的方法(800),其中,所述TTS模型(108)包括具有单帧同步神经网络的参数合成器模型。13.一种用于训练文本到语音模型的系统(100),所述...

【专利技术属性】
技术研发人员:安德鲁
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1