使用BERT模型的语音合成韵律制造技术

技术编号:35984343 阅读:44 留言:0更新日期:2022-12-17 22:57
一种方法(500)包括:接收具有单词(240)的文本话语(320),每个单词具有音节(230),每个音节具有音素(220);并且使用BERT模型(270)来生成单词片嵌入(242)的序列以及为文本话语选择话语嵌入(206),该话语嵌入表示预期韵律。每个单词片嵌入与一个单词相关联。对于每个音节,使用所选择的话语嵌入和合并有BERT模型的韵律模型(300),该方法还包括:基于与包含音节的单词相关联的单词片嵌入来生成音节的对应韵律音节嵌入(235),并且通过用音节的对应的韵律音节嵌入来编码音节的每个音素的语言特征(222)而预测音节的持续时间。征(222)而预测音节的持续时间。征(222)而预测音节的持续时间。

【技术实现步骤摘要】
【国外来华专利技术】使用BERT模型的语音合成韵律


[0001]本公开涉及使用来自变换器的双向编码器表示(BERT)模型的语音合成韵律。

技术介绍

[0002]语音合成系统使用文本到语音(TTS)模型从文本输入生成语音。生成/合成的语音应该准确地传达消息(可理解性),同时听起来像具有预期的韵律(表现力)的人类语音(自然性)。虽然传统的拼接和参数合成模型能够提供可理解的语音,并且语音的神经建模的最新进展显著地提高了合成语音的自然度,但大多数现有的TTS模型在对韵律建模方面无效,从而导致重要应用使用的合成语音缺乏表现力。例如,期望诸如会话助手和长篇阅读器的应用通过输入在文本输入中未传达的韵律特征(诸如语调、重音以及节奏和风格)来生成逼真的语音。例如,取决于陈述是否是一个问题、对于一个问题的答案、在该陈述中是否存在不确定性、或者传达输入文本未指定的关于环境或上下文的任何其他含义,能够用许多不同的方式说出该简单的陈述。
[0003]来自变换器的双向编码器表示模型(BERT)提供了被证明以比传统解析和标记技术更稳健的方式体现句法信息的表示。此外,BERT模型能够提供语法之外的有用线索,例如纯文本域中的单词语义和世界知识。

技术实现思路

[0004]本公开的一个方面提供了一种用于预测文本话语的韵律表示的方法。该方法包括:在数据处理硬件处接收具有一个或多个单词的文本话语,每个单词具有至少一个音节,每个音节具有至少一个音素;由数据处理硬件使用来自变换器的双向编码器表示(BERT)模型生成单词片嵌入的序列,每个单词片嵌入与文本话语的一个或多个单词中的一个相关联;并且,通过数据处理硬件为文本话语来选择话语嵌入,话语嵌入表示预期韵律。对于每个音节,使用所选择的话语嵌入和合并有BERT模型的韵律模型,所述方法也包括:由数据处理硬件基于与包括音节的单词相关联的单词片嵌入为音节来生成对应的韵律音节嵌入;以及,由数据处理硬件通过用音节的对应的韵律音节嵌入对所述音节的每个音素的语言特征进行编码来预测音节的持续时间。所述方法还包括:由数据处理硬件使用韵律模型基于音节的预测持续时间来为文本话语生成韵律表示。
[0005]本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,所述方法还包括,对于每个音节,使用所选择的话语嵌入和韵律模型:通过数据处理硬件基于音节的所述预测持续时间来预测音节的音调轮廓;以及,由数据处理硬件基于音节的预测持续时间来生成多个固定长度预测音调帧,每个固定长度预测音调帧表示音节的预测的音调轮廓的一部分。在这些实施方式中,为话语生成韵律表示是基于为每个音节生成的多个固定长度预测音调帧。
[0006]在另外的实施方式中,所述方法还包括,对于每个音节,使用所选择的话语嵌入和韵律模型:通过数据处理硬件基于音素的预测持续时间来预测在音节中每个音素的能量轮
廓;以及,对于与音节相关联的每个音素,由数据处理硬件基于对应音素的预测持续时间来生成多个固定长度预测能量帧。每个固定长度能量帧表示对应音素的预测的能量轮廓。在这些实施方式中,为话语生成韵律表示进一步基于为与每个音节相关联的每个音素生成的多个固定长度预测能量帧。
[0007]在一些示例中,层级语言结构表示文本话语,层级语言结构包括:第一级,其包括文本话语的每个音节;第二级,其包括文本话语的每个音素;第三级,其包括用于文本话语的每个音节的每个固定长度预测音调帧;以及,第四级,其平行于所述第三级并且包括文本话语的每个音素的每个固定长度预测能量帧。固定长度预测能量帧和固定长度预测音调帧的长度可以相同。为接收到的文本话语的每个音素生成的固定长度预测能量帧的总数可以等于为接收到的文本话语的每个音节生成的固定长度预测音调帧的总数。
[0008]层级语言结构的第一级可以包括表示文本话语的每个音节的长短期记忆(LSTM)处理单体;层级语言结构的第二级包括表示文本话语的每个音素的LSTM处理单体,第二级的LSTM处理单体相对于第一级的LSTM处理单体计时,并且快于第一级的LSTM处理单体;层级语言结构的第三级可以包括表示每个固定长度预测音调帧的LSTM处理单体,第三级的LSTM处理单体相对于第二级的LSTM处理单体计时并且快于第二级的LSTM处理单体;以及,层级语言结构的第四级包括表示每个固定长度预测能量帧的LSTM处理单体,第四级的LSTM处理单体以与第三级的LSTM处理单体相同的速度计时,并且相对于第二级的LSTM处理单体计时并且快于第二级的LSTM处理单体。
[0009]在一些实施方式中,所述方法还包括:获得BERT模型;接收包括多个参考音频信号和对应转录的训练数据;以及,通过将每个参考音频信号编码成对应的固定长度话语嵌入使用合并有BERT模型的深度神经网络来训练韵律模型,所述对应的固定长度话语嵌入(204)表示参考音频信号的对应韵律。在这里,BERT模型在纯文本语言建模任务上训练,每个参考音频信号包括人类语音的口头话语并具有对应韵律,并且每个转录包括对应的参考音频信号的文本表示。在这些实施方式中,将每个参考音频信号编码成对应的固定长度话语嵌入包括:使用BERT模型从对应的参考音频信号的转录中生成单词片嵌入的序列;从对应的参考音频信号中采样固定长度参考帧的序列,所述固定长度参考帧的序列提供表示参考音频信号的对应韵律的持续时间、音调轮廓和/或能量轮廓;以及,对于在参考音频信号中的每个音节:将与在音节中的每个音素相关联的音子级语言特征编码为基于因子特征的音节嵌入;将与音节相关联的固定长度参考帧编码成基于帧的音节嵌入,基于帧的音节嵌入指示与对应音节相关联的持续时间、音调和/或能量;以及,将以下部分编码为音节的对应的韵律音节嵌入:具有与音节相关联的音节级语言特征的基于音子特征(phone feature)和基于帧的音节嵌入、与参考音频信号相关联的句子级语言特征、以及来自与包括对应音节的单词相关联的BERT模型生成的单词片嵌入的序列的单词片嵌入。
[0010]附加地,对于每个参考音频信号,训练韵律模型还包括:从对应的参考音频信号中采样固定长度参考帧的序列,所述固定长度参考帧的序列提供表示参考音频信号的对应韵律的持续时间、音调轮廓和/或能量轮廓;使用对应的参考音频信号的转录,将对应的固定长度话语嵌入解码为表示转录的韵律表示的固定长度预测帧的序列;在固定长度预测帧的序列和采样的固定长度参考帧的序列之间生成梯度/损失;以及,通过韵律模型反向传播所述梯度/损失。通过韵律模型反向传播梯度/损失包括:通过基于通过韵律模型反向传播的
梯度/损失更新预训练的BERT模型的参数来微调预训练的BERT模型。话语嵌入可以包括固定长度的数值向量。
[0011]本公开的另一方面提供了一种用于预测文本话语的韵律表示的系统。所述系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,当指令在数据处理硬件上执行时使数据处理硬件执行操作。操作包括:接收具有至少一个单词的文本话语,以及为文本话语选择话语嵌入。在文本话语中的每个单词具有至少一个音节,并且每个音节具有至少一个音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(500),包括:在数据处理硬件(122)处接收具有一个或多个单词(240)的文本话语(320),每个单词(240)具有至少一个音节(230),每个音节(230)具有至少一个音素(220);由所述数据处理硬件(122)使用来自变换器的双向编码器表示BERT模型(270)来生成单词片嵌入(242)的序列,每个单词片嵌入(242)与所述文本话语(320)的所述一个或多个单词(240)中的一个相关联;由所述数据处理硬件(122)为所述文本话语(320)选择话语嵌入(204),所述话语嵌入(204)表示预期韵律;对于每个音节(230),使用所选择的话语嵌入(204)和合并有所述BERT模型(270)的韵律模型(300):由所述数据处理硬件(122)基于与包括所述音节(230)的所述单词(240)相关联的所述单词片嵌入(242),为所述音节(230)生成对应韵律音节嵌入(235);以及由所述数据处理硬件(122)通过用所述音节(230)的所述对应韵律音节嵌入(235)对所述音节(230)的每个音素(220)的语言特征(222)进行编码来预测所述音节(230)的持续时间;以及由所述数据处理硬件(122)基于所述音节(230)的预测持续时间,使用所述韵律模型(300)为所述文本话语(320)生成韵律表示(302)。2.根据权利要求1所述的方法(500),还包括,对于每个音节(230),使用所选择的话语嵌入(204)和所述韵律模型(300):由所述数据处理硬件(122)基于所述音节(230)的预测持续时间来预测所述音节(230)的音高轮廓;以及由所述数据处理硬件(122)基于所述音节(230)的预测持续时间来生成多个固定长度预测音高帧(280),每个固定长度预测音高帧表示所述音节(230)的预测音高轮廓的一部分,其中,为所述话语生成所述韵律表示(302)是基于为每个音节(230)所生成的所述多个固定长度预测音高帧(280)。3.根据权利要求2所述的方法(500),还包括,对于每个音节(230),使用所选择的话语嵌入(204)和所述韵律模型(300):由所述数据处理硬件(122)基于所述音素(220)的预测持续时间来预测在所述音节(230)中每个音素(220)的能量轮廓;以及对于与所述音节(230)相关联的每个音素(220),由所述数据处理硬件(122)基于对应音素(220)的预测持续时间来生成多个固定长度预测能量帧(280),每个固定长度能量帧表示对应音素(220)的预测能量轮廓,其中,为所述话语生成所述韵律表示(302)进一步基于为与每个音节(230)相关联的每个音素(220)所生成的所述多个固定长度预测能量帧(280)。4.根据权利要求3所述的方法(500),其中,层级语言结构(200)表示所述文本话语(320),所述层级语言结构(200)包括:第一级,所述第一级包括所述文本话语(320)的每个音节(230);第二级,所述第二级包括所述文本话语(320)的每个音素(220);
第三级,所述第三级包括所述文本话语(320)的每个音节(230)的每个固定长度预测音高帧;以及第四级,所述第四级平行于所述第三级并且包括所述文本话语(320)的每个音素(220)的每个固定长度预测能量帧。5.根据权利要求4所述的方法(500),其中:所述层级语言结构(200)的所述第一级包括表示所述文本话语(320)的每个音节(230)的长短期记忆LSTM处理单体;所述层级语言结构(200)的所述第二级包括表示所述文本话语(320)的每个音素(220)的LSTM处理单体,所述第二级的所述LSTM处理单体相对于所述第一级的所述LSTM处理单体进行计时并且快于所述第一级的所述LSTM处理单体;所述层级语言结构(200)的所述第三级包括表示每个固定长度预测音高帧的LSTM处理单体,所述第三级的所述LSTM处理单体相对于所述第二级的所述LSTM处理单体进行计时并且快于所述第二级的所述LSTM处理单体;以及所述层级语言结构(200)的所述第四级包括表示每个固定长度预测能量帧的LSTM处理单体,所述第四级的所述LSTM处理单体以与所述第三级的所述LSTM处理单体相同的速度进行计时,并且相对于所述第二级的所述LSTM处理单体进行计时并且快于所述第二级的所述LSTM处理单体。6.根据权利要求3

5中任一项所述的方法(500),其中,所述固定长度预测能量帧(280)和所述固定长度预测音高帧(280)的长度相同。7.根据权利要求3

6中任一项所述的方法(500),其中,为接收到的文本话语(320)的每个音素(220)所生成的固定长度预测能量帧(280)的总数等于为所述接收到的文本话语(320)的每个音节(230)所生成的所述固定长度预测音高帧(280)的总数。8.根据权利要求1

7中任一项所述的方法(500),还包括:由所述数据处理硬件(122)获得所述BERT模型(270),所述BERT模型(270)在纯文本语言建模任务上被预训练;在所述数据处理硬件(122)处接收包括多个参考音频信号(202)和对应转录(206)的训练数据,每个参考音频信号(202)包括人类语音的口头话语并且具有对应韵律,每个转录(206)包括对应参考音频信号(202)的文本表示;以及由所述数据处理硬件(122)通过将每个参考音频信号(202)编码成表示所述参考音频信号(202)的对应韵律的对应固定长度话语嵌入(204),使用合并有所述BERT模型(270)的深度神经网络(200)来训练所述韵律模型(300)。9.根据权利要求8所述的方法(500),其中,将每个参考音频信号(202)编码成对应固定长度话语嵌入(204)包括:使用所述BERT模型(270),从对应参考音频信号(202)的所述转录(206)中生成单词片嵌入(242)的序列;从对应参考音频信号(202)中采样固定长度参考帧(210)的序列,所述固定长度参考帧(210)的序列提供表示所述参考音频信号(202)的对应韵律的持续时间、音高轮廓和/或能量轮廓;以及对于在所述参考音频信号(202)中的每个音节(230):
将与在所述音节(230)中的每个音素(220)相关联的音子级语言特征(222)编码为基于音子特征的音节嵌入(234);将与所述音节(230)相关联的所述固定长度参考帧(210)编码成基于帧的音节嵌入(232),所述基于帧的音节嵌入(232)指示与对应音节(230)相关联的持续时间、音高和/或能量;以及将以下部分编码为所述音节(230)的对应韵律音节嵌入(235):具有与所述音节(230)相关联的音节级语言特征(236)的所述基于音子特征的音节嵌入和基于帧的音节嵌入(232、234)、与所述参考音频信号(202)相关联的句子级语言特征(252)、以及来自与包括对应音节(230)的单词(240)相关联的所述BERT模型(270)所生成的所述单词片嵌入(242)的序列中的单词片嵌入(242)。10.根据权利要求8或9所述的方法(500),其中,训练所述韵律模型(300)还包括,对于每个参考音频信号(202):从对应参考音频信号(202)中采样固定长度参考帧(210)的序列,所述固定长度参考帧(210)的序列提供表示所述参考音频信号(202)的对应韵律的持续时间、音高轮廓和/或能量轮廓;使用对应参考音频信号(202)的所述转录(206),将对应固定长度话语嵌入(204)解码为表示所述转录(206)的韵律表示(302)的固定长度预测帧(280)的序列;在所述固定长度预测帧(280)的序列和所采样的固定长度参考帧(210)的序列之间生成梯度/损失(420);以及通过所述韵律模型(300)来反向传播所述梯度/损失(420)。11.根据权利要求10所述的方法(500),其中,通过所述韵律模型(300)来反向传播所述梯度/损失(420)包括:通过基于通过所述韵律模型(300)反向传播的所述梯度/损失(420)更新预训练的BERT模型(270)的参数,来微调预训练的BERT模型(270)。12.根据权利要求1

11中任一项所述的方法(500),其中,所述话语嵌入(204)包括固定...

【专利技术属性】
技术研发人员:汤姆
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1