【技术实现步骤摘要】
【国外来华专利技术】两级语音韵律迁移
[0001]本公开涉及两级语音韵律迁移。
技术介绍
[0002]语音合成系统使用文本到语音(TTS)模型来从文本输入生成语音。所生成/合成的语音应该准确地传达消息(可理解度),同时听起来像具有预期韵律(表现力)的人类语音(自然度)。虽然传统的级联和参数合成模型能够提供可理解的语音并且语音的神经建模方面的最近进步已显著地改进了合成语音的自然度,但是大多数现有的TTS模型在对各种各样的韵律风格进行建模时无效,从而使重要应用所使用的合成语音缺乏表现力。例如,对于诸如谈话助理和长篇阅读器的应用来说,期望通过归纳文本输入中没有传达的韵律特征,诸如语调、重音以及节律和风格,来产生逼真的语音。例如,简单的陈述能够用许多不同的方式讲出,这取决于该陈述是问题、问题的答案、在该陈述中是否存在不确定性,还是传达输入文本未指定的关于环境或情景的任何其他含义。
[0003]在一些场景中将从特定韵律域/垂直行业中的各种不同的讲话者,诸如新闻读者、体育解说员、教育讲师等,建模的韵律模型迁移到现有的目标话音可以是有用的。以这种方式 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法(500),包括:在数据处理硬件(122)处接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);由所述数据处理硬件(122)使用第一文本到语音TTS模型(212)来生成所述输入文本话语(320)的中间合成语音表示(202),所述中间合成语音表示(202)拥有所述预期韵律;以及由所述数据处理硬件(122)将所述中间合成语音表示(202)提供给第二TTS模型(222),所述第二TTS模型(222)包括:编码器部分(300),所述编码器部分(300)被配置成将所述中间合成语音表示(202)编码成指定所述预期韵律的话语嵌入(204);以及解码器部分(400),所述解码器部分(400)被配置成处理所述输入文本话语(320)和所述话语嵌入(204)以生成表达性语音(152)的输出音频信号(280),所述输出音频信号(280)具有由所述话语嵌入(204)指定的所述预期韵律和所述目标话音的讲话者特性。2.根据权利要求1所述的方法(500),进一步包括:由所述数据处理硬件(122)从所述中间合成语音表示(202)中对提供韵律特征的固定长度参考帧(211)的序列进行采样,所述韵律特征表示所述中间合成语音表示(202)所拥有的所述预期韵律,其中,将所述中间合成语音表示(202)提供给所述第二TTS模型(222)包括将从所述中间合成语音表示(202)中采样的所述固定长度参考帧(211)的序列提供给所述编码器部分(300),所述编码器部分(300)被配置成将所述固定长度参考帧(211)的序列编码成所述话语嵌入(204)。3.根据权利要求2所述的方法(500),其中,表示所述中间合成语音表示(202)所拥有的所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率频谱轮廓。4.根据权利要求2或3所述的方法(500),其中,所述编码器部分(300)被配置成通过对于所述中间合成语音表示(202)中的每个音节(330)执行以下操作将所述固定长度参考帧(211)的序列编码成所述话语嵌入(204):将与所述音节(330)中的每个音素(321)相关联的音素级语言特征(322)编码成基于音素特征的音节嵌入(332);将与所述音节(330)相关联的所述固定长度参考帧(211)编码成基于帧的音节嵌入(334),所述基于帧的音节嵌入(334)指示与对应音节(330)相关联的持续时间、音高和/或能量;以及将具有以下项的所述基于音素特征的音节嵌入和所述基于帧的音节嵌入(332、334)编码成所述音节(330)的对应韵律音节嵌入(335):与所述音节(330)相关联的音节级语言特征(336)、与所述中间合成语音表示(202)相关联的句子级语言特征(352)、以及与包括所述对应音节(330)的单词(340)相关联的单词级语言特征(342)。5.根据权利要求4所述的方法(500),其中,所述单词级语言特征(342)包括从词条嵌入的序列获得的词条嵌入,所述词条嵌入的序列是由来自转换器的双向编码器表示(BERT)模型从所述输入文本话语(320)生成的。6.根据权利要求2
‑
5中的任一项所述的方法(500),其中,所述解码器部分(400)被配置
成处理所述输入文本话语(320)和所述话语嵌入(204),以通过使用所述输入文本话语(320)将对应话语嵌入(204)解码成提供所述输入文本话语(320)的韵律表示(302)的固定长度预测帧(280)的序列来生成所述输出音频信号(280),所述韵律表示(302)表示由所述话语嵌入(204)指定的所述预期韵律。7.根据权利要求6所述的方法(500),其中,所述第二TTS模型(222)被训练为使得由所述解码器部分(400)解码的所述固定长度预测帧(280)的数目等于从所述中间合成语音表示(202)中采样的所述固定长度参考帧(211)的数目。8.根据权利要求1
‑
7中的任一项所述的方法(500),其中,所述话语嵌入(204)包括固定长度数值向量。9.根据权利要求1
‑
8中的任一项所述的方法(500),其中:所述中间合成语音表示(202)包括捕获所述预期韵律的音频波形或梅尔频率频谱序列(502);并且将所述中间合成语音表示(202)提供给所述第二TTS模型(222)包括将所述音频波形或所述梅尔频率频谱序列(502)提供给所述编码器部分(300),所述编码器部分(300)被配置成将所述音频波形或所述梅尔频率频谱序列(502)编码成所述话语嵌入(204)。10.根据权利要求1
‑
9中的任一项所述的方法(500),进一步包括:由所述数据处理硬件(122)获得表示所述目标话音的所述讲话者特性的讲话者嵌入(116);以及由所述数据处理硬件(122)将所述讲话者嵌入(116)提供给所述第二TTS模型(222)的所述解码器部分(400),所述解码器部分(400)被配置成处理所述输入文本话语(320)、所述话语嵌入(204)和所述讲话者嵌入(116)以生成表达性语音(152)的所述输出音频信号(280)。11.根据权利要求1
‑
10中的任一项所述的方法(500),其中,使用所述第一TTS模型(212)生成的所述中间合成语音表示(202)包括中间话音,所述中间话音缺乏所述目标话音的所述讲话者特性并且包括不期望的声学伪迹。12.根据权利要求1
‑
11中的任一项所述的方法(500),进一步包括:在所述数据处理硬件(122)处接收包括多个训练音频信号(104)和对应转录(106)的训练数据(10),每个训练音频信号(104)包括具有由与所述预期韵律相关联的韵律域/垂直行业中的对应讲话者讲出的所述预期韵律的人类语音的话语,每个转录(106)包括对应训练音频信号(104)的文本表示;以及对于所述训练数据(10)的每个对应转录(106):由所述数据处理硬件(122)训练所述第一TTS模型(212)以生成对应参考音频信号,所述对应参考音频信号包括捕获人类语音的对应话语的所述预期韵律的训练合成语音表示;由所述数据处理硬件(122)通过将对应训练合成语音表示编码成表示由所述训练合成语音表示捕获的所述预期韵律的对应话语嵌入(204)来训练所述第二TTS模型(222)的所述编码器部分(300);由所述数据处理硬件(122)使用所述训练数据(10)的对应转录(106)通过将由所述编码器部分(300)编码的所述对应话语嵌入(204)解码成具有所述预期韵律的表达性语音(152)的预测输出音频信号(280)来训练所述第二TTS模型(222)的所述解码器部分(400);
生成所述预测输出音频信号(280)与所述对应参考音频信号之间的梯度/损失;以及通过所述第二TTS模型(222)反向传播所述梯度/损失。13.根据权利要求1
‑
12中的任一项所述的方法(500),其中,所述第一TTS模型(212)和所述第二TTS模型(222)被分开地训练。14.根据权利要求1
‑
13中的任一项所述的方法(500),其中,所述第一TTS模型(212)包括第一神经网络架构,并且所述第二TTS模型(222)包括与所述第一神经网络架构不同的第二神经网络架构。15.根据权利要求1
‑
14中的任一项所述的方法(500),其中,所述第一TTS模型(212)和所述第二TTS模型(222)包括相同的神经网络架构。16.一种系统(100),包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。