多说话者神经文本到语音合成制造技术

技术编号:26388486 阅读:17 留言:0更新日期:2020-11-19 23:58
提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。

【技术实现步骤摘要】
【国外来华专利技术】多说话者神经文本到语音合成
技术介绍
文本到语音(TTS)合成旨在基于文本输入来生成相应的语音波形。TTS合成广泛应用于例如故事中的角色扮演、语音到语音翻译、对特定用户的语音定制等。神经TTS系统被越来越多地用于实施TTS合成,并且正在成为人工智能(AI)领域近些年的研究热点。神经TTS系统可以基于文本输入来预测声学特征,并进而基于所预测的声学特征来生成语音波形。与需要良好设计的前端语言特征的传统TTS技术不同,神经TTS系统是采用端到端结构来建立模型的,并且可以直接基于文本-语音数据对来进行训练。神经TTS系统可以联合地优化语音的发音、韵律等,这将导致比传统TTS技术更自然的合成语音。
技术实现思路
提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。本公开的实施例提出了用于通过多说话者神经TTS合成来生成语音的方法和装置。可以接收文本输入。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。附图说明以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。图1示出了示例性传统神经TTS系统。图2示出了根据实施例的多说话者神经TTS系统的示例性架构。图3示出了根据实施例的说话者模型的示例性实施方式。图4示出了根据实施例的说话者编码器的示例性实施方式。图5示出了根据实施例的多说话者神经TTS系统的示例性实施方式。图6示出了根据实施例的多说话者神经TTS系统的示例性实施方式。图7示出了根据实施例的声学特征预测器的示例性实施方式。图8示出了根据实施例的神经声码器的示例性实施方式。图9示出了根据实施例的用于训练多说话者神经TTS系统的示例性过程。图10示出了根据实施例的用于更新多说话者神经TTS系统的示例性过程。图11示出了根据实施例的用于更新多说话者神经TTS系统的示例性过程。图12示出了根据实施例的用于生成语音波形的示例性处理流程。图13示出了根据实施例的多说话者神经TTS系统的示例性架构。图14示出了根据实施例的用于通过多说话者神经TTS合成来生成语音的示例性方法的流程图。图15示出了根据实施例的用于通过多说话者神经TTS合成来生成语音的示例性装置。图16示出了根据实施例的用于通过多说话者神经TTS合成来生成语音的示例性装置。具体实施方式现在将参考多种示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。尽管神经TTS系统可以生成具有高保真度的自然语音,但由于其端到端模型性质,它需要大量的文本-语音训练数据对。通常,大约10个小时以上的语音的训练语料库仍然不足以训练良好的端到端神经TTS系统。在本文中,“语料库”可以指语音集合,其中每个语音附有相应的文本,因此语料库可以提供多个文本-语音数据对。神经TTS系统面临的挑战是其泛化能力。在合成域外文本时经常发生自然度的恶化,特别是对于具有相当复杂上下文的长文本。在本文中,“域外”文本是指训练语料库中不涉及或者训练语料库中不涉及其相关文本输入的文本输入。来自神经TTS系统中的生成模型架构的限制可能导致各种域外错误,例如错误的发音、奇怪的韵律,重复或跳过词语/音素等。尽管添加更多的训练数据是一种强力解决方案,但是通过使用始终提供有限的文本-语音数据对的单个说话者语料库不能满足如此繁重的数据要求。此外,为了构建需要用于目标说话者的足够的语音数据的用于语音定制的神经TTS系统,还会提升非常高的成本阻碍。为了减轻神经TTS系统对数据大小的依赖性,可以通过将多个说话者的语料库组合成多说话者语料库集来增强训练数据。多说话者语料库集可以用于训练多说话者神经TTS系统。多说话者神经TTS系统可以生成比单说话者TTS系统更好的语音,并且可以用于使用有限大小的语料库来创建定制语音。然而,由于这种多说话者神经TTS系统的传统模型架构的局限性,没有很好地对多说话者语料库集中的丰富内容和说话者信息进行建模,并且所生成的语音仍然具有不自然和模糊的问题。此外,对于仅具有小语料库的目标说话者,说话者相似度也低。这种系统的整体性能仍远未达到实际应用要求。本公开的实施例提出了用于构建具有良好设计的多说话者语料库集的多说话者神经TTS系统的新方法。在一些方面,可以考虑到内容覆盖、说话者多样性、风格多样性等来准备高质量多说话者语料库集。例如,语料库集可以在各种知识域中具有宽泛的内容覆盖,因此多说话者神经TTS系统可以利用来自不同域中的不同说话者的内容,并且在泛化方面表现更好。例如,语料库集中的说话者可以在年龄、性别、口音等方面具有均衡分布,这使得更易于为仅具有小语料库的目标说话者创建语音。这可以有助于通过多说话者神经TTS系统来创建高保真定制语音。如上所述的语料库集将有助于多说话者神经TTS系统为域外文本输入,尤其为对于具有复杂上下文的长语句生成接近人的语音,从而丰富优质语音。在一些方面,本公开的实施例提出了用于多说话者神经TTS系统的新模型架构,以便更好地利用多说话者语料库集并提高语音泛化能力。可以充分利用语料库集中的说话者的潜在空间信息来构建多说话者神经TTS系统。多说话者神经TTS系统可以进一步被更新,例如通过语料库集中的训练数据对的子集来重新训练,利用目标说话者的语料库来适应于目标说话者等。例如,在通过语料库集训练了多说话者神经TTS系统之后,可以通过语料库集中的至少一个说话者的语料库进一步重新训练或改进多说话者神经TTS系统。例如,当要为目标说话者生成语音时,例如模拟目标说话者的声音说话,多说话者神经TTS系统可以经由通过目标说话者的语料库进行更新或重新训练而适应于目标说话者。因此,多说话者神经TTS系统可以生成具有高度说话者相似性的高质量语音。图1示出了示例性传统神经TTS系统100。神经TTS系统100可以被配置用于接收文本输入102并生成与文本输入102相对应的语音波形106。文本输入102可以是词语、短语、语句等。应当理解,尽管图1中示出了文本输入102被提供给神经TTS系统100,但文本输入102也可以首先通过各种现有技术,例如字母到声音(LTS)等,被拆分成元素序列,例如音素序列、字素序列、字符序列等,然后,该序列可以作为输入被提供给神本文档来自技高网...

【技术保护点】
1.一种用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法,包括:/n接收文本输入;/n通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息;/n通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及/n通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法,包括:
接收文本输入;
通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息;
通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及
通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。


2.根据权利要求1所述的方法,其中,所述至少一个说话者模型包括单个说话者模型。


3.根据权利要求1所述的方法,其中,所述至少一个说话者模型包括第一说话者模型和第二说话者模型,并且所述提供包括:
通过所述第一说话者模型来提供第一说话者潜在空间信息;以及
通过所述第二说话者模型来提供第二说话者潜在空间信息。


4.根据权利要求3所述的方法,其中,
所述预测包括:基于所述文本输入和所述第一说话者潜在空间信息来预测所述至少一个声学特征,并且
所述生成包括:基于所述至少一个声学特征和所述第二说话者潜在空间信息来生成所述语音波形。


5.根据权利要求1所述的方法,其中,所述提供包括:
基于所述目标说话者的语料库来生成所述目标说话者的说话者嵌入向量;或者
从说话者嵌入向量数据库中选择所述目标说话者的说话者嵌入向量。


6.根据权利要求1所述的方法,还包括:
通过第一神经网络,基于所述至少一个声学特征来生成至少一个经变换的声学特征;以及
通过第二神经网络,基于所述说话者潜在空间信息来生成经变换的说话者潜在空间信息,并且
其中,所述生成语音波形包括:基于所述至少一个经变换的声学特征和所述经变换的说话者潜在空间信息的组合来生成所述语音波形。


7.根据权利要求1所述的方法,还包括:
基于所述目标说话者的语料库来分别更新所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项;和/或
基于所述目标说话者的所述语料库来联合更新所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项。


8.根据权利要求3所述的方法,还包括:
基于所述目标说话者的语料库来联合更新所述第一说话者模型和所述声学特征预测器;和/或
基于所述目标说话者的所述语料库来联合更新所述第二说话者模型和所述神经声码器。


9.根据权利要求1所述的方法,其中,
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项是基于多个说话者的多个语料库来分别预训练的,和/或
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项是基于所述多个说话者的所述多个语料库来联合预训练的。


10.根据权利要求3所述的方法,其中,
所述第一说话者模型和所述声学特征预测器是基于多个说话者的多个语料库来联合预训练的,和/或
所述第二说话者模型和所述神经声码器是基于所述多个说话者的所述多个语料库来联合预训练的。


11.根据权利要求9或10所述的方法,其中,
所述多个语料库是基于内容覆盖、说话者多样性和风格多样性中的至少一项来准备的。


12.一种多说话者神经文本到语音(TTS)系统,包括:
说话者信息提取器,被配置用于通过至少一个说话者模型来提供目标说话者的说话者潜在空间信息;
...

【专利技术属性】
技术研发人员:邓妍何磊
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1