【技术实现步骤摘要】
【国外来华专利技术】多说话者神经文本到语音合成
技术介绍
文本到语音(TTS)合成旨在基于文本输入来生成相应的语音波形。TTS合成广泛应用于例如故事中的角色扮演、语音到语音翻译、对特定用户的语音定制等。神经TTS系统被越来越多地用于实施TTS合成,并且正在成为人工智能(AI)领域近些年的研究热点。神经TTS系统可以基于文本输入来预测声学特征,并进而基于所预测的声学特征来生成语音波形。与需要良好设计的前端语言特征的传统TTS技术不同,神经TTS系统是采用端到端结构来建立模型的,并且可以直接基于文本-语音数据对来进行训练。神经TTS系统可以联合地优化语音的发音、韵律等,这将导致比传统TTS技术更自然的合成语音。
技术实现思路
提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。本公开的实施例提出了用于通过多说话者神经TTS合成来生成语音的方法和装置。可以接收文本输入。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开 ...
【技术保护点】
1.一种用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法,包括:/n接收文本输入;/n通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息;/n通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及/n通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。/n
【技术特征摘要】
【国外来华专利技术】1.一种用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法,包括:
接收文本输入;
通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息;
通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及
通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。
2.根据权利要求1所述的方法,其中,所述至少一个说话者模型包括单个说话者模型。
3.根据权利要求1所述的方法,其中,所述至少一个说话者模型包括第一说话者模型和第二说话者模型,并且所述提供包括:
通过所述第一说话者模型来提供第一说话者潜在空间信息;以及
通过所述第二说话者模型来提供第二说话者潜在空间信息。
4.根据权利要求3所述的方法,其中,
所述预测包括:基于所述文本输入和所述第一说话者潜在空间信息来预测所述至少一个声学特征,并且
所述生成包括:基于所述至少一个声学特征和所述第二说话者潜在空间信息来生成所述语音波形。
5.根据权利要求1所述的方法,其中,所述提供包括:
基于所述目标说话者的语料库来生成所述目标说话者的说话者嵌入向量;或者
从说话者嵌入向量数据库中选择所述目标说话者的说话者嵌入向量。
6.根据权利要求1所述的方法,还包括:
通过第一神经网络,基于所述至少一个声学特征来生成至少一个经变换的声学特征;以及
通过第二神经网络,基于所述说话者潜在空间信息来生成经变换的说话者潜在空间信息,并且
其中,所述生成语音波形包括:基于所述至少一个经变换的声学特征和所述经变换的说话者潜在空间信息的组合来生成所述语音波形。
7.根据权利要求1所述的方法,还包括:
基于所述目标说话者的语料库来分别更新所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项;和/或
基于所述目标说话者的所述语料库来联合更新所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项。
8.根据权利要求3所述的方法,还包括:
基于所述目标说话者的语料库来联合更新所述第一说话者模型和所述声学特征预测器;和/或
基于所述目标说话者的所述语料库来联合更新所述第二说话者模型和所述神经声码器。
9.根据权利要求1所述的方法,其中,
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项是基于多个说话者的多个语料库来分别预训练的,和/或
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项是基于所述多个说话者的所述多个语料库来联合预训练的。
10.根据权利要求3所述的方法,其中,
所述第一说话者模型和所述声学特征预测器是基于多个说话者的多个语料库来联合预训练的,和/或
所述第二说话者模型和所述神经声码器是基于所述多个说话者的所述多个语料库来联合预训练的。
11.根据权利要求9或10所述的方法,其中,
所述多个语料库是基于内容覆盖、说话者多样性和风格多样性中的至少一项来准备的。
12.一种多说话者神经文本到语音(TTS)系统,包括:
说话者信息提取器,被配置用于通过至少一个说话者模型来提供目标说话者的说话者潜在空间信息;
...
【专利技术属性】
技术研发人员:邓妍,何磊,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。