语音合成模型产品制造技术

技术编号:35494812 阅读:18 留言:0更新日期:2022-11-05 16:52
本申请实施例提供了一种语音合成方法、神经网络模型训练方法、和语音合成模型产品。该音合成模型产品包括:编码器、解码器和声码器;编码器为基于训练完成的解码器完成训练的编码器,编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图,语音后验图中携带有口音信息;解码器为训练完成的解码器,解码器用于基于语音特征和语音后验图,确定语音频谱,语音后验图用于指示每个音素对应的口音,以及每个音素持续的时长,解码器的训练先于所述编码器的训练;声码器为训练完成的声码器,声码器用于根据所述语音频谱生成待合成文本对应的目标语音,目标语音的口音与语音后验图中的口音信息匹配。中的口音信息匹配。中的口音信息匹配。

【技术实现步骤摘要】
语音合成模型产品
[0001]本申请是申请日为2022年4月12日、申请号为202210377265.8、专利技术名称为“语音合成方法、神经网络模型训练方法、和语音合成模型”的中国专利申请的分案申请。


[0002]本申请实施例涉及神经网络
,尤其涉及一种语音合成方法、神经网络模型训练方法、和语音合成模型产品。

技术介绍

[0003]目前基于神经网络的端到端模型不断进步,语音合成模型的建模能力不断提高,使得合成语音的时间更短、速度更快,效果也更加鲁棒,合成的语音也越来越偏向自然发音,但是现有的语音合成模型需要庞大的数据库和大量的计算资源;另一方面,在日常生活中,受地理影响,带有重口音的方言使用范围十分广泛,但现有的语音合成模型难以合成带有口音的语音音频。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种语音合成方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种语音合成方法,包括:获取待合成文本的音素向量;从所述音素向量中预测出各音素对应的语音特征和语音后验图,所述语音后验图中携带有口音信息;根据所述语音特征和所述语音后验图,生成语音频谱;基于所述语音频谱输出与所述待合成文本对应的目标语音,所述目标语音的口音与所述口音信息匹配。
[0006]根据本申请实施例的第二方面,提供了一种语音合成模型产品,包括编码器、解码器和声码器,所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图,所述语音后验图中携带有口音信息,所述解码器用于基于所述语音特征和所述语音后验图,确定语音频谱,所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音,所述目标语音的口音与所述语音后验图中的口音信息匹配。
[0007]根据本申请实施例的第三方面,提供了一种神经网络模型训练方法,所述方法用于训练上述语音合成模型,所述方法包括:使用第一口音对应的音频样本对所述语音合成模型进行训练,以获得初始训练的语音合成模型;使用第二口音对应的音频样本对初始训练的所述语音合成模型进行训练,以获得二次训练的语音合成模型,所述第一口音对应的音频样本的时长大于所述第二口音对应的音频样本。
[0008]根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。
[0009]根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机
程序,该程序被处理器执行时实现如第一方面所述的方法。
[0010]根据本申请实施例的第六方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如上述的方法对应的操作。
[0011]通过这种方式可以生成真实的、非普通话口音的目标语音,从而提升可合成语音的丰富性。本实施例创新性地将语音后验图(Phonetic Posterior Grams,PPGs)应用于重口音(也就是非普通话)的语音合成中,从而实现了在使用较少的非普通话的音频的情况下进行自动的带口音的语音的合成,解决了现有技术中由于带有口音的音频不足,无法合成带口音的语音的问题。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0013]图1A为根据本申请实施例一的一种语音合成模型的示意图;
[0014]图1B为根据本申请实施例一的语音合成模型中编码器和解码器的示意图;
[0015]图1C为根据本申请实施例一的语音合成模型中编码器的方差适配器的示意图;
[0016]图2为根据本申请实施例一的一种语音合成方法的步骤流程图;
[0017]图3为根据本申请实施例一的一种语音合成方法的步骤S204的子步骤流程图;
[0018]图4为根据本申请实施例一的一种语音合成方法的步骤S206的子步骤流程图;
[0019]图5为根据本申请实施例二的一种神经网络模型训练方法的步骤流程图;
[0020]图6为根据本申请实施例二的一种神经网络模型训练方法的步骤502的子步骤流程图;
[0021]图7为根据本申请实施例二的一种神经网络模型训练方法的步骤502的另一子步骤流程图;
[0022]图8为根据本申请实施例三的一种语音合成装置的结构框图;
[0023]图9为根据本申请实施例四的一种神经网络模型训练装置的结构框图;
[0024]图10为根据本申请实施例五的一种电子设备的结构示意图。
具体实施方式
[0025]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0026]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0027]实施例一
[0028]在本实施例中,提供了一种新的、能够合成带口音(即非普通话)的目标语音的神经网络模型(也可以称为语音合成模型),为了便于理解,在对语音合成方法的实现过程进行说明之前,对语音合成模型进行说明。
[0029]参照图1A,示出了一种语音合成模型的示意图。该模型包括编码器、解码器和声码器。
[0030]其中,所述编码器(即图1A中所示encoder)用于从待合成文本的音素向量中预测出语音特征和语音后验图,所述语音后验图中携带有口音信息。
[0031]语音特征可以包括需要合成的目标语音中各音素的基频(F0)和能量信息(energy),但不限于此。本实施例的编码器不仅可以预测基频和能量信息,而且可以预测出语音后验图(Phonetic PosteriorGrams,PPGs),语音后验图可以提取语言无关的音素后验概率形成语音后验图,语音后验图可以保留声音相关的信息(如口音信息)的同时排除说话人的影响,从而使得语音后验图可以作为说话人和语音之间的桥梁,通过语音后验图中指示的每个音素对应的口音,以及每个音素持续的时长,这样就可以很好地控制后续合成出的目标语音的口音,解决不同口音的语音的音素和韵律不同,难以合成非普通话口音语音的问题。
[0032]所述解码器(即图1A中所示decoder)用于基于所述语音特征和所述语音后验图,确定语音频谱。该语音频谱可以是梅尔频谱。
[0033]所述声码器(即图1A中所示LPCnet)用于根据所述语音频谱生成所述待合成文本对应的目标语音,所述目标语音的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型产品,包括编码器、解码器和声码器;所述编码器为基于训练完成的所述解码器完成训练的编码器,所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图,所述语音后验图中携带有口音信息;所述解码器为训练完成的解码器,所述解码器用于基于所述语音特征和所述语音后验图,确定语音频谱,所述语音后验图用于指示每个音素对应的口音,以及每个音素持续的时长,所述解码器的训练先于所述编码器的训练;所述声码器为训练完成的声码器,所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音,所述目标语音的口音与所述语音后验图中的口音信息匹配。2.根据权利要求1所述的语音合成模型产品,其中,所述解码器通过以下方式先进行训练:从第一口音对应的音频样本中提取出语音特征和语音后验图;获取说话人向量;将所述语音特征、所述语音后验图和所述说话人向量输入所述解码器,获取所述解码器输出的语音频谱;使用所述声码器基于所述语音频谱生成目标语音;根据所述目标语音和所述音频样本,对所述说话人向量进行调整,并以调整后的说话人向量作为新的说话人向量,返回将所述语音特征、所述语音后验图和所述说话人向量输入所述解码器继续执行,直至满足第一终止条件,以获得训练的解码器和说话人向量;所述编码器通过以下方式基于训练完成的解码器进行训练:获取所述第一口音的音频样本对应的文本样本的音素向量样本;将所述音素向量样本输入所述编码器内,并获得所述编码器输出的语音特征和语音后验图;将所述语音特征、所述语音后验图和训练的说话人向量输入训练的解码器,以获得训练的解码器输出的语音频谱;使用所述声码器基于所述语音频谱生成目标语音;根据所述目标语音和所述音频样本,对所述...

【专利技术属性】
技术研发人员:柴萌鑫林羽钦黄智颖
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1