语音合成方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:35696173 阅读:17 留言:0更新日期:2022-11-23 14:47
本申请提供了一种语音合成方法、装置、电子设备及计算机可读存储介质;所述方法包括:获取第一发音人针对第一文本的多种音频信息和第一发音人的标识,以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识;基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征;基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型,确定目标输出音频。本申请提供的语音合成方法不仅高效实现了带有重音的语音合成,而且实现了重音的可控性,提升了语音合成的自然度及表现力。的自然度及表现力。的自然度及表现力。

【技术实现步骤摘要】
语音合成方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及语音合成
,尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]目前,为了提高语音合成的自然度,提升语音合成的表现力,可以通过在合成的语音中添加一些重音来丰富情感表达的层次,突出语句的重点。
[0003]重音的特征表现在时长拉伸和音调加强。现有研究主要集中在时长建模方面,其中,长度调节器可以通过延长或者缩短音素持续时间来轻松确定语音速度,但是长度调节器在模型训练时,一般都有两个阶段的训练流程,除了主框架之外,还需要一个另外的模型来训练时长模型,训练过程较为繁琐,训练时间也比较长。而且目前的研究缺少对音调的建模。
[0004]因此,有必要根据时长和音调,进行高效且准确的重音可控语音合成。

技术实现思路

[0005]本申请实施例提供一种语音合成方法、装置、电子设备及计算机可读存储介质,不仅可以高效地将重音特征合成于语音中,而且可以实现对重音的可控性,提升语音的自然度和表现力。
[0006]本申请实施例的技术方案是这样实现的:
[0007]第一方面,本申请实施例提供一种语音合成方法,包括:
[0008]获取第一发音人针对第一文本的多种音频信息和第一发音人的标识,以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识;
[0009]基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征;
[0010]基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型,确定目标输出音频。
[0011]在上述方案中,所述获取第一发音人针对第一文本的多种音频信息和第一发音人的标识,包括:
[0012]针对所述第一文本,录制所述第一发音人四种不同发音的音频信息;
[0013]所述音频信息包括无重音的音频信息、音调加强的音频信息、时长拉伸的音频信息以及音调加强且时长拉伸的音频信息。
[0014]在上述方案中,所述基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征,包括:
[0015]对所述第一发音人的音频信息进行文字标注,得到所述第一发音人的带有重音的第一文本标注信息;
[0016]基于所述第一文本标注信息、所述第一发音人的音频信息,训练所述第一语音模型,学习所述第一文本标注信息中的重音特征以及所述第一发音人的声音特征。
[0017]在上述方案中,所述基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征,包括:
[0018]将所述第二发音人的音频信息全部标注为不带重音的第二文本标注信息;
[0019]基于所述第二文本标注信息、所述第二发音人的音频信息和所述第二发音人的标识,训练所述第一语音模型,学习所述第二发音人第二发音人的声音特征。
[0020]在上述方案中,所述对所述第一发音人的音频信息和所述第二发音人的音频信息进行文字标注,得到所述第一发音人的带有重音的第一文本标注信息,包括:
[0021]所述第一文本标注信息中的文本标签包括无重音标签、音调加强标签、时长拉伸标签以及音调加强且时长拉伸标签中至少一项。
[0022]在上述方案中,所述基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型,确定目标输出音频,包括:
[0023]所述第一语音模型基于所述第二发音人的标识,得到所述第二发音人的标识对应的目标发音人的目标声音特征;
[0024]所述第一语音模型基于所述待输出音频对应的文本的标注信息,得到所述待输出音频对应的目标重音特征;
[0025]所述第一语音模型基于所述目标声音特征和所述目标重音特征,确定带有所述目标重音特征的所述目标发音人的输出音频。
[0026]在上述方案中,所述获取第二发音人针对第二文本的一种音频信息和第二发音人的标识,包括:
[0027]针对所述第二文本,录制所述第二发音人中每一位发音人正常发音的音频信息,所述第二发音人的标识与所述第二发音人中的发音人一一对应;
[0028]所述待输出音频对应的文本为预先配置的带有重音标注的文本。
[0029]第二方面,本申请实施例提供一种语音合成装置,所述语音合成装置包括:
[0030]音频信息获取模块,用于获取第一发音人针对第一文本的多种音频信息和第一发音人标识,以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识;
[0031]第一语音模型训练模块,用于基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征;
[0032]目标输出音频确定模块,用于基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型,确定目标输出音频。
[0033]第三方面,本申请实施例提供一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的语音合成方法。
[0034]第四方面,本申请实施例提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行本申请实施例提供的语音合成方法。
[0035]本申请实施例提供的语音合成方法,获取第一发音人针对第一文本的多种音频信息和第一发音人的标识,以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识;基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及所述第二发音人的声音特征;基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型,确定目标输出音频。本申请的语音合成方法,通过一个模型实现了带有重音的语音合成,提高了重音的语音合成效率。同时,通过对待输出音频对应的文本的灵活配置实现了对重音的可控性。
附图说明
[0036]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0037]图1是本申请实施例提供的语音合成方法的一种可选处理流程示意图;
[0038]图2是本申请实施例提供的语音合成方法的一种可选系统架构图;
[0039]图3是本申请实施例提供的语音合成装置的一种可选结构示意图;
[0040]图4是本申请实施例提供的一种可选电子设备示意性框图。
具体实施方式
[0041]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取第一发音人针对第一文本的多种音频信息和第一发音人的标识,以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识;基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征;基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型,确定目标输出音频。2.根据权利要求1所述的方法,其特征在于,所述获取第一发音人针对第一文本的多种音频信息和第一发音人的标识,包括:针对所述第一文本,录制所述第一发音人四种不同发音的音频信息;所述音频信息包括无重音的音频信息、音调加强的音频信息、时长拉伸的音频信息以及音调加强且时长拉伸的音频信息。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征,包括:对所述第一发音人的音频信息进行文字标注,得到所述第一发音人的带有重音的第一文本标注信息;基于所述第一文本标注信息、所述第一发音人的音频信息,训练所述第一语音模型,学习所述第一文本标注信息中的重音特征以及所述第一发音人的声音特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识,训练第一语音模型,学习重音特征以及声音特征,包括:将所述第二发音人的音频信息全部标注为不带重音的第二文本标注信息;基于所述第二文本标注信息、所述第二发音人的音频信息和所述第二发音人的标识,训练所述第一语音模型,学习所述第二发音人的声音特征。5.根据权利要求3所述的方法,其特征在于,所述对所述第一发音人的音频信息和所述第二发音人的音频信息进行文字标注,得到所述第一发音人的带有重音的第一文本标注信息,包括:所述第一文本标注信息中的文本标签包括无重音标签、音调加...

【专利技术属性】
技术研发人员:殷昊梁婷陈云琳叶顺平
申请(专利权)人:出门问问武汉信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1