一种语音生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38934311 阅读:10 留言:0更新日期:2023-09-25 09:37
本申请提供了一种语音生成方法、装置、设备及存储介质,具体实现方案为:确定与第一对话内容对应的回复文本;其中,所述第一对话内容包括对话语音和/或对话语音对应的语音文本;基于所述第一对话内容和所述回复文本,生成提示信息,所述提示信息包括所述第一对话内容的情感信息;基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系。根据本申请的技术方案,能够有效提升合成语音的准确性。提升合成语音的准确性。提升合成语音的准确性。

【技术实现步骤摘要】
一种语音生成方法、装置、设备及存储介质


[0001]本申请涉及语音合成
,尤其涉及一种语音生成方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机和互联网科技的飞速发展,语音合成在智能家居、智能机器人等交互领域得到了广泛应用。在使用智能语音设备时,无法满足于单一中立情感的语音合成体验,希望智能语音设备能够针对用户的情感采用对应情感的回复。使得人机交互系统变得更加生动,更加有亲近感。例如,当用户生气的时候,智能语音设备可以采用安慰或抱歉的情感进行回复。
[0003]目前,智能语音设备通常是通过情感标签与回复文本合成语音数据,而情感标签是识别用户语音的情感确定的,再将用户语音的情感结合回复文本来生成回复语音的情感,最后通过回复语音的情感和回复文本来合成带有情感的语音。可见,上述语音合成依赖于对用户语音情感的识别,如此,用户语音情感的识别的偏差,导致在语音合成的过程中误差逐层加剧,使得合成的语音数据的情感表达不准确。

技术实现思路

[0004]为了解决上述问题,本申请提出一种语音生成方法、装置、设备及存储介质,能够显著提升合成语音的准确性。
[0005]根据本申请实施例的第一方面,提供了一种语音生成方法,包括:
[0006]确定与第一对话内容对应的回复文本;其中,所述第一对话内容包括对话语音和/或对话语音对应的语音文本;
[0007]基于所述第一对话内容和所述回复文本,生成提示信息,所述提示信息包括所述第一对话内容的情感信息;
[0008]基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系。
[0009]根据本申请实施例的第二方面,提供了一种语音生成装置,包括:
[0010]确定模块,用于确定与第一对话内容对应的回复文本;其中,所述第一对话内容包括对话语音和/或对话语音对应的语音文本;
[0011]生成模块,用于基于所述第一对话内容和所述回复文本,生成提示信息,所述提示信息包括所述第一对话内容的情感信息;
[0012]合成模块,用于基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系。
[0013]本申请第三方面提供了一种电子设备,包括:
[0014]存储器和处理器;
[0015]所述存储器与所述处理器连接,用于存储程序;
[0016]所述处理器,通过运行所述存储器中的程序,实现上述的语音生成方法。
[0017]本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的语音生成方法。
[0018]上述申请中的一个实施例具有如下优点或有益效果:
[0019]基于第一对话内容和第一对话内容对应的回复文本生成提示信息,在提示信息中包含了第一对话内容的情感信息,并且,该第一对话内容的情感信息,直接通过第一对话内容的原始内容携带到提示信息中,然后,直接利用提示信息生成第一对话内容对应的回复语音,在上述的处理过程中,能够将第一对话内容本身携带的情感信息直接从第一对话内容注入到提示信息中,然后基于提示信息生成与第一对话内容的情感相匹配的回复语音,该处理过程无需识别语音数据的情感标签,避免了在语音合成的过程中误差逐层加剧,使得合成的语音数据的情感表达更准确。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0021]图1为本申请实施例提供的一种语音生成方法的流程示意图;
[0022]图2为本申请实施例提供的现有技术中的语音合成的示意图;
[0023]图3为本申请实施例提供的一种语音生成方法的步骤S130的示意图;
[0024]图4为本申请实施例提供的一种语音生成方法的具体流程示意图;
[0025]图5为本申请实施例提供的一种语音生成装置的结构示意图;
[0026]图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0027]本申请实施例技术方案适用于应用在各种语音生成的场景中,例如,人机交互场景、会议场景等。采用本申请实施例技术方案,能够提升合成的准确性。
[0028]本申请实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备,或包装成软件程序被运行,当硬件设备执行本申请实施例技术方案的处理过程,或上述软件程序被运行时,可以实现在基于所述提示信息生成与第一对话内容对应的回复语音的目的。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍,并不对本申请技术方案的具体实现形式进行限定,任意的可以执行本申请技术方案处理过程的技术实现形式,都可以被本申请实施例所采用。
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]示例性方法
[0031]图1是根据本申请一实施例的语音生成方法的流程图。在一示例性实施例中,提供
了一种语音生成方法,包括:
[0032]S110、确定与第一对话内容对应的回复文本;
[0033]S120、基于所述第一对话内容和所述回复文本,生成提示信息;
[0034]S130、基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系
[0035]在步骤S110中,示例性地,第一对话内容指的是用户输入的语音或文本,其中,语音或文本可以是中文、英文、西班牙文等。第一对话内容包括:对话语音或对话语音对应的语音文本,或对话语音和对话语音对应的语音文本。可选地,对话语音可以通过具备收音功能的设备(例如,麦克风)获得的。语音文本可以是用户自己输入的文本数据,还可以是根据现有技术中的语音识别模型识别对话语音得到的。回复文本指的是针对第一对话内容的回答。
[0036]具体地,可以预先存储对话内容和回复文本的对应关系,这样,在获取第一对话内容后,能够根据对话内容和回复文本的对应关系确定第一对话内容所对应的回复文本。还可以是根据样本对话内容训练数据,以及样本对话内容所对应的样本回复文本对神经网络模型进行训练,得到训练好的模型。其中,上述训练数据可以是在开源的语音数据库中获得的语音数据。如此将获取到的第一对话内容输入至训练好的模型,就可以输出回复文本。
[0037]在步骤S120中,示例性地,提示信息包括第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法,其特征在于,包括:确定与第一对话内容对应的回复文本;其中,所述第一对话内容包括对话语音和/或对话语音对应的语音文本;基于所述第一对话内容和所述回复文本,生成提示信息,所述提示信息包括所述第一对话内容的情感信息;基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一对话内容和所述回复文本生成提示信息,以及,基于所述提示信息生成与所述第一对话内容对应的回复语音,包括:将所述第一对话内容和所述回复文本,输入预先训练的语音生成模型,得到与所述第一对话内容对应的回复语音;其中,所述语音生成模型基于所述第一对话内容和所述回复文本生成提示信息,以及,基于所述提示信息生成与所述第一对话内容对应的回复语音。3.根据权利要求2所述的方法,其特征在于,所述语音生成模型通过第一训练过程训练得到;所述第一训练过程,至少以使得所述语音生成模型输出的回复语音的第一情感,与输入所述语音生成模型的样本对话内容的第二情感符合预设的情感匹配关系,为目标。4.根据权利要求1至3中任意一项所述的方法,其特征在于,基于所述第一对话内容和所述回复文本,生成提示信息,包括:将所述第一对话内容和所述回复文本分别进行编码,得到所述第一对话内容对应的第一编码,以及所述回复文本对应的第二编码,所述第一编码中包含所述第一对话内容的情感编码信息;将所述第一编码和所述第二编码进行融合,得到提示信息。5.根据权利要求4所述的方法,其特征在于,所述第一对话内容包括对话语音,以及所述对话语音对应的语音文本;将所述第一对话内容和所述回复文本分别进行编码,得到所述第一对话内容对应的第一编码,包括:将所述第一对话内容中的对话语音和所述对话语音对应的语音文本分...

【专利技术属性】
技术研发人员:方昕胡亚军潘嘉高建清刘聪陈恩红
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1