语音生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:43908231 阅读:21 留言:0更新日期:2025-01-03 13:17
本公开实施例公开了一种语音生成方法、装置、电子设备及存储介质,通过获取用于在语音生成时进行内容约束的待合成内容,提取待合成内容的内容嵌入;获取用于在语音生成时进行风格约束的风格提示语音,提取风格提示语音中的多个原始语音标记;将内容嵌入、以及多个原始语音标记输入至第一大语言模型进行预测,得到多个目标语音标记;获取用于在语音生成时进行音色约束的音色提示语音,提取音色提示语音的第一说话对象嵌入;基于第一说话对象嵌入以及多个目标语音标记进行语音生成,得到目标语音,从而能够提升生成的目标语音的真实性和灵活性,可广泛应用于云技术、人工智能、智慧交通等场景。

【技术实现步骤摘要】

本公开涉及人工智能,特别是涉及一种语音生成方法、装置、电子设备及存储介质


技术介绍

1、随着人工智能技术的发展,零样本语音生成的应用变得越来越广泛,例如语音助手、有声读物、地图导航等等场景下均得到广泛应用。然而,目前零样本语音生成系统所生成的语音在音色和风格上均较为固定,其真实性和灵活性有待提升。


技术实现思路

1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本公开实施例提供了一种语音生成方法、装置、电子设备及存储介质,能够提升生成的目标语音的真实性和灵活性。

3、一方面,本公开实施例提供了一种语音生成方法,包括:

4、获取用于在语音生成时进行内容约束的待合成内容,提取所述待合成内容的内容嵌入;

5、获取用于在语音生成时进行风格约束的风格提示语音,提取所述风格提示语音中的多个原始语音标记;

6、将所述内容嵌入以及多个所述原始语音标记输入至第一大语言模型进行预测,得到多个目标语音标记;

7、获取用于在本文档来自技高网...

【技术保护点】

1.一种语音生成方法,其特征在于,包括:

2.根据权利要求1所述的语音生成方法,其特征在于,所述获取用于在语音生成时进行风格约束的风格提示语音,包括:

3.根据权利要求2所述的语音生成方法,其特征在于,所述知识库中存储有参考语音片段以及与所述参考语音片段关联的第二全局嵌入和第二细节嵌入,所述第二全局嵌入用于指示所述参考语音片段的说话对象风格,所述第二细节嵌入用于指示所述参考语音片段的情感,所述基于所述第一全局嵌入以及所述第一细节嵌入,从预设的知识库中检索出所述内容片段对应的风格提示语音,包括:

4.根据权利要求3所述的语音生成方法,其特征在于,所述基于...

【技术特征摘要】

1.一种语音生成方法,其特征在于,包括:

2.根据权利要求1所述的语音生成方法,其特征在于,所述获取用于在语音生成时进行风格约束的风格提示语音,包括:

3.根据权利要求2所述的语音生成方法,其特征在于,所述知识库中存储有参考语音片段以及与所述参考语音片段关联的第二全局嵌入和第二细节嵌入,所述第二全局嵌入用于指示所述参考语音片段的说话对象风格,所述第二细节嵌入用于指示所述参考语音片段的情感,所述基于所述第一全局嵌入以及所述第一细节嵌入,从预设的知识库中检索出所述内容片段对应的风格提示语音,包括:

4.根据权利要求3所述的语音生成方法,其特征在于,所述基于所述第一全局嵌入以及所述第一细节嵌入,从预设的知识库中检索出所述内容片段对应的风格提示语音之前,所述语音生成方法还包括:

5.根据权利要求4所述的语音生成方法,其特征在于,所述基于多个所述语音块文本构建所述第二全局嵌入,基于所述参考文本片段构建所述第二细节嵌入,包括:

6.根据权利要求3所述的语音生成方法,其特征在于,所述根据所述第一细节嵌入与所述第二细节嵌入之间的相似度,从多个所述参考语音片段中检索出所述内容片段对应的风格提示语音,包括:

7.根据权利要求2所述的语音生成方法,其特征在于,所述基于所述第一风格描述文本的嵌入构建所述内容片段的第一全局嵌入,包括:

8.根据权利要求2所述的语音生成方法,其特征在于,所述基于所述第一情感描述文本的嵌入构建所述内容片段的第一细节嵌入,包括:

9.根据权利要求8所述的语音生成方法,其特征在于,所述待合成内容为待合成语音,所述内容片段为语音片段,所述基...

【专利技术属性】
技术研发人员:王珺
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1