基于检索增强生成的语音合成方法及装置制造方法及图纸

技术编号:42428334 阅读:15 留言:0更新日期:2024-08-16 16:41
本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。

【技术实现步骤摘要】

本申请涉及语音合成处理,尤其涉及基于检索增强生成的语音合成方法及装置


技术介绍

1、tts(text to speech)可以被称为一种语音合成(speech synthesis)系统或模型,即“从文本到语音”,其能够计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语(或者其他语言语音)的输出。其中,如gpt-sovits等基于提示(prompt)等能够支持少量语音转换、文本到语音的音色合成模型,又以其能够生成与目标人物声音非常相似的音频以及只需很短的语音样本即可进行有效训练的优势,成为当前值得关注的语音合成模型。

2、目前,基于提示(也可以称为语音提示、提示语或提示词等)的语音合成模型,通常随机选择目标人物的任意一条语音作为提示,而在随机选择的情况下,可能会选择到情感和表达都完全相反的语音,进而使得在基于提示的生成语音过程中,基于提示的语音合成模型可能会参考来自该随机选取的语音提示中不恰当的韵律表达,从而生成韵律表达不恰当的语音,不足以有效指导语音合成系统模仿所需的目标人物的说话风格和音色,也无法保证提示能够根据文本的本文档来自技高网...

【技术保护点】

1.一种基于检索增强生成的语音合成方法,其特征在于,包括:

2.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述基于检索增强生成方式,采用预设的上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音,以及各个所述提示语音各自对应的提示文本,包括:

3.根据权利要求2所述的基于检索增强生成的语音合成方法,其特征在于,各个所述语音数据各自对应的与目标风格关联的音频特征向量存储在一音频向量数据库中;

4.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述上下文感知对比语言及音频模型包括:

5.根...

【技术特征摘要】

1.一种基于检索增强生成的语音合成方法,其特征在于,包括:

2.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述基于检索增强生成方式,采用预设的上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音,以及各个所述提示语音各自对应的提示文本,包括:

3.根据权利要求2所述的基于检索增强生成的语音合成方法,其特征在于,各个所述语音数据各自对应的与目标风格关联的音频特征向量存储在一音频向量数据库中;

4.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述上下文感知对比语言及音频模型包括:

5.根据权利要求1至4任一项所述的基于检索增强生成的语音合成方法,其特征在于,在所述基于检索增强生成方式,采用预设的上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音,以及各个所述提示语音各...

【专利技术属性】
技术研发人员:李雅邓雅月薛锦隆高迎明
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1