【技术实现步骤摘要】
本申请涉及语音合成处理,尤其涉及基于检索增强生成的语音合成方法及装置。
技术介绍
1、tts(text to speech)可以被称为一种语音合成(speech synthesis)系统或模型,即“从文本到语音”,其能够计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语(或者其他语言语音)的输出。其中,如gpt-sovits等基于提示(prompt)等能够支持少量语音转换、文本到语音的音色合成模型,又以其能够生成与目标人物声音非常相似的音频以及只需很短的语音样本即可进行有效训练的优势,成为当前值得关注的语音合成模型。
2、目前,基于提示(也可以称为语音提示、提示语或提示词等)的语音合成模型,通常随机选择目标人物的任意一条语音作为提示,而在随机选择的情况下,可能会选择到情感和表达都完全相反的语音,进而使得在基于提示的生成语音过程中,基于提示的语音合成模型可能会参考来自该随机选取的语音提示中不恰当的韵律表达,从而生成韵律表达不恰当的语音,不足以有效指导语音合成系统模仿所需的目标人物的说话风格和音色,也无法保
...【技术保护点】
1.一种基于检索增强生成的语音合成方法,其特征在于,包括:
2.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述基于检索增强生成方式,采用预设的上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音,以及各个所述提示语音各自对应的提示文本,包括:
3.根据权利要求2所述的基于检索增强生成的语音合成方法,其特征在于,各个所述语音数据各自对应的与目标风格关联的音频特征向量存储在一音频向量数据库中;
4.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述上下文感知对比语言及音频模型包括:
5.根...
【技术特征摘要】
1.一种基于检索增强生成的语音合成方法,其特征在于,包括:
2.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述基于检索增强生成方式,采用预设的上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音,以及各个所述提示语音各自对应的提示文本,包括:
3.根据权利要求2所述的基于检索增强生成的语音合成方法,其特征在于,各个所述语音数据各自对应的与目标风格关联的音频特征向量存储在一音频向量数据库中;
4.根据权利要求1所述的基于检索增强生成的语音合成方法,其特征在于,所述上下文感知对比语言及音频模型包括:
5.根据权利要求1至4任一项所述的基于检索增强生成的语音合成方法,其特征在于,在所述基于检索增强生成方式,采用预设的上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音,以及各个所述提示语音各...
【专利技术属性】
技术研发人员:李雅,邓雅月,薛锦隆,高迎明,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。