音频生成方法、音频生成装置及存储介质制造方法及图纸

技术编号:45053716 阅读:21 留言:0更新日期:2025-04-22 17:37
本公开是关于一种音频生成方法、音频生成装置及存储介质。音频生成方法包括:获取用于生成目标音频的目标文本。确定与所述目标文本中每个文本片段对应的音效类别标签。根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,其中,所述音效描述文本是以自然语言描述的音效特征。根据每个所述文本片段对应的音效描述文本生成对应的音效音频。根据所述目标文本生成语音音频。对所述目标文本对应的所有音效音频和所述语音音频进行合成,得到所述目标音频。通过本公开,自动从文本产生音效描述,生成符合文本的音效,插入到合成语音的合适位置,从而提高合成语音的沉浸感和丰富度,增强听觉体验。

【技术实现步骤摘要】

本公开涉及音频合成领域,尤其涉及音频生成方法、音频生成装置及存储介质


技术介绍

1、随着人工智能和语音合成技术的快速发展,文本转语音(text to speech)应用在各个领域得到了广泛应用。相关技术中,主要关注文本转语音后获取的语音的准确性和自然性,忽略了听觉体验的丰富性和沉浸感。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种音频生成方法、音频生成装置及存储介质。

2、根据本公开实施例的第一方面,提供一种音频生成方法,包括:获取用于生成目标音频的目标文本;确定与所述目标文本中每个文本片段对应的音效类别标签;根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,其中,所述音效描述文本是以自然语言描述的音效特征,所述音效特征与所述文本片段的语义相匹配,且所述音效特征与所述音效类别标签相匹配;根据每个所述文本片段对应的音效描述文本生成对应的音效音频;根据所述目标文本生成语音音频;对所述目标文本对应的所有音效音频和所述语音音频进行合成,得到所述本文档来自技高网...

【技术保护点】

1.一种音频生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定与所述目标文本中每个文本片段对应的音效类别标签,包括:

3.根据权利要求2所述的方法,其特征在于,通过如下方法获取所述第一样本集:

4.根据权利要求2所述的方法,其特征在于,所述根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本片段和对应的音效标签生成对应的音效描述文本,包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还...

【技术特征摘要】

1.一种音频生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定与所述目标文本中每个文本片段对应的音效类别标签,包括:

3.根据权利要求2所述的方法,其特征在于,通过如下方法获取所述第一样本集:

4.根据权利要求2所述的方法,其特征在于,所述根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本片段和对应的音效标签生成对应的音效描述文本,包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据每个所述文本片段对应的音效描述文本生成对应的音效音频,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本生成语音音频,包括:

9.根据权利要求1所述的方法,其特征在于,所述目标文本中的文本片段、所述音效音频和所述语音音频之间存在对应关系,

10.根据权利要求9所述的方法,其特征在于,所述插入类型包括第一类型、第二类型和第三类型,所述第一类型对应将所述音效音频插入到所述语音音频之前,所述第二类型对应将所述音效音频插入到所述语音音频之后,所述第三类型对应使所述音效音频与所述语音音频的同步播放,

11.一种音频生成装置,其特征在于,包括:

12.根据权利要求11所述的装置,其特征在于,所述确定单元采用如下方式确定与所述目标文本中每个文本片段对应的音效...

【专利技术属性】
技术研发人员:何云超
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1