System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频生成方法、音频生成装置及存储介质制造方法及图纸_技高网

音频生成方法、音频生成装置及存储介质制造方法及图纸

技术编号:45053716 阅读:4 留言:0更新日期:2025-04-22 17:37
本公开是关于一种音频生成方法、音频生成装置及存储介质。音频生成方法包括:获取用于生成目标音频的目标文本。确定与所述目标文本中每个文本片段对应的音效类别标签。根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,其中,所述音效描述文本是以自然语言描述的音效特征。根据每个所述文本片段对应的音效描述文本生成对应的音效音频。根据所述目标文本生成语音音频。对所述目标文本对应的所有音效音频和所述语音音频进行合成,得到所述目标音频。通过本公开,自动从文本产生音效描述,生成符合文本的音效,插入到合成语音的合适位置,从而提高合成语音的沉浸感和丰富度,增强听觉体验。

【技术实现步骤摘要】

本公开涉及音频合成领域,尤其涉及音频生成方法、音频生成装置及存储介质


技术介绍

1、随着人工智能和语音合成技术的快速发展,文本转语音(text to speech)应用在各个领域得到了广泛应用。相关技术中,主要关注文本转语音后获取的语音的准确性和自然性,忽略了听觉体验的丰富性和沉浸感。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种音频生成方法、音频生成装置及存储介质。

2、根据本公开实施例的第一方面,提供一种音频生成方法,包括:获取用于生成目标音频的目标文本;确定与所述目标文本中每个文本片段对应的音效类别标签;根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,其中,所述音效描述文本是以自然语言描述的音效特征,所述音效特征与所述文本片段的语义相匹配,且所述音效特征与所述音效类别标签相匹配;根据每个所述文本片段对应的音效描述文本生成对应的音效音频;根据所述目标文本生成语音音频;对所述目标文本对应的所有音效音频和所述语音音频进行合成,得到所述目标音频。

3、一种实施方式中,所述确定与所述目标文本中每个文本片段对应的音效类别标签,包括:以所述目标文本的标点符号作为分隔符,将所述目标文本分割为多个文本片段;将每个所述文本片段输入预设的音效类别识别模型,得到识别结果;其中,所述识别结果包括多个概率值,每个概率值代表所述文本片段属于一种预设音效类别标签的概率,所述预设音效类别标签包括:无音效标签和n种具体类型的音效标签;所述音效类别识别模型是采用机器学习的方法通过将预设的第一样本集输入至第一初始神经网络模型进行训练得到。

4、一种实施方式中,通过如下方法获取所述第一样本集:获取训练文本,并确定与所述训练文本对应的训练提示语,所述训练文本用于获取所述第一样本集,所述第一样本集包括文本和与文本对应的音效类别标签;将所述训练文本和所述训练提示语分别输入奇数个大语言模型,并获取每个大语言模型输出的预测音效类别标签;响应于所述奇数个大语言模型中半数以上的大语言模型输出的预测音效类别标签为相同的音效类别标签,将所述半数以上的大语言模型输出的相同音效类别标签、所述训练文本确定为所述第一样本集;响应于所述奇数个大语言模型中半数以上的大语言模型输出的预测音效类别标签为不同的音效类别标签,将每个大语言模型输出的预测音效类别标签添加至所述训练提示语中,更新所述训练提示语,并在循环次数阈值内,循环执行音效类别标签获取及判别流程,直至所述奇数个大语言模型中半数以上的大语言模型输出预测音效类别标签为相同的音效类别标签,将所述半数以上的大语言模型输出的相同音效类别标签和所述训练文本确定为所述第一样本集,所述音效类别标签获取及判别流程包括输入训练文本和更新后的训练提示语、获取每个大语言模型输出的预测音效类别标签、判断所述奇数个大语言模型中半数以上的大语言模型输出的预测音效类别标签是否为相同的音效类别标签和更新训练提示语。

5、一种实施方式中,所述根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,包括:如果所述识别结果中所述n种具体类型的音效标签中任一种音效标签对应的概率值最高,则根据所述文本片段和对应的音效标签生成对应的音效描述文本。

6、一种实施方式中,所述根据所述文本片段和对应的音效标签生成对应的音效描述文本,包括:根据所述文本片段、对应的音效标签以及预存的音效提示语模板,生成与所述文本片段对应的音效提示语;将所述音效提示语输入至大语言模型,将所述大语言模型输出的回复结果作为所述音效描述文本。

7、一种实施方式中,所述方法还包括:监测所述循环执行音效类别标签获取及判别流程的循环次数;响应于所述循环次数大于循环次数阈值,将所述文本片段从第一样本集中剔除,或基于操作指令,确定所述训练文本的音效类别标签,将基于操作指令确定的音效类别标签和训练文本确定为所述第一样本集。

8、一种实施方式中,所述根据每个所述文本片段对应的音效描述文本生成对应的音效音频,包括:根据所述音效描述文本,生成描述编码向量;将所述描述编码向量转换为离散的编码标识;对所述离散的编码标识进行解码,得到所述音效音频。

9、一种实施方式中,所述根据所述目标文本生成语音音频,包括:获取所述目标文本的声学参数,并获取所述目标文本的关联序列,所述关联序列包括音素、声调和韵律;根据所述目标文本、所述声学参数和所述关联序列获取所述语音音频。

10、一种实施方式中,所述目标文本中的文本片段、所述音效音频和所述语音音频之间存在对应关系,所述对所述目标文本对应的所有音效音频和所述语音音频进行合成,得到所述目标音频,包括:确定每个文本片段对应的音效音频和语音音频,确定每个文本片段对应的音效音频的音效类别标签,并确定所述音效类别标签对应的插入类型;根据所述音效类别标签对应的插入类型,确定所述音效音频的插入到所述语音音频中的插入位置,并合成每个文本片段对应的所述音效音频和所述语音音频,得到所述目标音频。

11、一种实施方式中,所述插入类型包括第一类型、第二类型和第三类型,所述第一类型对应将所述音效音频插入到所述语音音频之前,所述第二类型对应将所述音效音频插入到所述语音音频之后,所述第三类型对应使所述音效音频与所述语音音频的同步播放,所述根据所述音效类别标签对应的插入类型,确定所述音效音频的插入到所述语音音频中的插入位置,包括:响应于所述音效类别标签对应的插入类型为第一类型,将所述音效音频插入到所述语音音频之前;响应于所述音效类别标签对应的插入类型为第二类型,将所述音效音频插入到所述语音音频之后;响应于所述音效类别标签对应的插入类型为第三类型,使所述音效音频与所述语音音频的同步播放。

12、根据本公开实施例的第二方面,提供一种音频生成装置,包括:确定单元,用于获取用于生成目标音频的目标文本,确定与所述目标文本中每个文本片段对应的音效类别标签;处理单元,用于根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,其中,所述音效描述文本是以自然语言描述的音效特征,所述音效特征与所述文本片段的语义相匹配,且所述音效特征与所述音效类别标签相匹配,根据每个所述文本片段对应的音效描述文本生成对应的音效音频,根据所述目标文本生成语音音频;合成单元,用于对所述目标文本对应的所有音效音频和所述语音音频进行合成,得到所述目标音频。

13、一种实施方式中,所述确定单元采用如下方式确定与所述目标文本中每个文本片段对应的音效类别标签:以所述目标文本的标点符号作为分隔符,将所述目标文本分割为多个文本片段;将每个所述文本片段输入预设的音效类别识别模型,得到识别结果;其中,所述识别结果包括多个概率值,每个概率值代表所述文本片段属于一种预设音效类别标签的概率,所述预设音效类别标签包括:无音效标签和n种具体类型的音效标签;所述音效类别识别模型是采用机器学习的装置通过将预本文档来自技高网...

【技术保护点】

1.一种音频生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定与所述目标文本中每个文本片段对应的音效类别标签,包括:

3.根据权利要求2所述的方法,其特征在于,通过如下方法获取所述第一样本集:

4.根据权利要求2所述的方法,其特征在于,所述根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本片段和对应的音效标签生成对应的音效描述文本,包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据每个所述文本片段对应的音效描述文本生成对应的音效音频,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本生成语音音频,包括:

9.根据权利要求1所述的方法,其特征在于,所述目标文本中的文本片段、所述音效音频和所述语音音频之间存在对应关系,

10.根据权利要求9所述的方法,其特征在于,所述插入类型包括第一类型、第二类型和第三类型,所述第一类型对应将所述音效音频插入到所述语音音频之前,所述第二类型对应将所述音效音频插入到所述语音音频之后,所述第三类型对应使所述音效音频与所述语音音频的同步播放,

11.一种音频生成装置,其特征在于,包括:

12.根据权利要求11所述的装置,其特征在于,所述确定单元采用如下方式确定与所述目标文本中每个文本片段对应的音效类别标签:

13.根据权利要求12所述的装置,其特征在于,所述处理单元通过如下方式获取所述第一样本集:

14.根据权利要求12所述的装置,其特征在于,所述处理单元通过如下方式根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本:

15.根据权利要求14所述的装置,其特征在于,所述处理单元通过如下方式根据所述文本片段和对应的音效标签生成对应的音效描述文本:

16.根据权利要求13所述的装置,其特征在于,所述处理单元还用于:

17.根据权利要求11所述的装置,其特征在于,所述处理单元通过如下方式根据每个所述文本片段对应的音效描述文本生成对应的音效音频:

18.根据权利要求11所述的装置,其特征在于,所述处理单元通过如下方式根据所述目标文本生成语音音频:

19.根据权利要求11所述的装置,其特征在于,所述目标文本中的文本片段、所述音效音频和所述语音音频之间存在对应关系,

20.根据权利要求19所述的装置,其特征在于,所述插入类型包括第一类型、第二类型和第三类型,所述第一类型对应将所述音效音频插入到所述语音音频之前,所述第二类型对应将所述音效音频插入到所述语音音频之后,所述第三类型对应使所述音效音频与所述语音音频的同步播放,

21.一种音频生成装置,其特征在于,包括:

22.一种存储介质,其特征在于,所述存储介质中存储有指令,当所述存储介质中的指令由处理器执行时,使得处理器能够执行权利要求1至10中任一项所述的音频生成方法。

...

【技术特征摘要】

1.一种音频生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定与所述目标文本中每个文本片段对应的音效类别标签,包括:

3.根据权利要求2所述的方法,其特征在于,通过如下方法获取所述第一样本集:

4.根据权利要求2所述的方法,其特征在于,所述根据每个所述文本片段的语义和对应的所述音效类别标签,生成与每个所述文本片段对应的音效描述文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本片段和对应的音效标签生成对应的音效描述文本,包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据每个所述文本片段对应的音效描述文本生成对应的音效音频,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本生成语音音频,包括:

9.根据权利要求1所述的方法,其特征在于,所述目标文本中的文本片段、所述音效音频和所述语音音频之间存在对应关系,

10.根据权利要求9所述的方法,其特征在于,所述插入类型包括第一类型、第二类型和第三类型,所述第一类型对应将所述音效音频插入到所述语音音频之前,所述第二类型对应将所述音效音频插入到所述语音音频之后,所述第三类型对应使所述音效音频与所述语音音频的同步播放,

11.一种音频生成装置,其特征在于,包括:

12.根据权利要求11所述的装置,其特征在于,所述确定单元采用如下方式确定与所述目标文本中每个文本片段对应的音效...

【专利技术属性】
技术研发人员:何云超
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1