一种音频生成方法及装置制造方法及图纸

技术编号:35191846 阅读:19 留言:0更新日期:2022-10-12 18:12
本申请实施例提供一种音频生成方法及装置,方法包括获取第一话术集,基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含目标语料的第二话术集,在预设的录制环境下对第二话术集进行录制,得到初始音频数据集。将初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集。本申请能够基于目标业务场景生成第二话术集,使得第二话术集中的话术语料与目标业务场景相贴合。还可以在预设的录制环境下对第二话术集进行录制,可以保证录制效果。此外,能够基于初始音频数据集和公开数据集共同生成目标音频数据集,该目标音频数据集应用至语音合成模型训练过程中可以保证训练的准确性。性。性。

【技术实现步骤摘要】
一种音频生成方法及装置


[0001]本申请涉及语音合成
,尤其涉及一种音频生成方法及装置。

技术介绍

[0002]语音合成是一种产生人造语音的技术,例如基于语音合成得到用于营销的语音。随着人工智能的飞速发展,对语音合成(speech synthesis)技术提出了更高的要求。
[0003]目前,语音合成任务一般通过已知语音数据集对语音合成模型进行训练,已知语音数据集是一种公开的数据集,例如aishell

3、标贝数据的等。已知语音数据集的生成过程包括确定话术,发声者基于话术发出声音,以及录制发声者发出的声音等。
[0004]然而,用于生成已知语音数据集的话术具有一定的随机性,且话术内容单一,与真实的业务场景相关度较低,因此,基于已知语音数据集训练而得的语音合成模型,通常质量不高,并且不能针对实际业务场景生成特定的话术。

技术实现思路

[0005]本申请实施例提供一种音频生成方法及装置,以解决传统音频数据用于训练语音合成模型时,语音合成模型不能针对实际的业务场景生成特定的话术的问题。
[0006]第一方面,本申请实施例提供一种音频生成方法,该方法包括:获取第一话术集,第一话术集包括多个话术语料,话术语料包括第一话术语料和第二话术语料,第一话术语料是从目标业务场景中采集得到的,第二话术语料是由句子成分不同的多个语言要素组合而成的;基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含目标语料的第二话术集,目标语料的顺滑度大于预设阈值;在预设的录制环境下对第二话术集进行录制,得到初始音频数据集,初始音频数据集中包括第二话术集中每个话术语料对应的音频数据;将初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集;归一化处理用于将初始音频数据集与公开数据集的振幅调整至预设范围内。
[0007]在一种可实现的方式中,将初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集,包括:将初始音频数据集和公开数据集转换为矩阵形式,得到第一矩阵;确定第一矩阵的多个矩阵参数,矩阵参数包括第一矩阵的中位值、平均值和/或众数;利用每个矩阵参数,分别对第一部分音频数据进行归一化处理,得到每个矩阵参数对应的归一化结果;第一部分音频数据包括初始音频数据集中的部分数据和公开数据集中的部分数据;基于各个矩阵参数对应的归一化结果的试听效果,从多个矩阵参数中确定归一化参数,归一化参数为最优的试听效果对应的矩阵参数;利用归一化参数对初始音频数据集和公开数据集进行归一化处理,得到目标音频数据集。
[0008]在一种可实现的方式中,基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含目标语料的第二话术集,包括:将第一话术集中的话术语料输入至预设的语言模型,得到各个话术语料的概率值,概率值用于表示话术语料的
顺滑程度;将概率值大于预设阈值的话术语料确定为目标语料。
[0009]在一种可实现的方式中,还包括:按照预设抽查比例,对第二话术集中的目标语料进行随机抽取;如果抽取到的目标语料包含预设语法缺陷,将抽取到的目标语料从第二话术集中去除,并再次进行随机抽取;如果连续N次抽取到的目标语料均不包含预设语法缺陷,则结束抽取。
[0010]在一种可实现的方式中,第二话术语料通过以下步骤得到:确定多个第一候选集,第一候选集包括句子成分对应的多个语言要素,不同第一候选集中的语言要素的句子成分不同,语言要素是基于从目标业务场景中采集的话术语料确定的;从多个第一候选集中抽取一个或多个句子成分对应的语言要素;将抽取到的语言要素进行组合,得到第二话术语料。
[0011]在一种可实现的方式中,第二话术语料通过以下步骤得到:获取第二候选集,第二候选集包括预先设置的多个第一话术样本,以及基于业务场景采集的话术语料确定的多个第二话术样本;从第二候选集中抽取至少一个第一话术样本和至少一个第二话术样本;将抽取到的至少一个第一话术样本和至少一个第二话术样本进行组合,得到第二话术语料。
[0012]在一种可实现的方式中,还包括:在对第二话术集进行录制之前,确定初始音频数据集的录制格式,录制格式包括声道个数和/或采样率。
[0013]在一种可实现的方式中,预设的语言模型为n

gram模型。
[0014]在一种可实现的方式中,在预设的录制环境下对第二话术集进行录制,包括:由特定发声者在预设的录制环境下对第二话术集进行录制。
[0015]第二方面,本申请实施例提供一种音频生成装置,该装置包括:获取模块,用于获取第一话术集,第一话术集包括多个话术语料,话术语料包括第一话术语料和第二话术语料,第一话术语料是从目标业务场景中采集的,第二话术语料是由句子成分不同的多个语言要素组合而成的;顺滑度检查模块,用于基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含目标语料的第二话术集,目标语料的顺滑度大于预设阈值;录制模块,用于在预设的录制环境下对第二话术集进行录制,得到初始音频数据集,初始音频数据集中包括第二话术集中每个话术语料对应的音频数据;归一化模块,用于将初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集;归一化处理用于将初始音频数据集与公开数据集的振幅调整至预设范围内。
[0016]由以上技术方案可知,本申请实施例提供一种音频生成方法及装置,方法包括获取第一话术集,基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含目标语料的第二话术集,在预设的录制环境下对第二话术集进行录制,得到初始音频数据集。将初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集。本申请能够基于目标业务场景生成第二话术集,使得第二话术集中的话术语料与目标业务场景相贴合。还可以在预设的录制环境下对第二话术集进行录制,可以保证录制效果。此外,能够基于初始音频数据集和公开数据集共同生成目标音频数据集,该目标音频数据集应用至语音合成模型训练过程中可以保证训练的准确性。
附图说明
[0017]图1为本申请实施例提供的音频生成方法的流程示意图;
[0018]图2为本申请实施例提供的确定第二话术语料的流程示意图;
[0019]图3为本申请实施例提供的确定第二话术语料的又一流程示意图;
[0020]图4为本申请实施例提供的顺滑度检查的流程示意图;
[0021]图5为本申请实施例提供的对第二话术集随机抽取的流程示意图;
[0022]图6为本申请实施例提供的进行归一化处理的流程示意图;
[0023]图7为本申请实施例提供的音频生成装置的结构示意图。
具体实施方式
[0024]为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频生成方法,其特征在于,所述方法包括:获取第一话术集,所述第一话术集包括多个话术语料,所述话术语料包括第一话术语料和第二话术语料,所述第一话术语料是从目标业务场景中采集得到的,所述第二话术语料是由句子成分不同的多个语言要素组合而成的;基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含所述目标语料的第二话术集,所述目标语料的顺滑度大于预设阈值;在预设的录制环境下对所述第二话术集进行录制,得到初始音频数据集,所述初始音频数据集中包括所述第二话术集中每个话术语料对应的音频数据;将所述初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集;所述归一化处理用于将所述初始音频数据集与所述公开数据集的振幅调整至预设范围内。2.根据权利要求1所述的音频生成方法,其特征在于,所述将所述初始音频数据集与预设的公开数据集进行归一化处理,得到目标音频数据集,包括:将所述初始音频数据集和所述公开数据集转换为矩阵形式,得到第一矩阵;确定所述第一矩阵的多个矩阵参数,所述矩阵参数包括所述第一矩阵的中位值、平均值和/或众数;利用每个所述矩阵参数,分别对第一部分音频数据进行归一化处理,得到每个所述矩阵参数对应的归一化结果;所述第一部分音频数据包括所述初始音频数据集中的部分数据和所述公开数据集中的部分数据;基于各个所述矩阵参数对应的所述归一化结果的试听效果,从所述多个矩阵参数中确定归一化参数,所述归一化参数为最优的试听效果对应的所述矩阵参数;利用所述归一化参数对所述初始音频数据集和所述公开数据集进行归一化处理,得到所述目标音频数据集。3.根据权利要求1所述的音频生成方法,其特征在于,所述基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查,确定目标语料,并生成包含所述目标语料的第二话术集,包括:将所述第一话术集中的话术语料输入至预设的语言模型,得到各个所述话术语料的概率值,所述概率值用于表示所述话术语料的顺滑程度;将所述概率值大于预设阈值的所述话术语料确定为所述目标语料。4.根据权利要求1所述的音频生成方法,其特征在于,还包括:按照预设抽查比例,对所述第二话术集中的所述目标语料进行随机抽取;如果抽取到的所述目标语料包含预设语法缺陷,将抽取到的所述目标语料从所述第二话术集中去除,并再次进行随机抽取;如果连续N次抽取到的所述目标语料均不包含预设语法缺陷...

【专利技术属性】
技术研发人员:赵言樊冯飞姚树杰
申请(专利权)人:鼎富新动力北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1