一种音频生成方法及装置制造方法及图纸

技术编号：35191846 阅读：19 留言：0更新日期：2022-10-12 18:12

本申请实施例提供一种音频生成方法及装置，方法包括获取第一话术集，基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，在预设的录制环境下对第二话术集进行录制，得到初始音频数据集。将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集。本申请能够基于目标业务场景生成第二话术集，使得第二话术集中的话术语料与目标业务场景相贴合。还可以在预设的录制环境下对第二话术集进行录制，可以保证录制效果。此外，能够基于初始音频数据集和公开数据集共同生成目标音频数据集，该目标音频数据集应用至语音合成模型训练过程中可以保证训练的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频生成方法及装置

[0001]本申请涉及语音合成
，尤其涉及一种音频生成方法及装置。

技术介绍

[0002]语音合成是一种产生人造语音的技术，例如基于语音合成得到用于营销的语音。随着人工智能的飞速发展，对语音合成(speech synthesis)技术提出了更高的要求。
[0003]目前，语音合成任务一般通过已知语音数据集对语音合成模型进行训练，已知语音数据集是一种公开的数据集，例如aishell
‑
3、标贝数据的等。已知语音数据集的生成过程包括确定话术，发声者基于话术发出声音，以及录制发声者发出的声音等。
[0004]然而，用于生成已知语音数据集的话术具有一定的随机性，且话术内容单一，与真实的业务场景相关度较低，因此，基于已知语音数据集训练而得的语音合成模型，通常质量不高，并且不能针对实际业务场景生成特定的话术。

技术实现思路

[0005]本申请实施例提供一种音频生成方法及装置，以解决传统音频数据用于训练语音合成模型时，语音合成模型不能针对实际的业务场景生成特定的话术的问题。
[0006]第一方面，本申请实施例提供一种音频生成方法，该方法包括：获取第一话术集，第一话术集包括多个话术语料，话术语料包括第一话术语料和第二话术语料，第一话术语料是从目标业务场景中采集得到的，第二话术语料是由句子成分不同的多个语言要素组合而成的；基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，目标语料的顺滑度大于预设...

【技术保护点】

【技术特征摘要】
1.一种音频生成方法，其特征在于，所述方法包括：获取第一话术集，所述第一话术集包括多个话术语料，所述话术语料包括第一话术语料和第二话术语料，所述第一话术语料是从目标业务场景中采集得到的，所述第二话术语料是由句子成分不同的多个语言要素组合而成的；基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含所述目标语料的第二话术集，所述目标语料的顺滑度大于预设阈值；在预设的录制环境下对所述第二话术集进行录制，得到初始音频数据集，所述初始音频数据集中包括所述第二话术集中每个话术语料对应的音频数据；将所述初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集；所述归一化处理用于将所述初始音频数据集与所述公开数据集的振幅调整至预设范围内。2.根据权利要求1所述的音频生成方法，其特征在于，所述将所述初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集，包括：将所述初始音频数据集和所述公开数据集转换为矩阵形式，得到第一矩阵；确定所述第一矩阵的多个矩阵参数，所述矩阵参数包括所述第一矩阵的中位值、平均值和/或众数；利用每个所述矩阵参数，分别对第一部分音频数据进行归一化处理，得到每个所述矩阵参数对应的归一化结果；所述第一部分音频数据包括所述初始音频数据集中的部分数据和所述公开数据集中的部分数据；基于各个所述矩阵参数对应的所述归一化结果的试听效果，从所述多个矩阵参数中确定归一化参数，所述归一化参数为最优的试听效果对应的所述矩阵参数；利用所述归一化参数对所述初始音频数据集和所述公开数据集进行归一化处理，得到所述目标音频数据集。3.根据权利要求1所述的音频生成方法，其特征在于，所述基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含所述目标语料的第二话术集，包括：将所述第一话术集中的话术语料输入至预设的语言模型，得到各个所述话术语料的概率值，所述概率值用于表示所述话术语料的顺滑程度；将所述概率值大于预设阈值的所述话术语料确定为所述目标语料。4.根据权利要求1所述的音频生成方法，其特征在于，还包括：按照预设抽查比例，对所述第二话术集中的所述目标语料进行随机抽取；如果抽取到的所述目标语料包含预设语法缺陷，将抽取到的所述目标语料从所述第二话术集中去除，并再次进行随机抽取；如果连续N次抽取到的所述目标语料均不包含预设语法缺陷...

【专利技术属性】
技术研发人员：赵言，樊冯飞，姚树杰，
申请(专利权)人：鼎富新动力北京智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人