基于人工智能的音频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:31501533 阅读:15 留言:0更新日期:2021-12-22 23:19
本申请提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术;方法包括:对目标对象的多个音频数据进行采样处理,得到目标对象的参考音频数据;对目标对象的参考音频数据进行音频编码处理,得到参考音频数据的参考嵌入向量;对参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到目标对象的音色嵌入向量;对目标文本进行文本编码处理,得到目标文本的内容嵌入向量;基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理,得到符合目标对象的音色且与目标文本对应的音频数据。通过本申请,能够提高音频合成的稳定性。能够提高音频合成的稳定性。能够提高音频合成的稳定性。

【技术实现步骤摘要】
基于人工智能的音频生成方法、装置、设备及存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]相关技术中对于音频的合成方式比较粗糙,通常是直接对目标对象的音频数据进行特征提取,并基于提取到的目标对象的嵌入向量进行合成,以得到合成的音频数据,这种合成方式无法实现音频的精准合成,从而影响用户体验正常的音频合成。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质,能够提高音频合成的准确性。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种基于人工智能的音频生成方法,包括:
[0007]对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;
[0008]对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;
[0009]对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;
[0010]对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;
[0011]基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
[0012]本申请实施例提供一种基于人工智能的音频生成装置,包括:
[0013]采样模块,用于对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;
[0014]音频编码模块,用于对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;
[0015]注意力模块,用于对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;
[0016]文本编码模块,用于对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;
[0017]合成模块,用于基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
[0018]上述技术方案中,所述注意力模块还用于对所述参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到多个所述对象音色的权重;
[0019]基于多个所述对象音色的权重,对多个所述对象音色的嵌入向量进行加权求和处理,得到所述目标对象的音色嵌入向量。
[0020]上述技术方案中,所述音频编码模块还用于对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量;
[0021]对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量。
[0022]上述技术方案中,所述音频编码是通过参考编码器实现的,所述参考编码器包括多个级联的卷积层;所述音频编码模块还用于通过所述多个级联的卷积层中的第一个卷积层,对所述目标对象的参考音频数据进行卷积处理;
[0023]将所述第一个卷积层的卷积结果输出到后续级联的卷积层,以在所述后续级联的卷积层中继续进行卷积处理和卷积结果输出,直至输出到最后一个卷积层,并
[0024]将所述最后一个卷积层输出的卷积结果作为所述参考音频数据的卷积嵌入向量。
[0025]上述技术方案中,所述音频编码是通过参考编码器实现的,所述参考编码器包括循环神经网络;所述音频编码模块还用于基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息;
[0026]基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量重置处理,得到所述参考音频数据的重置信息;
[0027]基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量。
[0028]上述技术方案中,所述音频编码模块还用于对所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行拼接处理,得到拼接向量;
[0029]对所述拼接向量进行基于更新门的映射处理,得到所述参考音频数据的更新信息。
[0030]上述技术方案中,所述音频编码模块还用于基于所述目标对象的重置信息、所述循环神经网络的隐藏向量以及所述目标对象的卷积嵌入向量进行基于候选向量的映射处理,得到所述参考音频数据的候选嵌入向量;
[0031]基于所述目标对象的更新信息、所述循环神经网络的隐藏向量以及所述参考音频数据的候选嵌入向量进行向量映射处理,得到所述参考音频数据的参考嵌入向量。
[0032]上述技术方案中,所述合成模块还用于对所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行对齐处理,得到所述目标文本的对齐向量;
[0033]基于所述目标文本的对齐向量进行解码处理,得到所述目标文本的声学特征序列;
[0034]对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
[0035]上述技术方案中,所述合成模块还用于对所述声学特征序列进行平滑处理,得到对应的频谱数据;
[0036]对所述对应的频谱数据进行傅里叶变换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。
[0037]上述技术方案中,所述音频生成方法是通过调用神经网络模型实现的;所述装置还包括:
[0038]训练模块,用于通过初始化的所述神经网络模型对对象样本的参考音频数据进行基于音色的注意力处理,得到所述对象样本的音色嵌入向量;
[0039]基于所述对象样本的音色嵌入向量进行对象预测处理,得到所述参考音频数据的预测对象;基于所述参考音频数据的预测对象以及所述对象样本的对象标签,构建所述神经网络模型的第一损失函数;
[0040]基于所述第一损失函数更新所述神经网络模型的参数,将所述神经网络模型的更新的参数作为训练后的所述神经网络模型的参数。
[0041]上述技术方案中,所述训练模块还用于通过初始化的所述神经网络模型执行以下处理至少之一:
[0042]对文本样本进行文本编码处理,得到所述文本样本的内容嵌入向量,并基于所述文本样本的内容嵌入向量构建所述神经网络模型的第二损失函数;
[0043]基于所述对象样本的音色嵌入向量以及所述文本样本的内容嵌入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的音频生成方法,其特征在于,所述方法包括:对目标对象的多个音频数据进行采样处理,得到所述目标对象的参考音频数据;对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量;对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量;对目标文本进行文本编码处理,得到所述目标文本的内容嵌入向量;基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。2.根据权利要求1所述的方法,其特征在于,所述对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理,得到所述目标对象的音色嵌入向量,包括:对所述参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理,得到多个所述对象音色的权重;基于多个所述对象音色的权重,对多个所述对象音色的嵌入向量进行加权求和处理,得到所述目标对象的音色嵌入向量。3.根据权利要求1所述的方法,其特征在于,所述对所述目标对象的参考音频数据进行音频编码处理,得到所述参考音频数据的参考嵌入向量,包括:对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量;对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量。4.根据权利要求3所述的方法,其特征在于,所述音频编码是通过参考编码器实现的,所述参考编码器包括多个级联的卷积层;所述对所述目标对象的参考音频数据进行卷积处理,得到所述参考音频数据的卷积嵌入向量,包括:通过所述多个级联的卷积层中的第一个卷积层,对所述目标对象的参考音频数据进行卷积处理;将所述第一个卷积层的卷积结果输出到后续级联的卷积层,以在所述后续级联的卷积层中继续进行卷积处理和卷积结果输出,直至输出到最后一个卷积层,并将所述最后一个卷积层输出的卷积结果作为所述参考音频数据的卷积嵌入向量。5.根据权利要求3所述的方法,其特征在于,所述音频编码是通过参考编码器实现的,所述参考编码器包括循环神经网络;所述对所述参考音频数据的卷积嵌入向量进行前向编码处理,得到所述参考音频数据的参考嵌入向量,包括:基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息;基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量重置处理,得到所述参考音频数据的重置信息;基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音
频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量。6.根据权利要求5所述的方法,其特征在于,所述基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理,得到所述参考音频数据的更新信息,包括:对所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行拼接处理,得到拼接向量;对所述拼接向量进行基于更新门的映射处理,得到所述参考音频数据的更新信息。7.根据权利要求5所述的方法,其特征在于,所述基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息,对所述参考音频数据的卷积嵌入向量进行上下文编码处理,得到所述参考音频数据的参考嵌入向量,包括:基于所述目标对象的重置信息、所述循环神经网络的隐藏向量以及所述目标对象的卷积嵌入向量进行基于候选向量的映射处理,得到所述参考音频数据的候选嵌入向量;基于所述目标对象的更新信息、所述循环神经网络的隐藏向量以及所述参考音频数据的候选嵌入向量进行向量映射处理,得到所述参考音频数据的参考嵌入向量。8.根据权利要求1所述的方法,其特征在于,所述基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理,得到符合所述目标对象的音色且与所述目标文本对应的音频数据,包括:对所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行对齐处理,得到所述目标文本的对齐向量;基于所述目标文本的对齐向量进行解码处理,得到所述目标文本的声学特征序列;对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据。9.根据权利要求8所述的方法,其特征在于,所述对所述声学特征序列进行声学特征转换,得到符合所述目标对象的音色且与所述目标文本对应的音频数据,包括:对所...

【专利技术属性】
技术研发人员:郑艺斌李新辉苏文超卢鲤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1