基于人工智能的音频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：31501533 阅读：15 留言：0更新日期：2021-12-22 23:19

本申请提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术；方法包括：对目标对象的多个音频数据进行采样处理，得到目标对象的参考音频数据；对目标对象的参考音频数据进行音频编码处理，得到参考音频数据的参考嵌入向量；对参考音频数据的参考嵌入向量进行基于音色的注意力处理，得到目标对象的音色嵌入向量；对目标文本进行文本编码处理，得到目标文本的内容嵌入向量；基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理，得到符合目标对象的音色且与目标文本对应的音频数据。通过本申请，能够提高音频合成的稳定性。能够提高音频合成的稳定性。能够提高音频合成的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的音频生成方法、装置、设备及存储介质

[0001]本申请涉及人工智能技术，尤其涉及一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
[0003]相关技术中对于音频的合成方式比较粗糙，通常是直接对目标对象的音频数据进行特征提取，并基于提取到的目标对象的嵌入向量进行合成，以得到合成的音频数据，这种合成方式无法实现音频的精准合成，从而影响用户体验正常的音频合成。

技术实现思路

[0004]本申请实施例提供一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质，能够提高音频合成的准确性。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种基于人工智能的音频生成方法，包括：
[0007]对目标对象的多个音频数据进行采样处理，得到所述目标对象的参考音频数据；
[0008]对所述目标对象的参考音频数据进行音频编码处理，得到所述参考音频数据的参考嵌入向量；
[0009]对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理，得到所述目标...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的音频生成方法，其特征在于，所述方法包括：对目标对象的多个音频数据进行采样处理，得到所述目标对象的参考音频数据；对所述目标对象的参考音频数据进行音频编码处理，得到所述参考音频数据的参考嵌入向量；对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理，得到所述目标对象的音色嵌入向量；对目标文本进行文本编码处理，得到所述目标文本的内容嵌入向量；基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理，得到符合所述目标对象的音色且与所述目标文本对应的音频数据。2.根据权利要求1所述的方法，其特征在于，所述对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理，得到所述目标对象的音色嵌入向量，包括：对所述参考音频数据的参考嵌入向量进行基于对象音色的嵌入空间的映射处理，得到多个所述对象音色的权重；基于多个所述对象音色的权重，对多个所述对象音色的嵌入向量进行加权求和处理，得到所述目标对象的音色嵌入向量。3.根据权利要求1所述的方法，其特征在于，所述对所述目标对象的参考音频数据进行音频编码处理，得到所述参考音频数据的参考嵌入向量，包括：对所述目标对象的参考音频数据进行卷积处理，得到所述参考音频数据的卷积嵌入向量；对所述参考音频数据的卷积嵌入向量进行前向编码处理，得到所述参考音频数据的参考嵌入向量。4.根据权利要求3所述的方法，其特征在于，所述音频编码是通过参考编码器实现的，所述参考编码器包括多个级联的卷积层；所述对所述目标对象的参考音频数据进行卷积处理，得到所述参考音频数据的卷积嵌入向量，包括：通过所述多个级联的卷积层中的第一个卷积层，对所述目标对象的参考音频数据进行卷积处理；将所述第一个卷积层的卷积结果输出到后续级联的卷积层，以在所述后续级联的卷积层中继续进行卷积处理和卷积结果输出，直至输出到最后一个卷积层，并将所述最后一个卷积层输出的卷积结果作为所述参考音频数据的卷积嵌入向量。5.根据权利要求3所述的方法，其特征在于，所述音频编码是通过参考编码器实现的，所述参考编码器包括循环神经网络；所述对所述参考音频数据的卷积嵌入向量进行前向编码处理，得到所述参考音频数据的参考嵌入向量，包括：基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理，得到所述参考音频数据的更新信息；基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量重置处理，得到所述参考音频数据的重置信息；基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息，对所述参考音
频数据的卷积嵌入向量进行上下文编码处理，得到所述参考音频数据的参考嵌入向量。6.根据权利要求5所述的方法，其特征在于，所述基于所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行向量更新处理，得到所述参考音频数据的更新信息，包括：对所述循环神经网络的隐藏向量以及所述参考音频数据的卷积嵌入向量进行拼接处理，得到拼接向量；对所述拼接向量进行基于更新门的映射处理，得到所述参考音频数据的更新信息。7.根据权利要求5所述的方法，其特征在于，所述基于所述参考音频数据的更新信息以及所述参考音频数据的重置信息，对所述参考音频数据的卷积嵌入向量进行上下文编码处理，得到所述参考音频数据的参考嵌入向量，包括：基于所述目标对象的重置信息、所述循环神经网络的隐藏向量以及所述目标对象的卷积嵌入向量进行基于候选向量的映射处理，得到所述参考音频数据的候选嵌入向量；基于所述目标对象的更新信息、所述循环神经网络的隐藏向量以及所述参考音频数据的候选嵌入向量进行向量映射处理，得到所述参考音频数据的参考嵌入向量。8.根据权利要求1所述的方法，其特征在于，所述基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理，得到符合所述目标对象的音色且与所述目标文本对应的音频数据，包括：对所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行对齐处理，得到所述目标文本的对齐向量；基于所述目标文本的对齐向量进行解码处理，得到所述目标文本的声学特征序列；对所述声学特征序列进行声学特征转换，得到符合所述目标对象的音色且与所述目标文本对应的音频数据。9.根据权利要求8所述的方法，其特征在于，所述对所述声学特征序列进行声学特征转换，得到符合所述目标对象的音色且与所述目标文本对应的音频数据，包括：对所...

【专利技术属性】
技术研发人员：郑艺斌，李新辉，苏文超，卢鲤，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人