音频处理方法、装置、设备和存储介质制造方法及图纸

技术编号：37981931 阅读：18 留言：0更新日期：2023-06-30 09:56

本申请公开了一种音频处理方法、装置、设备和存储介质，属于人工智能技术领域。该音频处理方法包括：获取第一对象对应的第一音频和第二对象对应的对象信息；利用内容识别模型对第一音频进行音频内容提取，得到与第一音频对应的内容特征；利用音色识别模型对对象信息进行音色提取，得到与第二对象对应的音色特征；利用音色转换模型对内容特征和音色特征进行融合处理，得到具有音色特征的第二音频。得到具有音色特征的第二音频。得到具有音色特征的第二音频。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、设备和存储介质

[0001]本申请属于人工智能
，具体涉及一种音频处理方法、装置、设备和存储介质。

技术介绍

[0002]声音转换是一种近年来逐渐流行的、经常被应用在娱乐场景或配音场景的语音合成技术。声音转换通常包括音调转换和音色转换。
[0003]相关技术中，在进行音色转换时，通常只能将源音频转换成预先设置的特定音色的音频，无法转换为其他非特定音色的音频。

技术实现思路

[0004]本申请实施例的目的是提供一种音频处理方法、装置、设备和存储介质，能够将任意音频转换为其他任意非特定音色的音频。
[0005]第一方面，本申请实施例提供了一种音频处理方法，该方法包括：
[0006]获取第一对象对应的第一音频和第二对象对应的对象信息；
[0007]利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征；
[0008]利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征；
[0009]利用音色转...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：获取第一对象对应的第一音频和第二对象对应的对象信息；利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征；利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征；利用音色转换模型对所述内容特征和所述音色特征进行融合处理，得到具有所述音色特征的第二音频。2.根据权利要求1所述的方法，其特征在于，所述音色识别模型包括第一卷积层、第一线性层和第一激活函数层；所述利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征，包括：对所述对象信息进行特征提取，得到对象特征；将所述对象特征输入至所述第一卷积层，利用所述第一卷积层对所述对象特征进行信息提取，输出得到第一特征；将所述第一特征输入至所述第一线性层，利用所述第一线性层对所述第一特征进行线性变换，输出得到第二特征；将所述第二特征输入至所述第一激活函数层，利用所述第一激活函数层为所述第二特征添加非线性因素，输出得到第三特征；对所述第三特征进行正则化处理，得到与所述第二对象对应的音色特征。3.根据权利要求2所述的方法，其特征在于，在利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征之前，所述方法还包括：获取与N个第二样本对象分别对应的对象信息样本，其中，一个第二样本对象对应有M个对象信息样本，N和M均为大于1的整数；对所述对象信息样本进行特征提取，得到样本对象特征；利用初始音色识别模型从所述样本对象特征中提取音色信息，得到与所述N个第二样本对象中每个第二样本对象对应的M个预测音色特征；根据所述M个预测音色特征，确定与每个所述第二样本对象对应的中心特征；根据所述M个预测音色特征中每个预测音色特征分别与所述N个第二样本对象对应的N个中心特征之间的相似度，确定第一损失函数值；根据所述第一损失函数值调整所述初始音色识别模型的模型参数，训练得到所述音色识别模型。4.根据权利要求1所述的方法，其特征在于，所述音色识别模型包括第二卷积层、第一残差层和第二线性层；所述利用音色识别模型对所述对象信息进行音色提取，得到与所述第二对象对应的音色特征，包括：对所述对象信息进行特征提取，得到对象特征；将所述对象特征输入至所述第二卷积层，利用所述第二卷积层对所述对象特征进行信息提取，输出得到第四特征；
将所述对象特征输入至所述第一残差层，输出得到第五特征；将所述第五特征输入至所述第二线性层，利用所述第二线性层对所述第五特征进行线性变换，得到与所述第二对象对应的音色特征。5.根据权利要求4所述的方法，其特征在于，在利用内容识别模型对所述第一音频进行音频内容提取，得到与所述第一音频对应的内容特征之前，所述方法还包括：获取与L个第一样本对象分别对应的音频样本和样本对象标签，以及与N个第二样本对象分别对应的对象信息样本和样本对象标签，其中，L为大于1的整数，一个第一样本对象对应有M个音频样本，一个第二样本对象对应有M个对象信息样本；利用初始内容识别模型对所述音频样本进行音频内容提取，得到与所述音频样本对应的预测内容特征；利用初始音色识别模型对所述对象信息样本进行音色提取，得到与所述对象信息样本对应的预测音色特征；利用初始音色转换模型对所述预测内容特征和所述预测音色特征进行融合处理，得到具有所述预测音色特征的预测音频；利用对象分类模型对所述预测音频进行分类，确定与所述预测音频对应的预测样本对象；根据与所述预测样本对象对应的样本对象标签，以及与所述对象信息样本对应的样本对象标签，确定第二损失函数值；根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型，其中，所述目标损失函数值包括所述第二损失函数值。6.根据权利要求5所述的方法，其特征在于，在根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数，训练得...

【专利技术属性】
技术研发人员：唐晓敏，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人