音频处理方法、装置、设备和存储介质制造方法及图纸

技术编号:37981931 阅读:9 留言:0更新日期:2023-06-30 09:56
本申请公开了一种音频处理方法、装置、设备和存储介质,属于人工智能技术领域。该音频处理方法包括:获取第一对象对应的第一音频和第二对象对应的对象信息;利用内容识别模型对第一音频进行音频内容提取,得到与第一音频对应的内容特征;利用音色识别模型对对象信息进行音色提取,得到与第二对象对应的音色特征;利用音色转换模型对内容特征和音色特征进行融合处理,得到具有音色特征的第二音频。得到具有音色特征的第二音频。得到具有音色特征的第二音频。

【技术实现步骤摘要】
音频处理方法、装置、设备和存储介质


[0001]本申请属于人工智能
,具体涉及一种音频处理方法、装置、设备和存储介质。

技术介绍

[0002]声音转换是一种近年来逐渐流行的、经常被应用在娱乐场景或配音场景的语音合成技术。声音转换通常包括音调转换和音色转换。
[0003]相关技术中,在进行音色转换时,通常只能将源音频转换成预先设置的特定音色的音频,无法转换为其他非特定音色的音频。

技术实现思路

[0004]本申请实施例的目的是提供一种音频处理方法、装置、设备和存储介质,能够将任意音频转换为其他任意非特定音色的音频。
[0005]第一方面,本申请实施例提供了一种音频处理方法,该方法包括:
[0006]获取第一对象对应的第一音频和第二对象对应的对象信息;
[0007]利用内容识别模型对所述第一音频进行音频内容提取,得到与所述第一音频对应的内容特征;
[0008]利用音色识别模型对所述对象信息进行音色提取,得到与所述第二对象对应的音色特征;
[0009]利用音色转换模型对所述内容特征和所述音色特征进行融合处理,得到具有所述音色特征的第二音频。
[0010]第二方面,本申请实施例提供了一种音频处理装置,该装置包括:
[0011]信息获取模块,用于获取第一对象对应的第一音频和第二对象对应的对象信息;
[0012]内容提取模块,用于利用内容识别模型对所述第一音频进行音频内容提取,得到与所述第一音频对应的内容特征;
[0013]音色提取模块,用于利用音色识别模型对所述对象信息进行音色提取,得到与所述第二对象对应的音色特征;
[0014]融合处理模块,用于利用音色转换模型对所述内容特征和所述音色特征进行融合处理,得到具有所述音色特征的第二音频。
[0015]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0016]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0017]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方
法。
[0018]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0019]在本申请实施例中,通过在对第一对象对应的第一音频进行音色转换的过程中,对任意非特定的第二对象对应的对象信息进行音色提取,进而对第一音频提取得到的内容特征,与从第二对象的对象信息中提取得到的音色特征,进行融合处理,从而可以得到具有任意第二对象的音色特征的第二音频,实现了将任意音频转换为其他任意非特定音色的音频。
附图说明
[0020]图1是本申请一个实施例提供的音频处理方法的流程图;
[0021]图2是本申请实施例提供的音频处理方法所适应的模型架构示意图;
[0022]图3是本申请实施例提供的残差层的网络结构示意图;
[0023]图4是本申请实施例提供的基频特征提取模型的网络结构示意图;
[0024]图5是本申请实施例提供的对象分类模型的网络结构示意图;
[0025]图6是本申请一个实施例提供的音频处理装置的结构框图;
[0026]图7是本申请一个实施例提供的电子设备的结构框图;
[0027]图8为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0029]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0030]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法、装置、设备和存储介质进行详细地说明。
[0031]本申请所提供的音频处理方法,可以应用于音色转换场景中,下面结合图1

图5对本申请实施例提供的音频处理方法进行详细说明。需要说明的是,本申请实施例提供的音频处理方法,执行主体可以为音频处理装置。本申请实施例中以音频处理装置执行音频处理方法为例,说明本申请实施例提供的音频处理方法。
[0032]图1是本申请一个实施例提供的操控方法的流程图。
[0033]如图1所示,该音频处理方法可以包括步骤:S110

S140,下面进行具体说明。
[0034]S110,获取第一对象对应的第一音频和第二对象对应的对象信息。
[0035]本申请实施例中,第一对象和第二对象可以是人、动物、乐器等可以发出声音的任
意对象。例如,第一对象可以是A用户,第二对象可以是B用户。
[0036]第一音频可以是与第一对象对应的需要进行音色转换的音频,其中,第一音频的获取方式可以包括使用麦克风录音的方式在线获取,从用户由本地或云端上传的文件中获取,或者从用户输入的互联网上音频文件地址链接中获取等,在此不作限定。
[0037]对象信息可以是与第二对象对应的用于提取音色的信息,具体可以包括音频信息、图像信息等能够代表第二对象特征的信息,例如录制第二对象的声音得到的音频信息,或者拍摄第二对象的面部图像得到的图像信息等。其中,对象信息的获取方式可以包括使用麦克风录音或摄像头拍摄的方式在线获取,从用户由本地或云端上传的文件中获取,或者从用户输入的互联网上文件地址链接中获取等,在此不作限定。
[0038]S120,利用内容识别模型对第一音频进行音频内容提取,得到与第一音频对应的内容特征。
[0039]这里,内容识别模型可以是用于提取音频内容的模型,该内容识别模型可以是经训练的神经网络模型。其中,音频内容可以包括文本内容、基频内容、音调内容等描述音频内容的信息,相应地,得到的内容特征可以包括基频特征、文本特征等描述音频内容的特征。
[0040]示例性地,在获取到第一对象对应的第一音频后,可对第一音频对应的音频波形信号进行预处理,再将预处理后得到的特征信息输入至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取第一对象对应的第一音频和第二对象对应的对象信息;利用内容识别模型对所述第一音频进行音频内容提取,得到与所述第一音频对应的内容特征;利用音色识别模型对所述对象信息进行音色提取,得到与所述第二对象对应的音色特征;利用音色转换模型对所述内容特征和所述音色特征进行融合处理,得到具有所述音色特征的第二音频。2.根据权利要求1所述的方法,其特征在于,所述音色识别模型包括第一卷积层、第一线性层和第一激活函数层;所述利用音色识别模型对所述对象信息进行音色提取,得到与所述第二对象对应的音色特征,包括:对所述对象信息进行特征提取,得到对象特征;将所述对象特征输入至所述第一卷积层,利用所述第一卷积层对所述对象特征进行信息提取,输出得到第一特征;将所述第一特征输入至所述第一线性层,利用所述第一线性层对所述第一特征进行线性变换,输出得到第二特征;将所述第二特征输入至所述第一激活函数层,利用所述第一激活函数层为所述第二特征添加非线性因素,输出得到第三特征;对所述第三特征进行正则化处理,得到与所述第二对象对应的音色特征。3.根据权利要求2所述的方法,其特征在于,在利用音色识别模型对所述对象信息进行音色提取,得到与所述第二对象对应的音色特征之前,所述方法还包括:获取与N个第二样本对象分别对应的对象信息样本,其中,一个第二样本对象对应有M个对象信息样本,N和M均为大于1的整数;对所述对象信息样本进行特征提取,得到样本对象特征;利用初始音色识别模型从所述样本对象特征中提取音色信息,得到与所述N个第二样本对象中每个第二样本对象对应的M个预测音色特征;根据所述M个预测音色特征,确定与每个所述第二样本对象对应的中心特征;根据所述M个预测音色特征中每个预测音色特征分别与所述N个第二样本对象对应的N个中心特征之间的相似度,确定第一损失函数值;根据所述第一损失函数值调整所述初始音色识别模型的模型参数,训练得到所述音色识别模型。4.根据权利要求1所述的方法,其特征在于,所述音色识别模型包括第二卷积层、第一残差层和第二线性层;所述利用音色识别模型对所述对象信息进行音色提取,得到与所述第二对象对应的音色特征,包括:对所述对象信息进行特征提取,得到对象特征;将所述对象特征输入至所述第二卷积层,利用所述第二卷积层对所述对象特征进行信息提取,输出得到第四特征;
将所述对象特征输入至所述第一残差层,输出得到第五特征;将所述第五特征输入至所述第二线性层,利用所述第二线性层对所述第五特征进行线性变换,得到与所述第二对象对应的音色特征。5.根据权利要求4所述的方法,其特征在于,在利用内容识别模型对所述第一音频进行音频内容提取,得到与所述第一音频对应的内容特征之前,所述方法还包括:获取与L个第一样本对象分别对应的音频样本和样本对象标签,以及与N个第二样本对象分别对应的对象信息样本和样本对象标签,其中,L为大于1的整数,一个第一样本对象对应有M个音频样本,一个第二样本对象对应有M个对象信息样本;利用初始内容识别模型对所述音频样本进行音频内容提取,得到与所述音频样本对应的预测内容特征;利用初始音色识别模型对所述对象信息样本进行音色提取,得到与所述对象信息样本对应的预测音色特征;利用初始音色转换模型对所述预测内容特征和所述预测音色特征进行融合处理,得到具有所述预测音色特征的预测音频;利用对象分类模型对所述预测音频进行分类,确定与所述预测音频对应的预测样本对象;根据与所述预测样本对象对应的样本对象标签,以及与所述对象信息样本对应的样本对象标签,确定第二损失函数值;根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数,训练得到所述内容识别模型、所述音色识别模型和所述音色转换模型,其中,所述目标损失函数值包括所述第二损失函数值。6.根据权利要求5所述的方法,其特征在于,在根据目标损失函数值调整所述初始内容识别模型、所述初始音色识别模型和所述初始音色转换模型的模型参数,训练得...

【专利技术属性】
技术研发人员:唐晓敏
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1