当前位置: 首页 > 专利查询>武汉大学专利>正文

音频处理方法、装置、计算机设备、存储介质及程序产品制造方法及图纸

技术编号:35456539 阅读:30 留言:0更新日期:2022-11-03 12:15
本申请公开了一种音频处理方法、装置、计算机设备、存储介质及程序产品,属于人工智能技术领域。该方法包括:对第一目标音频进行特征提取,得到第一目标特征图;基于第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,第一目标对象特征用于表征第一目标音频对应第一目标说话对象的对象信息,第一目标年龄特征用于表征第一目标说话对象的年龄信息;基于第一目标年龄特征,从第一目标对象特征中分离出第一目标身份特征,第一目标身份特征用于表征第一目标说话对象的身份信息,对象信息中至少包身份信息和年龄信息。该方法可以提取出不包含年龄信息的身份特征,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性。特征的提取准确性。特征的提取准确性。

【技术实现步骤摘要】
音频处理方法、装置、计算机设备、存储介质及程序产品


[0001]本申请涉及人工智能
,特别涉及一种音频处理方法、装置、计算机设备、存储介质及程序产品。

技术介绍

[0002]随着深度学习的快速发展,深度学习在各种领域中均得到了较大的应用和发展,比如,说话人识别领域,通过说话人识别模型识别音频中的说话人身份。
[0003]相关技术中,在进行说话人识别过程中,将不定长音频输入说话人识别模型,通过特征提取层、编码层和输出层,以提取出与说话人相关的信息的说话人特征向量,并将说话人特征向量输入说话人识别分类器中,用于识别该音频对应的说话人身份。
[0004]但是,随着说话人年龄的增长,同一说话人对应的说话人特征也随之发生改变,从而扩大了数据的类内差距,年龄因素也会影响到说话人身份的识别准确性。

技术实现思路

[0005]本申请提供了一种音频处理方法、装置、计算机设备、存储介质及程序产品。所述技术方案如下:
[0006]根据本申请的一个方面,提供了一种音频处理方法,所述方法包括:
[0007]对第一目标音频进行特征提取,得到第一目标特征图;
[0008]基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;
[0009]基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。
[0010]根据本申请的另一方面,提供了一种音频处理方法,所述方法包括:
[0011]通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;
[0012]通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;
[0013]基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;
[0014]基于所述样本身份特征进行身份识别,得到样本身份标签;
[0015]基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;
[0016]基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。
[0017]根据本申请的另一方面,提供了一种音频处理装置,所述装置包括:
[0018]特征提取模块,用于对第一目标音频进行特征提取,得到第一目标特征图;
[0019]特征编码模块,用于基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;
[0020]特征分离模块,用于基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。
[0021]根据本申请的另一方面,提供了一种音频处理装置,所述装置包括:
[0022]特征提取模块,用于通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;
[0023]特征编码模块,用于通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;
[0024]特征分离模块,用于基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;
[0025]身份识别模块,用于基于所述样本身份特征进行身份识别,得到样本身份标签;
[0026]年龄识别模块,用于基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;
[0027]训练模块,用于基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。
[0028]根据本申请的另一方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上述方面所述的音频处理方法。
[0029]根据本申请的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序由处理器加载并执行以实现如上所述的音频处理方法。
[0030]根据本申请的另一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频处理方法。
[0031]本申请实施例提供的技术方案带来的有益效果至少包括:
[0032]提供了一种说话对象识别方式:通过对说话对象的目标音频进行特征提取和特征编码,从目标音频中提取出说话对象对应的对象信息(对象特征)和说话对象的年龄信息(年龄特征),由于对象信息中包含有年龄信息和身份信息,因此,可以基于提取到的年龄特征,从对象特征中分离出身份特征,使得分离出的身份特征不具备年龄信息,避免了年龄信息对身份特征的影响,提高了身份特征的提取准确性;而且,在基于身份特征进行说话对象识别场景中,也可以避免年龄信息对同一说话对象识别准确性的影响,可以进一步提高说话对象的识别准确性。
附图说明
[0033]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是相关技术中说话对象的识别框架图;
[0035]图2是本申请一个示例性实施例示出的说话对象识别的过程示意图;
[0036]图3是本申请一个示例性实施例示出的计算机系统的示意图;
[0037]图4示出了本申请一个示例性实施例提供的音频处理方法的流程图;
[0038]图5示出了本申请另一个示例性实施例提供的音频处理方法的流程图;
[0039]图6示出了本申请一个示例性实施例示出的模型训练的过程示意图;
[0040]图7示出了本申请另一个示例性实施例提供的音频处理方法的流程图;
[0041]图8示出了本申请另一个示例性实施例示出的模型训练的过程示意图;
[0042]图9示出了本申请另一个示例性实施例示出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:对第一目标音频进行特征提取,得到第一目标特征图;基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息,所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息;基于所述第一目标年龄特征,从所述第一目标对象特征中分离出第一目标身份特征,所述第一目标身份特征用于表征所述第一目标说话对象的身份信息,所述对象信息中至少包含所述身份信息和所述年龄信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,包括:对所述第一目标特征图进行特征编码,得到所述第一目标对象特征;对所述第一目标特征图进行年龄特征提取,得到所述第一目标年龄特征。3.根据权利要求2所述的方法,其特征在于,所述对所述第一目标特征图进行年龄特征提取,得到所述第一目标年龄特征,包括:通过注意力机制层对所述第一目标特征图进行处理,得到第二目标特征图,所述第二目标特征图中年龄特征的注意力分数高于非年龄特征的注意力分数;通过池化层对所述第二目标特征图进行池化操作,得到中间目标特征;通过全连接层对所述中间样本特征进行特征映射处理,得到所述第一目标年龄特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标特征图进行特征编码,得到第一目标对象特征和第一目标年龄特征,包括:对所述第一目标特征图进行特征编码,得到所述第一目标对象特征;对所述第一目标对象特征进行年龄特征提取,得到所述第一目标年龄特征。5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:获取第二目标音频对应的第二目标身份特征,所述第二目标身份特征用于表征所述第二目标音频对应第二目标说话对象的身份信息;确定所述第一目标身份特征与所述第二目标身份特征之间的目标相似度;在所述目标相似度高于相似度阈值的情况下,确定所述第一目标说话对象与所述第二目标说话对象为同一说话对象;在所述目标相似度低于所述相似度阈值的情况下,确定所述第一目标说话对象与所述第二目标说话对象不是同一说话对象。6.根据权利要求5所述的方法,其特征在于,所述获取第二目标音频对应的第二目标身份特征,包括:对所述第二目标音频进行特征提取,得到第二目标特征图;基于所述第二目标特征图进行特征编码,得到第二目标对象特征和第二目标年龄特征,所述第二目标对象特征用于表征所述第二目标说话对象的对象信息,所述第二目标年龄特征用于表征所述第二目标说话对象的年龄信息;基于所述第二目标年龄特征,从所述第二目标对象特征中分离出所述第二目标身份特征。7.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
通过身份分类网络,确定所述第一目标身份特征与候选身份标签对应候选身份特征之间的特征相似度;将所述特征相似度最高的所述候选身份特征对应的所述候选身份标签,确定为目标身份标签,所述目标身份标签用于指示所述第一目标音频对应的所述第一目标说话对象。8.一种音频处理方法,其特征在于,所述方法包括:通过第一特征提取网络对样本音频进行特征提取,得到第一样本特征图;通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息,所述样本年龄特征用于表征所述样本说话对象的年龄信息;基于所述样本年龄特征,从所述样本对象特征中分离出样本身份特征;基于所述样本身份特征进行身份识别,得到样本身份标签;基于所述样本年龄特征进行年龄识别,得到第一样本年龄标签;基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签,训练所述第一特征提取网络和所述第二特征提取网络。9.根据权利要求8所述的方法,其特征在于,所述第二特征提取网络包括第一子特征提取网络和第二子特征提取网络;所述通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,包括:通过所述第一子特征提取网络对所述第一样本特征图进行特征编码,得到所述样本对象特征;通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取,得到所述样本年龄特征。10.根据权利要求9所述的方法,其特征在于,所述第二子特征提取网络包括注意力机制层、池化层和全连接层;所述通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取,得到所述样本年龄特征,包括:通过所述注意力机制层对所述第一样本特征图进行处理,得到第二样本特征图,所述第二样本特征图中年龄特征的注意力分数高于非年龄特征的注意力分数;通过所述池化层对所述第二样本特征图进行池化操作,得到中间样本特征;通过所述全连接层对所述中间样本特征进行特征映射处理,得到所述样本年龄特征。11.根据权利要求8所述的方法,其特征在于,所述第二特征提取网络包括第三子特征提取网络和第四子特征提取网络;所述通过第二特征提取网络对所述第一样本特征图进行特征编码,得到样本对象特征和样本年龄特征,包括:通过所述第三...

【专利技术属性】
技术研发人员:覃晓逸李娜翁超李明苏丹
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1