音频处理方法、装置、计算机设备、存储介质及程序产品制造方法及图纸

技术编号：35456539 阅读：30 留言：0更新日期：2022-11-03 12:15

本申请公开了一种音频处理方法、装置、计算机设备、存储介质及程序产品，属于人工智能技术领域。该方法包括：对第一目标音频进行特征提取，得到第一目标特征图；基于第一目标特征图进行特征编码，得到第一目标对象特征和第一目标年龄特征，第一目标对象特征用于表征第一目标音频对应第一目标说话对象的对象信息，第一目标年龄特征用于表征第一目标说话对象的年龄信息；基于第一目标年龄特征，从第一目标对象特征中分离出第一目标身份特征，第一目标身份特征用于表征第一目标说话对象的身份信息，对象信息中至少包身份信息和年龄信息。该方法可以提取出不包含年龄信息的身份特征，避免了年龄信息对身份特征的影响，提高了身份特征的提取准确性。特征的提取准确性。特征的提取准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、计算机设备、存储介质及程序产品

[0001]本申请涉及人工智能
，特别涉及一种音频处理方法、装置、计算机设备、存储介质及程序产品。

技术介绍

[0002]随着深度学习的快速发展，深度学习在各种领域中均得到了较大的应用和发展，比如，说话人识别领域，通过说话人识别模型识别音频中的说话人身份。
[0003]相关技术中，在进行说话人识别过程中，将不定长音频输入说话人识别模型，通过特征提取层、编码层和输出层，以提取出与说话人相关的信息的说话人特征向量，并将说话人特征向量输入说话人识别分类器中，用于识别该音频对应的说话人身份。
[0004]但是，随着说话人年龄的增长，同一说话人对应的说话人特征也随之发生改变，从而扩大了数据的类内差距，年龄因素也会影响到说话人身份的识别准确性。

技术实现思路

[0005]本申请提供了一种音频处理方法、装置、计算机设备、存储介质及程序产品。所述技术方案如下：
[0006]根据本申请的一个方面，提供了一种音频处理方法，所述方法包括：
[0007]对第一目标音频进行特征提取，得到第一目标特征图；
[0008]基于所述第一目标特征图进行特征编码，得到第一目标对象特征和第一目标年龄特征，所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息，所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息；
[0009]基于所述第一目标年龄特征，从所述第一目标对象特征中分离出第一目标身份特征，所述第一目标...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括：对第一目标音频进行特征提取，得到第一目标特征图；基于所述第一目标特征图进行特征编码，得到第一目标对象特征和第一目标年龄特征，所述第一目标对象特征用于表征所述第一目标音频对应第一目标说话对象的对象信息，所述第一目标年龄特征用于表征所述第一目标说话对象的年龄信息；基于所述第一目标年龄特征，从所述第一目标对象特征中分离出第一目标身份特征，所述第一目标身份特征用于表征所述第一目标说话对象的身份信息，所述对象信息中至少包含所述身份信息和所述年龄信息。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一目标特征图进行特征编码，得到第一目标对象特征和第一目标年龄特征，包括：对所述第一目标特征图进行特征编码，得到所述第一目标对象特征；对所述第一目标特征图进行年龄特征提取，得到所述第一目标年龄特征。3.根据权利要求2所述的方法，其特征在于，所述对所述第一目标特征图进行年龄特征提取，得到所述第一目标年龄特征，包括：通过注意力机制层对所述第一目标特征图进行处理，得到第二目标特征图，所述第二目标特征图中年龄特征的注意力分数高于非年龄特征的注意力分数；通过池化层对所述第二目标特征图进行池化操作，得到中间目标特征；通过全连接层对所述中间样本特征进行特征映射处理，得到所述第一目标年龄特征。4.根据权利要求1所述的方法，其特征在于，所述基于所述第一目标特征图进行特征编码，得到第一目标对象特征和第一目标年龄特征，包括：对所述第一目标特征图进行特征编码，得到所述第一目标对象特征；对所述第一目标对象特征进行年龄特征提取，得到所述第一目标年龄特征。5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：获取第二目标音频对应的第二目标身份特征，所述第二目标身份特征用于表征所述第二目标音频对应第二目标说话对象的身份信息；确定所述第一目标身份特征与所述第二目标身份特征之间的目标相似度；在所述目标相似度高于相似度阈值的情况下，确定所述第一目标说话对象与所述第二目标说话对象为同一说话对象；在所述目标相似度低于所述相似度阈值的情况下，确定所述第一目标说话对象与所述第二目标说话对象不是同一说话对象。6.根据权利要求5所述的方法，其特征在于，所述获取第二目标音频对应的第二目标身份特征，包括：对所述第二目标音频进行特征提取，得到第二目标特征图；基于所述第二目标特征图进行特征编码，得到第二目标对象特征和第二目标年龄特征，所述第二目标对象特征用于表征所述第二目标说话对象的对象信息，所述第二目标年龄特征用于表征所述第二目标说话对象的年龄信息；基于所述第二目标年龄特征，从所述第二目标对象特征中分离出所述第二目标身份特征。7.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：
通过身份分类网络，确定所述第一目标身份特征与候选身份标签对应候选身份特征之间的特征相似度；将所述特征相似度最高的所述候选身份特征对应的所述候选身份标签，确定为目标身份标签，所述目标身份标签用于指示所述第一目标音频对应的所述第一目标说话对象。8.一种音频处理方法，其特征在于，所述方法包括：通过第一特征提取网络对样本音频进行特征提取，得到第一样本特征图；通过第二特征提取网络对所述第一样本特征图进行特征编码，得到样本对象特征和样本年龄特征，所述样本对象特征用于表征所述样本音频对应样本说话对象的对象信息，所述样本年龄特征用于表征所述样本说话对象的年龄信息；基于所述样本年龄特征，从所述样本对象特征中分离出样本身份特征；基于所述样本身份特征进行身份识别，得到样本身份标签；基于所述样本年龄特征进行年龄识别，得到第一样本年龄标签；基于所述样本身份标签、所述样本音频对应的标注身份标签、所述第一样本年龄标签以及所述样本音频对应的标注年龄标签，训练所述第一特征提取网络和所述第二特征提取网络。9.根据权利要求8所述的方法，其特征在于，所述第二特征提取网络包括第一子特征提取网络和第二子特征提取网络；所述通过第二特征提取网络对所述第一样本特征图进行特征编码，得到样本对象特征和样本年龄特征，包括：通过所述第一子特征提取网络对所述第一样本特征图进行特征编码，得到所述样本对象特征；通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取，得到所述样本年龄特征。10.根据权利要求9所述的方法，其特征在于，所述第二子特征提取网络包括注意力机制层、池化层和全连接层；所述通过所述第二子特征提取网络对所述第一样本特征图进行年龄特征提取，得到所述样本年龄特征，包括：通过所述注意力机制层对所述第一样本特征图进行处理，得到第二样本特征图，所述第二样本特征图中年龄特征的注意力分数高于非年龄特征的注意力分数；通过所述池化层对所述第二样本特征图进行池化操作，得到中间样本特征；通过所述全连接层对所述中间样本特征进行特征映射处理，得到所述样本年龄特征。11.根据权利要求8所述的方法，其特征在于，所述第二特征提取网络包括第三子特征提取网络和第四子特征提取网络；所述通过第二特征提取网络对所述第一样本特征图进行特征编码，得到样本对象特征和样本年龄特征，包括：通过所述第三...

【专利技术属性】
技术研发人员：覃晓逸，李娜，翁超，李明，苏丹，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人