音频处理方法、设备和计算机程序产品技术

技术编号：33730501 阅读：40 留言：0更新日期：2022-06-08 21:25

本申请涉及音频处理技术领域，提供了一种音频处理方法、计算机设备和计算机程序产品。本申请能够提高对音频中说话人属性信息的识别效率及准确性。该方法包括：针对待处理音频中每一帧提取各自对应的初级特征得到多个第一音频帧特征，通过说话人特征提取网络中特征提取层进一步获取多个第一音频帧特征分别对应的多个高级的第二音频帧特征，通过说话人特征提取网络中池化层将多个第二音频帧特征统一转化为待处理音频的音频特征，以将帧级别特征统一转化为音频级别特征且其能表征音频中说话人身份特性，将该音频特征同时输入到多个说话人属性分类器，根据各说话人属性分类器分别输出的分类标签同时得到待处理音频中说话人在多种属性下的分类结果。人在多种属性下的分类结果。人在多种属性下的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、设备和计算机程序产品

[0001]本申请涉及音频处理
，特别是涉及一种音频处理方法、计算机设备和计算机程序产品。

技术介绍

[0002]随着互联网技术的发展，各类音频数据在网络中广泛传播，存在对音频中说话人属性信息进行分析处理以协助对特定人群的检测识别的需求。目前的技术中针对音频中说话人不同属性信息通常是采用相互独立的多个模型分别进行预测和识别，识别效率及准确性较低。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种音频处理方法、计算机设备和计算机程序产品。
[0004]第一方面，本申请提供了一种音频处理方法。所述方法包括：
[0005]提取待处理音频中每一帧音频各自对应的特征，得到多个初级的第一音频帧特征；
[0006]通过经训练的说话人特征提取网络中的特征提取层获取所述多个初级的第一音频帧特征分别对应的多个高级的第二音频帧特征，及通过所述说话人特征提取网络中的池化层将所述多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征；r/>[0007]将本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括：提取待处理音频中每一帧音频各自对应的特征，得到多个初级的第一音频帧特征；通过经训练的说话人特征提取网络中的特征提取层获取所述多个初级的第一音频帧特征分别对应的多个高级的第二音频帧特征，及通过所述说话人特征提取网络中的池化层将所述多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征；将所述音频特征输入经训练的多个说话人属性分类器，得到所述多个说话人属性分类器分别输出的多个说话人属性分类标签；根据所述多个说话人属性分类标签，得到所述待处理音频中说话人在多种属性下的分类结果。2.根据权利要求1所述的方法，其特征在于，所述说话人特征提取网络的数量为多个，分别与所述多个说话人属性分类器对应；所述音频特征包括多个说话人特征提取网络分别输出的多个音频特征；其中，所述将所述音频特征输入经训练的多个说话人属性分类器，包括：将所述多个说话人特征提取网络输出的多个音频特征分别输入至所述音频特征对应的说话人属性分类器。3.根据权利要求1所述的方法，其特征在于，所述池化层包括注意力随机池化层；所述通过所述说话人特征提取网络中的池化层将所述多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征，包括：将所述多个高级的第二音频帧特征输入卷积注意力模块，得到所述卷积注意力模块输出的所述每一帧音频各自对应的特征权重；将所述多个第二音频帧特征及所述每一帧音频各自对应的特征权重输入所述注意力随机池化层，得到所述注意力随机池化层输出的所述音频特征。4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：获取预训练的说话人身份识别模型；所述说话人身份识别模型包括预训练的特征提取层及预训练的池化层，且所述预训练的特征提取层及预训练的池化层用于组成所述说话人特征提取网络；获取音频样本，及获取所述音频样本的多个说话人属性分类标签；提取所述音频样本中每一帧音频各自对应的初级特征，得到所述音频样本的多个第一音频帧特征；基于所述音频样本的多个第一音频帧特征及所述多个说话人属性分类标签对所述说话人特征提取网络及所述多个说话人属性分类器进行联合训练。5.根据权利要求4所述的方法，其特征在于，所述基于所述音频样本的多个第一音频帧特征及所述多个说话人属性分类标签对所述说话人特征提取网络及所述多个说话人属性分类器进行联合训练，包括：将所述音频样本的多个第一音频帧特征输入所述说话人特征提取网络，由所述...

【专利技术属性】
技术研发人员：郑炜乔，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人