音频分类的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35354117 阅读:22 留言:0更新日期:2022-10-26 12:27
本申请实施例提供了一种音频分类的方法、装置、设备以及存储介质,涉及人工智能技术领域。该对音频分类的方法包括:获取音频文件的声谱特征;利用神经网络模型,得到该声谱特征的第一时域特征;对该第一时域特征进行分组,得到该声谱特征的第二时域特征,该第二时域特征的每个维度的特征向量表示该音频文件中的每个音频片段的时域特征向量;将该第二时域特征输入分类模型,得到音频文件中的每个音频片段的第一特征标签;根据每个音频片段的第一特征标签,确定音频文件的类型。本申请实施例根据音频文件中的音频片段的局部信息对音频文件进行分类,能够关注更细粒度的局部信息,有助于提高音频文件分类的准确性。助于提高音频文件分类的准确性。助于提高音频文件分类的准确性。

【技术实现步骤摘要】
音频分类的方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能领域,并且更具体地,涉及音频分类的方法、装置、设备以及存储介质。

技术介绍

[0002]音频分类是音频深度学习最广泛的应用之一,它通过深度学习对声音进行分类并预测声音的类别。音频分类可以应用到许多实际场景中,例如对音乐片段进行分类以识别音乐类型,或通过一组扬声器对短话语进行分类以根据声音识别人。
[0003]常见的音频分类算法以一整段音频作为模型输入,预测该整段音频的全局标签。但是,当音频数据中的音频片段类型丰富时,仅关注整段音频的全局信息将导致音频分类的准确率较低。

技术实现思路

[0004]本申请实施例提供了一种音频分类的方法、装置、设备以及存储介质,能够有助于提高音频分类的准确性。
[0005]第一方面,本申请实施例提供了一种音频分类的方法,包括:
[0006]获取音频文件的声谱特征;
[0007]利用神经网络模型,得到所述声谱特征的第一时域特征;
[0008]对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,所述第二时域特征的每个维度的特征向量表示所述音频文件中的每个音频片段的时域特征向量;
[0009]将所述第二时域特征输入分类模型,得到所述音频文件中的每个音频片段的第一特征标签;
[0010]根据所述每个音频片段的第一特征标签,确定所述音频文件的类型。
[0011]第二方面,本申请实施例提供了一种音频分类模型训练的方法,包括:
[0012]获取训练样本集,所述训练样本集包括音频文件样本和所述音频文件样本的分类标签;
[0013]对所述音频文件样本的分类标签复制M份,获取所述音频文件样本中的每个音频片段的分类标签,其中,M的值是根据所述音频文件样本中的音频片段的数量确定的;
[0014]获取所述音频文件样本的声谱特征;
[0015]利用神经网络模型,得到所述声谱特征的第三时域特征;
[0016]对所述第三时域特征进行分组,得到所述声谱特征的第三时域特征,所述第三时域特征的每个维度的特征向量表示所述音频文件样本中的每个音频片段的时域特征向量;以及
[0017]将所述第三时域特征输入分类模型,得到所述音频文件样本中每个音频片段的第三特征标签;
[0018]根据所述音频文件样本中每个音频片段的第三特征标签和所述每个音频片段的
分类标签,确定第一损失;
[0019]根据所述第一损失,对所述分类模型的参数进行更新。
[0020]第三方面,本申请实施例提供了一种对象风险预测的装置,包括:
[0021]音频分类的装置,其特征在于,包括:
[0022]第一获取单元,用于获取音频文件的声谱特征;
[0023]神经网络模型,用于得到所述声谱特征的第一时域特征;
[0024]分组单元,用于对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,所述第二时域特征的每个维度的特征向量表示所述音频文件中的每个音频片段的时域特征向量;
[0025]分类模型,用于输入所述第二时域特征,得到所述音频文件中的每个音频片段的第一特征标签;
[0026]确定单元,用于根据所述每个音频片段的第一特征标签,确定所述音频文件的类型。
[0027]第四方面,本申请实施例提供了一种音频分类模型训练的装置,包括:
[0028]第一获取单元,用于获取训练样本集,所述训练样本集包括音频文件样本和所述音频文件样本的分类标签;
[0029]所述第一获取单元还用于对所述音频文件样本的分类标签复制M份,获取所述音频文件样本中的每个音频片段的分类标签,其中,M的值是根据所述音频文件样本中的音频片段的数量确定的;
[0030]第二获取单元,用于获取所述音频文件样本的声谱特征;
[0031]神经网络模型,用于得到所述声谱特征的第三时域特征;
[0032]分组单元,用于对所述第三时域特征进行分组,得到所述声谱特征的第三时域特征,所述第三时域特征的每个维度的特征向量表示所述音频文件样本中的每个音频片段的时域特征向量;以及
[0033]分类模型,用于将所述第三时域特征输入分类模型,得到所述音频文件样本中每个音频片段的第三特征标签;
[0034]确定单元,用于根据所述音频文件样本中每个音频片段的第三特征标签和所述每个音频片段的分类标签,确定第一损失;
[0035]更新单元,用于根据所述第一损失,对所述分类模型的参数进行更新。
[0036]第五方面,本申请实施例提供了一种电子设备,包括:
[0037]处理器,适于实现计算机指令;以及,
[0038]存储器,存储有计算机指令,计算机指令适于由处理器加载并执行上述第一方面的方法,或第二方面的方法。
[0039]第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被计算机设备的处理器读取并执行时,使得计算机设备执行上述第一方面的方法,或第二方面的方法。
[0040]第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述第一方面的方法,或第二方面的方法。
[0041]本申请实施例通过对音频文件的声谱特征的第一时域特征进行分组,得到该声谱特征的第二时域特征,由于该第二时域特征中每个维度的特征向量表示该音频文件中每个音频片段的时域特征向量,因此根据该第二时域特征能够得到音频文件中每个音频片段的特征标签,进而可以根据音频文件中每个音频片段的特征标签,确定该音频文件的类型。本申请实施例根据音频文件中的音频片段的局部信息对音频文件进行分类,能够关注更细粒度的局部信息,有助于提高音频文件分类的准确性。
附图说明
[0042]图1为本申请实施例涉及的一种系统架构的示意图;
[0043]图2为本申请实施例提供的一种音频分类的方法的示意流程图;
[0044]图3为根据本申请实施例的一种音频分类模型的网络架构的示意图;
[0045]图4为根据本申请实施例的另一种音频分类的方法的示意流程图;
[0046]图5为图4中的第一变换算子的一个具体的例子;
[0047]图6为本申请实施例提供的一种训练模型的方法的示意流程图;
[0048]图7为图4中的第二变换算子的一个具体的例子;
[0049]图8为本申请实施例提供的一种音频分类的装置的示意性框图;
[0050]图9为本申请实施例提供的一种训练模型的装置的示意性框图;
[0051]图10为本申请实施例提供的电子设备的示意性框图。
具体实施方式
[0052]下面将结合本申请实施例中的附图,对本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频分类的方法,其特征在于,包括:获取音频文件的声谱特征;利用神经网络模型,得到所述声谱特征的第一时域特征;对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,所述第二时域特征的每个维度的特征向量表示所述音频文件中的每个音频片段的时域特征向量;将所述第二时域特征输入分类模型,得到所述音频文件中的每个音频片段的第一特征标签;根据所述每个音频片段的第一特征标签,确定所述音频文件的类型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,包括:获取所述音频文件的分组系数,所述分组系数表示单位时间对所述音频文件的采样点数;根据所述分组系数对所述第一时域特征进行分组,得到所述第二时域特征。3.根据权利要求2所述的方法,其特征在于,还包括:利用所述卷积神经网络模型,得所述声谱特征的频域特征;根据所述卷积神经网络模型输出的第一通道数、所述频域特征和所述分组系数,确定所述分类模型输入的第二通道数;其中,所述将所述第二时域特征输入分类模型,得到所述音频文件中的每个音频片段的第一特征标签,包括:根据所述第二通道数,将所述第二时域特征输入所述分类模型,得到所述音频文件中的每个音频片段的第一特征标签。4.根据权利要求3所述的方法,其特征在于,所述卷积神经网络模型输出第一特征张量,所述第一特征张量依次包括所述第一通道数、所述第一时域特征和所述频域特征;其中,所述根据所述卷积神经网络模型输出的第一通道数、所述频域特征和所述分组系数,确定第二通道数,包括:根据所述第一特征张量,得到第二特征张量,所述第二特征张量依次包括所述第一时域特征、所述第一通道数和所述频域特征;根据所述第二特征张量和所述分组系数,得到第三特征张量,其中,所述第三特征张量依次包括所述第二时域特征、所述分组系数和第三通道系数,所述第三通道数是对所述第一通道数和所述频域特征进行融合得到的;根据所述第三特征张量,得到第四特征张量,所述第四特征张量依次包括所述第二时域特征和所述第二通道数,其中,所述第二通道数是对所述分组系数和所述第三通道数进行融合得到的。5.根据权利要求1所述的方法,其特征在于,还包括:获取训练样本集,所述训练样本集包括音频文件样本和所述音频文件样本的分类标签;对所述音频文件样本的分类标签复制M份,得到所述音频文件样本中的每个音频片段的分类标签,其中,M的值是根据所述音频文件样本中的音频片段的数量确定的。6.根据权利要求1所述的方法,其特征在于,还包括:
根据所述第一时域特征,得到所述音频文件的第二特征标签;其中,所述根据所述每个音频片段的第一特征标签,确定所述音频文件的类型,包括:根据所述每个音频片段的第一特征标签和所述音频文件的第二特征标签,确定所述音频文件的类型。7.根据权利要求1所述的方法,其特征在于,所述声谱特征包括梅尔特征。8.根据权利要求1所述的方法,其特征在于,所述音频文件包括音乐文件。9.一种音频分类模型训练的方法,其特征在...

【专利技术属性】
技术研发人员:贺思颖田思达
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1