音频分类模型的训练方法、音频分类方法、以及装置制造方法及图纸

技术编号:39165391 阅读:13 留言:0更新日期:2023-10-23 15:04
本公开公开了一种音频分类模型的训练方法、音频分类方法、以及装置,属于计算机技术领域。所述方法包括:获取待训练的音频分类模型对应的类型标签层级关系;获取样本音频的音频数据和样本音频的基准分类结果;将样本音频的音频数据输入待训练的音频分类模型,得到预测分类结果;基于预测分类结果和基准分类结果之间的匹配情况,确定第一损失值;基于类型标签层级关系中存在关联关系的类型标签在预测分类结果中对应的匹配概率值,确定第二损失值;基于第一损失值和第二损失值,对待训练的音频分类模型进行训练,若满足预设训练结束条件则得到训练完成的音频分类模型。采用本公开,提高了训练完成的音频分类模型对各层级预测的准确性和一致性。准确性和一致性。准确性和一致性。

【技术实现步骤摘要】
音频分类模型的训练方法、音频分类方法、以及装置


[0001]本公开涉及计算机
,特别涉及一种音频分类模型的训练方法、音频分类方法以及装置。

技术介绍

[0002]随着各种各样的音频分类需求的产生,逐渐产生了多种音频分类方法,多层级的音频分类是其中极为重要的一种。多层级的音频分类指的是在不同层级均对该音频进行分类,例如,设置有两个层级,第一层级包括“歌声”和“非歌声”两个类型标签,在第二层级中,“歌声”关联的类型标签包括“男性”和“女性”,“非歌声”关联的类型标签包括“无声”和“伴奏”,则在对某个音频进行分类时,该音频在第一层级的类型标签可以是“歌声”,在第二层级的类型标签可以为“女性”。
[0003]在当前的多层级的音频分类任务中,使用的方法是:针对每个层级分别训练独立的音频分类模型,在进行音频分类时,分别将该音频输入到各个层级对应的音频分类模型,得到每个音频分类模型输出的各个层级的预测类型标签。
[0004]上述方法虽然可以对每个层级的类型标签进行预测,但该方法忽略了每个层级的类型标签之间的关联性,很容易导致不同层级的预测类型标签不对应的矛盾情况(例如,在第一层级的预测类型标签是“歌声”,但在第二层级的预测类型标签是“伴奏”,而“歌声”与“伴奏”并不具有关联性),从而降低了预测的一致性和准确性。

技术实现思路

[0005]本公开实施例提供了一种音频分类模型的训练方法、音频分类方法、以及装置,能够解决现有技术中音频分类预测的一致性和准确性较低的问题。
[0006]第一方面,提供了一种音频分类模型的训练方法,所述方法包括:
[0007]获取待训练的音频分类模型对应的类型标签层级关系,其中,所述音频分类模型用于预测音频在预设的不同层级的类型标签下的匹配概率值,所述类型标签层级关系表示的是所述不同层级的类型标签之间的关联关系;
[0008]获取样本音频的音频数据和所述样本音频的基准分类结果,其中,所述基准分类结果包括所述样本音频在每个所述层级对应的基准类型标签;
[0009]将所述样本音频的音频数据输入所述待训练的音频分类模型,得到预测分类结果,其中,所述预测分类结果包括所述样本音频分别与每个所述层级中的每个类型标签的匹配概率值;
[0010]基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值;
[0011]基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值;
[0012]基于所述第一损失值和所述第二损失值,对所述待训练的音频分类模型进行训练,若满足预设训练结束条件则得到训练完成的音频分类模型。
[0013]在一种可能的实现方式中,所述基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值,包括:
[0014]将所述预测分类结果中每个所述层级中匹配概率值最大的类型标签,确定为所述样本音频在所述层级的预测类型标签;
[0015]比对样本音频在每个所述层级的预测类型标签以及在每个所述层级的基准类型标签,得到所述预测类型标签与所述基准类型标签不相同的层级数目,将所述不相同的层级数目与所述层级的总数目之间的第一比值,确定为所述第一损失值。
[0016]在一种可能的实现方式中,所述基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值,包括:
[0017]对于所述每个层级的基准类型标签,在所述预测分类结果中确定所述基准类型标签对应的匹配概率值,计算1与所述基准类型标签对应的匹配概率值之间的第一差值;
[0018]将多个层级对应的第一差值之和与所述类型标签层级关系中层级的总数目之间的第二比值,确定为所述第一损失值。
[0019]在一种可能的实现方式中,所述基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值,包括:
[0020]对于所述类型标签层级关系中的每个非底层类型标签,在所述预测分类结果中确定所述非底层类型标签关联的各个下一层级类型标签对应的匹配概率值中的最大匹配概率值,确定所述非底层类型标签对应的匹配概率值与所述最大匹配概率值之间的第二差值;
[0021]基于多个非底层类型标签对应的第二差值,确定所述第二损失值。
[0022]在一种可能的实现方式中,所述基于多个非底层类型标签对应的第二差值,确定所述第二损失值,包括:
[0023]对于所述类型标签层级关系中的每个非首层类型标签,在所述预测分类结果中确定所述非首层类型标签对应的匹配概率值与所述非首层类型标签关联的上一层级类型标签对应的匹配概率值之间的第三差值;
[0024]基于多个非底层类型标签对应的第二差值和多个非首层类型标签对应的第三差值,确定所述第二损失值。
[0025]在一种可能的实现方式中,所述基于多个非底层类型标签对应的第二差值和多个非首层类型标签对应的第三差值,确定所述第二损失值,包括:
[0026]确定多个所述第二差值中的、大于零的第二差值的平方和,得到第一数值,将第一系数与所述第一数值的乘积,确定为第一层级间损失值;
[0027]确定多个所述第三差值中的、大于零的第三差值的平方和,得到第二数值,将第二系数与所述第二数值的乘积,确定为第二层级间损失值;
[0028]基于所述第一层级间损失值和所述第二层级间损失值,确定所述第二损失值。
[0029]在一种可能的实现方式中,所述第一系数为所述类型标签层级关系中层级的总数目与1之间的差值的倒数,所述第二系数为所述类型标签层级关系中层级的总数目与首层级中的类型标签的数目之间的差值的倒数。
[0030]第二方面,提供了一种音频分类方法,所述方法包括:
[0031]获取待分类音频的音频数据;
[0032]将所述待分类音频的音频数据分别输入如权利要求1

7任一项所述的训练完成的音频分类模型,得到所述待分类音频对应的预测分类结果,其中,所述待分类音频对应的预测分类结果包括所述待分类音频分别与类型标签层级关系中的多个层级中的每个类型标签的匹配概率值;
[0033]基于所述待分类音频对应的预测分类结果,确定所述待分类音频在每个所述层级的预测类型标签获取待分类音频对应的多个音频段的音频数据;
[0034]将所述多个音频段的音频数据输入如上述任一项所述的训练完成的音频分类模型,得到每个音频段对应的预测分类结果,其中,所述音频段对应的预测分类结果包括所述音频段分别与类型标签层级关系中的多个层级中的每个类型标签的匹配概率值;
[0035]基于所述每个音频段对应的预测分类结果,确定所述每个音频段在每个所述层级的预测类型标签;
[0036]基于所述每个音频段在每个所述层级的预测类型标签,确定所述待分类音频在每个所述层级的预测类型标签。
[0037]第三方面,提供了一种音频分类模型的训练装置,所述装置包括:
[0038]第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频分类模型的训练方法,其特征在于,所述方法包括:获取待训练的音频分类模型对应的类型标签层级关系,其中,所述音频分类模型用于预测音频在预设的不同层级的类型标签下的匹配概率值,所述类型标签层级关系表示的是所述不同层级的类型标签之间的关联关系;获取样本音频的音频数据和所述样本音频的基准分类结果,其中,所述基准分类结果包括所述样本音频在每个所述层级对应的基准类型标签;将所述样本音频的音频数据输入所述待训练的音频分类模型,得到预测分类结果,其中,所述预测分类结果包括所述样本音频分别与每个所述层级中的每个类型标签的匹配概率值;基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值;基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值;基于所述第一损失值和所述第二损失值,对所述待训练的音频分类模型进行训练,若满足预设训练结束条件则得到训练完成的音频分类模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值,包括:将所述预测分类结果中每个所述层级中匹配概率值最大的类型标签,确定为所述样本音频在所述层级的预测类型标签;比对样本音频在每个所述层级的预测类型标签以及在每个所述层级的基准类型标签,得到所述预测类型标签与所述基准类型标签不相同的层级数目,将所述不相同的层级数目与所述层级的总数目之间的第一比值,确定为所述第一损失值。3.根据权利要求1所述的方法,其特征在于,所述基于所述预测分类结果和所述基准分类结果之间的匹配情况,确定第一损失值,包括:对于所述每个层级的基准类型标签,在所述预测分类结果中确定所述基准类型标签对应的匹配概率值,计算1与所述基准类型标签对应的匹配概率值之间的第一差值;将多个层级对应的第一差值之和与所述类型标签层级关系中层级的总数目之间的第二比值,确定为所述第一损失值。4.根据权利要求1所述的方法,其特征在于,所述基于所述类型标签层级关系中存在关联关系的类型标签在所述预测分类结果中对应的匹配概率值,确定第二损失值,包括:对于所述类型标签层级关系中的每个非底层类型标签,在所述预测分类结果中确定所述非底层类型标签关联的各个下一层级类型标签对应的匹配概率值中的最大匹配概率值,确定所述非底层类型标签对应的匹配概率值与所述最大匹配概率值之间的第二差值;基于多个非...

【专利技术属性】
技术研发人员:江益靓姜涛赵伟峰
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1