音频事件检测模型训练方法及装置制造方法及图纸

技术编号:31087113 阅读:60 留言:0更新日期:2021-12-01 12:42
本发明专利技术涉及音频检测技术领域,提供了一种音频事件检测模型训练方法及装置,方法包括:对大师模型、教师模型、学生模型进行多次迭代,将满足迭代结束条件的学生模型作为音频事件检测模型;其中,在每次迭代中,对大师和教师模型的输出动态校正,为无标注数据生成伪标签;利用音频事件标签、大师模型的输出、老师模型的输出,迭代教师模型;根据教师模型参数更新大师模型的参数;用音频事件标签和伪标签迭代学生模型。本实施例的技术方案,通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正,可以提高无标注样本的利用效率,提升伪标签的正确率,从而提升音频事件检测的准确性。从而提升音频事件检测的准确性。从而提升音频事件检测的准确性。

【技术实现步骤摘要】
音频事件检测模型训练方法及装置


[0001]本专利技术涉及音频检测
,尤其涉及音频事件检测模型训练方法及装置。

技术介绍

[0002]音频事件检测是从一段连续音频中检测出是否有某种音频事件发生。
[0003]目前,通过标注样本进行教师模型训练,使用训练好的教师模型获取无标注样本的标签,通过无标注样本的标签进行学生模型的训练,使用训练好的学生模型进行音频事件检测。
[0004]但是,标注样本往往获取困难且花费高昂,在标注样本数量较少的情况下训练好的模型的模型精度可能较低,从而导致音频事件检测的准确性较低。

技术实现思路

[0005]本实施例提供了一种音频事件检测模型训练方法、装置、计算机可读存储介质及电子设备,通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正,可以提高无标注样本的利用效率,提升伪标签的正确率,从而提升音频事件检测的准确性。
[0006]第一方面,本实施例提供了一种音频事件检测模型训练方法,包括:
[0007]对于用于音频事件检测的多个训练样本中的每个训练样本,确定训练样本的三个训练特征;其中,所述训练样本为无标注样本或标注有音频事件标签的标注样本;所述三个训练特征均为所述训练样本的声学特征;所述多个训练样本划分为K个训练样本集,所述K个训练样本集各集均包括所述无标注样本和所述标注样本,所述K为大于等于1的正整数;
[0008]对大师模型、教师模型、学生模型进行多次迭代,基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测;其中,大师模型和教师模型的模型结构相同;多次迭代包括M个训练周期,M个训练周期各周期均包括分别与K个训练样本集一一对应的K次迭代,K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为大师模型、教师模型、学生模型的输入;多次迭代中的每次迭代包括:
[0009]根据大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率,对教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正,确定本次迭代对应的无标注样本的伪标签;
[0010]根据学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、本次迭代对应的无标注样本的伪标签,调整学生模型上次迭代的模型参数,确定学生模型本次迭代的模型参数;
[0011]根据大师模型和教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签,调整教师模型上次迭代的模型参数,确定教师模型本次迭代的模型参数;
[0012]基于教师模型本次迭代和之前迭代的模型参数,确定大师模型本次迭代的模型参数。
[0013]第二方面,本实施例提供了一种音频事件检测模型训练装置,包括:
[0014]对于用于音频事件检测的多个训练样本中的每个训练样本,确定训练样本的三个训练特征;其中,所述训练样本为无标注样本或标注有音频事件标签的标注样本;所述三个训练特征均为所述训练样本的声学特征;所述多个训练样本划分为K个训练样本集,所述K个训练样本集各集均包括所述无标注样本和所述标注样本,所述K为大于等于1的正整数;
[0015]训练模块,用于对大师模型、教师模型、学生模型进行多次迭代,基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测;其中,大师模型和教师模型的模型结构相同;多次迭代包括M个训练周期,M个训练周期各周期均包括分别与K个训练样本集一一对应的K次迭代,K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为大师模型、教师模型、学生模型的输入;多次迭代中的每次迭代包括:
[0016]根据大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率,对教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正,确定本次迭代对应的无标注样本的伪标签;
[0017]根据学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、本次迭代对应的无标注样本的伪标签,调整学生模型上次迭代的模型参数,确定学生模型本次迭代的模型参数;
[0018]根据大师模型和教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签,调整教师模型上次迭代的模型参数,确定教师模型本次迭代的模型参数;
[0019]基于教师模型本次迭代和之前迭代的模型参数,确定大师模型本次迭代的模型参数。
[0020]第三方面,本实施例提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,处理器执行如第一方面中任一的方法。
[0021]第四方面,本实施例提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当处理器执行存储器存储的执行指令时,处理器执行如第一方面中任一的方法。
[0022]本实施例提供了一种音频事件检测模型训练方法、装置、计算机可读存储介质及电子设备,通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正,可以提高无标注样本的利用效率,提升伪标签的正确率,从而提升音频事件检测的准确性。
[0023]上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0024]为了更清楚地说明本实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根
据这些附图获得其他的附图。
[0025]图1为本实施例提供的一种音频事件检测模型训练方法的流程示意图;
[0026]图2为本实施例提供的一种大师模型、教师模型和学生模型的结构示意图;
[0027]图3为本实施例提供的一种每次迭代的大师模型、教师模型和学生模型的训练方法的流程示意图;
[0028]图4为本实施例提供的一种音频事件检测模型训练装置的结构示意图;
[0029]图5为本实施例提供的一种电子设备的结构示意图。
具体实施方式
[0030]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]如图1所示,为本实施例提供的一种音频事件检测模型训练方法。本实施例所提供的方法可应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频事件检测模型训练方法,其特征在于,包括:对于用于音频事件检测的多个训练样本中的每个训练样本,确定训练样本的三个训练特征;其中,所述训练样本为无标注样本或标注有音频事件标签的标注样本;所述三个训练特征均为所述训练样本的声学特征;所述多个训练样本划分为K个训练样本集,所述K个训练样本集各集均包括所述无标注样本和所述标注样本,所述K为大于等于1的正整数;对大师模型、教师模型、学生模型进行多次迭代,基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测;其中,所述大师模型和所述教师模型的模型结构相同;所述多次迭代包括M个训练周期,所述M个训练周期各周期均包括分别与所述K个训练样本集一一对应的K次迭代,所述K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为所述大师模型、教师模型、学生模型的输入;所述多次迭代中的每次迭代包括:根据所述大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率,对所述教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正,确定本次迭代对应的无标注样本的伪标签;根据所述学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、所述本次迭代对应的无标注样本的伪标签,调整所述学生模型上次迭代的模型参数,确定所述学生模型本次迭代的模型参数;根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签,调整所述教师模型上次迭代的模型参数,确定所述教师模型本次迭代的模型参数;基于所述教师模型本次迭代和之前迭代的模型参数,确定所述大师模型本次迭代的模型参数。2.根据权利要求1所述的方法,其特征在于,所述根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签,调整所述教师模型上次迭代的模型参数,包括:根据所述教师模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签,计算第一误差值;根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率、预设校正参数、本次迭代对应的标注样本的音频事件标签,计算第二误差值;根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率、预设校正参数,确定第三误差值;根据所述第一误差值、所述第二误差值和所述第三误差值,确定第一目标误差值,以最小化所述第一目标误差值作为目的,对所述教师模型上次迭代的模型参数进行调整。3.根据权利要求1所述的方法,其特征在于,所述根据所述学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样
本的音频事件标签、所述本次迭代对应的无标注样本的伪标签,调整所述学生模型上次迭代的模型参数,包括:根据所述学生模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签,计算第四误差值;基于所述学生模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的无标注样本的伪标签,计算第五误差值;通过所述第四误差值和所述第五误差值,确定第二目标误差值,以最小化所述第二目标误差值作为目的,对所述学生模型上次迭代的模型参数进行调整。4.根据权利要求1所述的方法,其特征在于,所述训练样本的三个训练特征为对所述训练样本进行声学特征提取的结果进行三次数据增...

【专利技术属性】
技术研发人员:张鹏远刘钰卓颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1