【技术实现步骤摘要】
音频事件检测模型训练方法及装置
[0001]本专利技术涉及音频检测
,尤其涉及音频事件检测模型训练方法及装置。
技术介绍
[0002]音频事件检测是从一段连续音频中检测出是否有某种音频事件发生。
[0003]目前,通过标注样本进行教师模型训练,使用训练好的教师模型获取无标注样本的标签,通过无标注样本的标签进行学生模型的训练,使用训练好的学生模型进行音频事件检测。
[0004]但是,标注样本往往获取困难且花费高昂,在标注样本数量较少的情况下训练好的模型的模型精度可能较低,从而导致音频事件检测的准确性较低。
技术实现思路
[0005]本实施例提供了一种音频事件检测模型训练方法、装置、计算机可读存储介质及电子设备,通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正,可以提高无标注样本的利用效率,提升伪标签的正确率,从而提升音频事件检测的准确性。
[0006]第一方面,本实施例提供了一种音频事件检测模型训练方法,包括:
[0007]对于用于音频事件检测的多个训练样本中的每个训练样本,确定训练样本的三个训练特征;其中,所述训练样本为无标注样本或标注有音频事件标签的标注样本;所述三个训练特征均为所述训练样本的声学特征;所述多个训练样本划分为K个训练样本集,所述K个训练样本集各集均包括所述无标注样本和所述标注样本,所述K为大于等于1的正整数;
[0008]对大师模型、教师模型、学生模型进行多次迭代,基于满足迭代结束条件的学生模型作为音 ...
【技术保护点】
【技术特征摘要】
1.一种音频事件检测模型训练方法,其特征在于,包括:对于用于音频事件检测的多个训练样本中的每个训练样本,确定训练样本的三个训练特征;其中,所述训练样本为无标注样本或标注有音频事件标签的标注样本;所述三个训练特征均为所述训练样本的声学特征;所述多个训练样本划分为K个训练样本集,所述K个训练样本集各集均包括所述无标注样本和所述标注样本,所述K为大于等于1的正整数;对大师模型、教师模型、学生模型进行多次迭代,基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测;其中,所述大师模型和所述教师模型的模型结构相同;所述多次迭代包括M个训练周期,所述M个训练周期各周期均包括分别与所述K个训练样本集一一对应的K次迭代,所述K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为所述大师模型、教师模型、学生模型的输入;所述多次迭代中的每次迭代包括:根据所述大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率,对所述教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正,确定本次迭代对应的无标注样本的伪标签;根据所述学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、所述本次迭代对应的无标注样本的伪标签,调整所述学生模型上次迭代的模型参数,确定所述学生模型本次迭代的模型参数;根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签,调整所述教师模型上次迭代的模型参数,确定所述教师模型本次迭代的模型参数;基于所述教师模型本次迭代和之前迭代的模型参数,确定所述大师模型本次迭代的模型参数。2.根据权利要求1所述的方法,其特征在于,所述根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签,调整所述教师模型上次迭代的模型参数,包括:根据所述教师模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签,计算第一误差值;根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率、预设校正参数、本次迭代对应的标注样本的音频事件标签,计算第二误差值;根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率、预设校正参数,确定第三误差值;根据所述第一误差值、所述第二误差值和所述第三误差值,确定第一目标误差值,以最小化所述第一目标误差值作为目的,对所述教师模型上次迭代的模型参数进行调整。3.根据权利要求1所述的方法,其特征在于,所述根据所述学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样
本的音频事件标签、所述本次迭代对应的无标注样本的伪标签,调整所述学生模型上次迭代的模型参数,包括:根据所述学生模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签,计算第四误差值;基于所述学生模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的无标注样本的伪标签,计算第五误差值;通过所述第四误差值和所述第五误差值,确定第二目标误差值,以最小化所述第二目标误差值作为目的,对所述学生模型上次迭代的模型参数进行调整。4.根据权利要求1所述的方法,其特征在于,所述训练样本的三个训练特征为对所述训练样本进行声学特征提取的结果进行三次数据增...
【专利技术属性】
技术研发人员:张鹏远,刘钰卓,颜永红,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。