一种基于多教师模型的弱标签音频事件检测方法及系统技术方案

技术编号:37676841 阅读:34 留言:0更新日期:2023-05-26 04:41
本发明专利技术属于音频事件检测技术领域,提供了一种基于多教师模型的弱标签音频事件检测方法及系统,包括:获取音频数据;依据音频数据,以及预设的音频事件检测模型,得到检测结果;其中,音频事件检测模型包括第一均值教师模型和第二均值教师模型;通过第一均值教师模型和第二均值教师模型,分别提取音频数据中的全局特征和局部特征,解决了强标签数据收集成本高的问题;再通过门控自适应机制进行特征融合,将全局特征矩阵阵的第一列与融合后的特征进行对齐,得到用于音频事件检测的特征,解决了全局特征与局部特征不能自适应融合的问题。全局特征与局部特征不能自适应融合的问题。全局特征与局部特征不能自适应融合的问题。

【技术实现步骤摘要】
一种基于多教师模型的弱标签音频事件检测方法及系统


[0001]本专利技术属于音频事件检测
,尤其涉及一种基于多教师模型的弱标签音频事件检测方法及系统。

技术介绍

[0002]音频事件检测旨在检测和识别一段音频中各个音频事件的类别及其事件的起止时间。音频事件检测在机器人技术、智能家居、医疗保健以及基于音频的索引和检索等领域有着广泛的应用。一个成熟的音频事件检测系统离不开数量庞大、质量可靠及标签完善的音频事件数据集的支持。但现有的数据集,面临标签标注成本高的问题。一般而言,训练完善的音频事件检测系统,需要大量既给出事件类别又给出起止时间的数据,这类数据被称为强标签数据,然而强标签数据需要专家给出正确起止时间标签,因此导致标注成本高,很难大量获取。但是现实生活中存在大量且容易获取的弱标签数据即数据标签仅包含音频事件类别不包含起止时间,这类数据对音频事件检测技术的需求十分迫切,如果利用弱标签数据甚至无标签数据训练音频事件检测系统,则可以大大降低数据收集的成本。
[0003]音频数据的全局特征和局部特征,对音频事件检测的准确性都起着至关重要本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多教师模型的弱标签音频事件检测方法,其特征在于,包括:获取音频数据;依据所述音频数据,以及预设的音频事件检测模型,得到检测结果;其中,所述音频事件检测模型包括第一均值教师模型和第二均值教师模型;通过所述第一均值教师模型提取音频数据的全局特征,得到全局特征矩阵;通过所述第二均值教师模型提取音频数据的局部特征;通过门控自适应机制进行特征融合,得到融合后的特征;将全局特征矩阵阵的第一列与融合后的特征进行对齐,得到用于音频事件检测的特征。2.如权利要求1所述的一种基于多教师模型的弱标签音频事件检测方法,其特征在于,对获取的音频数据进行分帧处理,提取每帧的特征,形成特征矩阵;在形成特征矩阵的第一例前添加一列零向量,组成新的音频特征矩阵。3.如权利要求1所述的一种基于多教师模型的弱标签音频事件检测方法,其特征在于,所述第一均值教师模型采用Transformer网络结构,所述第二均值教师模型中采用卷积神经网络结构。4.如权利要求1所述的一种基于多教师模型的弱标签音频事件检测方法,其特征在于,对音频数据进行映射,得到原始特征,将全局特征矩阵剔除第一列后和局部特征送入学生模型中;在学生模型中原始特征根据全局特征和局部特征进行保留与剔除,得到融合后的特征;再将全局特征矩阵的第一列作为音频标记任务的特征,与融合后的特征进行跨任务对齐,最终得到用于音频事件检测的特征。5.如权利要求1所述的一种基于多教师模型的弱标签音频事件检测方法,其特征在于,所述门控自适应机制包括全局门、局部门和输出门,全局门用于决定全局特征传递比例,局部门用于局部特征的传递比例,输...

【专利技术属性】
技术研发人员:冷严路安芹刘祯刘闯陈尚睿潘杰
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1