当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于半监督的声音事件检测方法、系统、终端及介质技术方案

技术编号:42387212 阅读:28 留言:0更新日期:2024-08-16 16:14
本发明专利技术公开一种基于半监督的声音事件检测方法、系统、终端及介质,包括:获取原始音频数据,对所述原始音频数据进行特征提取;构建基于CNN‑Transformer的深度学习模型,深度学习模型采用卷积残差网络ResNet,以及采用基于多尺度可变形注意力机制构建的Transformer相结合的网络结构;对有标签数据和无标签数据分别进行增强,增强后的数据作为训练集;将学生模型在数据集上进行训练并计算得到学生模型的损失,进行梯度下降,得到更新后的学生模型参数,最后对教师模型进行正弦加权更新权重;采用更新后的深度学习模型进行声音事件检测。本发明专利技术解决声音事件检测中充分地利用无标记数据和不平衡不充分的有标签数据,提高数据冗余度,提升训练精度。

【技术实现步骤摘要】

本专利技术涉及音频数据处理,具体地,涉及一种基于半监督的声音事件检测方法、系统、终端及介质


技术介绍

1、随着多媒体和网络技术的发展,音频数据在数据库中迅速增长,基于音频信息的sed(sound event detection,声音事件检测)引起了人们的极大关注。sed在许多应用中都非常重要,比如智能城市、医疗、监控、视频索引等。

2、sed的目的是识别出一个音频段中存在的事件类别并标注出各事件的起止时间,所以声音事件检测任务可以分成两个子任务,一个是识别at(audio tagging,音频标记),另一个是识别事件时间戳检测。现实生活中的声音往往会有相当大的重叠,识别这种重叠的声音时间被称为复调sed。

3、dcase竞赛task 4提出了一个大规模弱标签半监督声音事件检测任务,该任务的挑战是在少量有标记训练数据基础上,探索引入大量不平衡和未标记的训练数据来提高系统性能的可能性。它的数据集包括:14412条无标签音频片段、1578条若标签音频片段、3470条强标签音频片段、10000条合成强标签音频片段。这是典型弱标记的半监督声本文档来自技高网...

【技术保护点】

1.一种基于半监督的声音事件检测方法,其特征在于,包括:

2.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对所述原始音频数据进行特征提取,包括:

3.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述构建基于CNN-Transformer的深度学习模型,包括:

4.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对有标签数据和无标签数据分别进行增强,包括:

5.根据权利要求4所述的基于半监督的声音事件检测方法,其特征在于,所述对于有标签数据,采用数据融合的方式进行增强,并进行有监督训练...

【技术特征摘要】

1.一种基于半监督的声音事件检测方法,其特征在于,包括:

2.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对所述原始音频数据进行特征提取,包括:

3.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述构建基于cnn-transformer的深度学习模型,包括:

4.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对有标签数据和无标签数据分别进行增强,包括:

5.根据权利要求4所述的基于半监督的声音事件检测方法,其特征在于,所述对于有标签数据,采用数据融合的方式进行增强,并进行有监督训练,计算出有监督损失,包括:

6.根据权利要求4所述的基于半监督的声音...

【专利技术属性】
技术研发人员:胡瑶瑶黄青华
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1