【技术实现步骤摘要】
本专利技术涉及音频数据处理,具体地,涉及一种基于半监督的声音事件检测方法、系统、终端及介质。
技术介绍
1、随着多媒体和网络技术的发展,音频数据在数据库中迅速增长,基于音频信息的sed(sound event detection,声音事件检测)引起了人们的极大关注。sed在许多应用中都非常重要,比如智能城市、医疗、监控、视频索引等。
2、sed的目的是识别出一个音频段中存在的事件类别并标注出各事件的起止时间,所以声音事件检测任务可以分成两个子任务,一个是识别at(audio tagging,音频标记),另一个是识别事件时间戳检测。现实生活中的声音往往会有相当大的重叠,识别这种重叠的声音时间被称为复调sed。
3、dcase竞赛task 4提出了一个大规模弱标签半监督声音事件检测任务,该任务的挑战是在少量有标记训练数据基础上,探索引入大量不平衡和未标记的训练数据来提高系统性能的可能性。它的数据集包括:14412条无标签音频片段、1578条若标签音频片段、3470条强标签音频片段、10000条合成强标签音频片段。这是
...【技术保护点】
1.一种基于半监督的声音事件检测方法,其特征在于,包括:
2.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对所述原始音频数据进行特征提取,包括:
3.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述构建基于CNN-Transformer的深度学习模型,包括:
4.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对有标签数据和无标签数据分别进行增强,包括:
5.根据权利要求4所述的基于半监督的声音事件检测方法,其特征在于,所述对于有标签数据,采用数据融合的方式进行增
...【技术特征摘要】
1.一种基于半监督的声音事件检测方法,其特征在于,包括:
2.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对所述原始音频数据进行特征提取,包括:
3.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述构建基于cnn-transformer的深度学习模型,包括:
4.根据权利要求1所述的基于半监督的声音事件检测方法,其特征在于,所述对有标签数据和无标签数据分别进行增强,包括:
5.根据权利要求4所述的基于半监督的声音事件检测方法,其特征在于,所述对于有标签数据,采用数据融合的方式进行增强,并进行有监督训练,计算出有监督损失,包括:
6.根据权利要求4所述的基于半监督的声音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。