【技术实现步骤摘要】
本专利技术涉及人工智能,尤其是一种高效低延迟的声音事件检测的模型及其训练方法。
技术介绍
1、声音事件检测(audio event detection,aed),主要目的是检测连续的音频流之中有无出现目标声音事件,比如检测设备故障异常发出的声音,事故现场发出的声音,野生动物的声音等等。具体的,就是使用神经网络,以一段声学特征作为输入,并以该声学片段中可能包含的声学事件作为输出,从而标定音频流中包含的声音事件。
2、现有技术中,业界对于声音事件检测的通用做法是将该任务视为分类任务进行训练并加以优化,为应对复杂多变的应用环境,其骨干网络尺寸较大,这不利于模型的推理部署。
3、并且,基于分类的任务的训练方式不利于模型学习提取通用声学表征的能力,造成模型的泛化性不足、容易造成误检。
4、此外,对于aed的训练数据,细粒度(标注事件边界)的音频事件标注非常耗时费力,这造成aed的训练数据制作获取困难、大量无细粒度标注的训练数据无法有效利用。
技术实现思路
1、为解
...【技术保护点】
1.一种高效低延迟的声音事件检测的模型,其特征在于:所述模型采用Vit作为模型骨干,包括:
2.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:所述二维卷积的卷积核输出通道数为192、卷积核为16×16、跳步为16×16。
3.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:对降采样加上位置编码,以表征时频输入的顺序关系。
4.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:所述transformer模型设置为12层。
5.如权利要求1所述的一种高效低延迟的声音事件检
...【技术特征摘要】
1.一种高效低延迟的声音事件检测的模型,其特征在于:所述模型采用vit作为模型骨干,包括:
2.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:所述二维卷积的卷积核输出通道数为192、卷积核为16×16、跳步为16×16。
3.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:对降采样加上位置编码,以表征时频输入的顺序关系。
4.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:所述transformer模型设置为12层。
5.如权利要求1所述的一种高效低延迟的声音事件检测的模型,其特征在于:将分类层输出的动态范围归一化至[0,1]。
6.一种高效低延迟的声音事件检测的模型的训练方法,其特征在于:包括教师模型,由教师模型指导学生模型,教师模型与学生模型的输出均对应每条输入音频中可能包含的事件的概率;还包括预训练数据集,预训练数据集海量涵盖所有常见声音事件的音频数据,预训练数据集中标...
【专利技术属性】
技术研发人员:王飞,王欢良,马殿昌,谢勇,
申请(专利权)人:苏州奇梦者科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。