一种高效低延迟的声音事件检测的模型及其训练方法技术

技术编号：40702919 阅读：38 留言：0更新日期：2024-03-22 11:01

本发明专利技术涉及一种高效低延迟的声音事件检测的模型及其训练方法，采用Vit作为模型骨干，具有更强的信息抽取能力，相较于卷积结构具有更高效的矩阵运算效率，对声学表征的时域、频域进行独立建模，可以根据设备性能灵活选定输入序列的长度，极大地减小模型的延迟，提升推理效率；采用知识蒸馏的方式进行预训练，产出小、推理效率高的模型，并通过预训练使模型获得抽取声音事件表征的能力，利用先验知识使得模型具有良好的泛化性；在预训练模型的基础上，在少量目标事件的数据集上进行微调，产出目标事件的检测模型，而无需进行细粒度标注，省时省力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其是一种高效低延迟的声音事件检测的模型及其训练方法。

技术介绍

1、声音事件检测(audio event detection，aed)，主要目的是检测连续的音频流之中有无出现目标声音事件，比如检测设备故障异常发出的声音，事故现场发出的声音，野生动物的声音等等。具体的，就是使用神经网络，以一段声学特征作为输入，并以该声学片段中可能包含的声学事件作为输出，从而标定音频流中包含的声音事件。

2、现有技术中，业界对于声音事件检测的通用做法是将该任务视为分类任务进行训练并加以优化，为应对复杂多变的应用环境，其骨干网络尺寸较大，这不利于模型的推理部署。

3、并且，基于分类的任务的训练方式不利于模型学习提取通用声学表征的能力，造成模型的泛化性不足、容易造成误检。

4、此外，对于aed的训练数据，细粒度(标注事件边界)的音频事件标注非常耗时费力，这造成aed的训练数据制作获取困难、大量无细粒度标注的训练数据无法有效利用。

技术实现思路

1、为解...

【技术保护点】

1.一种高效低延迟的声音事件检测的模型，其特征在于：所述模型采用Vit作为模型骨干，包括：

2.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：所述二维卷积的卷积核输出通道数为192、卷积核为16×16、跳步为16×16。

3.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：对降采样加上位置编码，以表征时频输入的顺序关系。

4.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：所述transformer模型设置为12层。

5.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于...

【技术特征摘要】

1.一种高效低延迟的声音事件检测的模型，其特征在于：所述模型采用vit作为模型骨干，包括：

2.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：所述二维卷积的卷积核输出通道数为192、卷积核为16×16、跳步为16×16。

3.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：对降采样加上位置编码，以表征时频输入的顺序关系。

4.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：所述transformer模型设置为12层。

5.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：将分类层输出的动态范围归一化至[0,1]。

6.一种高效低延迟的声音事件检测的模型的训练方法，其特征在于：包括教师模型，由教师模型指导学生模型，教师模型与学生模型的输出均对应每条输入音频中可能包含的事件的概率；还包括预训练数据集，预训练数据集海量涵盖所有常见声音事件的音频数据，预训练数据集中标...

【专利技术属性】
技术研发人员：王飞，王欢良，马殿昌，谢勇，
申请(专利权)人：苏州奇梦者科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人