声学事件检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号：34515095 阅读：51 留言：0更新日期：2022-08-13 21:02

本申请实施例公开了声学事件检测方法、装置、电子设备和存储介质。该方法的一具体实施方式包括：获取待检测音频；将待检测音频分割为待检测片段；通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射；计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果。该实施方式提供了一种基于正、负例原型的声学事件检测机制，实现了少样本情况下的声学事件检测。样本情况下的声学事件检测。样本情况下的声学事件检测。

全部详细技术资料下载

【技术实现步骤摘要】
声学事件检测方法、装置、电子设备和存储介质

[0001]本申请实施例涉及计算机
，尤其涉及声学事件检测方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起，智能语音技术已逐渐被应用到人们的日常生活中，包括自动语音识别、语音增强，声学事件分类和检测，说话人识别，语音唤醒，网络视频的应用需求也越来越多。其中，声学事件分类和检测技术是模仿人类辨识声学事件的能力，利用音频信号处理和深度学习技术完成对声学事件的分类与识别，如人的说话声、交通工具的声音、和动物叫声等。
[0003]声学事件检测(AED)是检测在音频中是否发生某些声音事件的任务。AED可用于许多领域，在智能家居中用声学检测实现对家居的语音控制；无人驾驶，协助系统判断当前车辆所处的环境情况；异常声音检测可协助工厂智能化监测机器的运行状态，对异常机器及时做出提醒，大大减少人工监测成本；生物声学事件检测(BED)是一种自动检测和识别各种各样的动物(哺乳类，鸟，等)叫声的技术，可协助生物研究工作者对生物进行监测，为后续的研究提供有利条件。
[0004]在许多文献提出的关于声音事件检测的方法中，都需要大量精确标签的数据训练模型。然而在现实生活中，对于生物声学事件检测任务来说，收集大量标签过的训练数据是很困难的，尤其是稀有动物，比如老虎、朱鹮、仙鹤等。

技术实现思路

[0005]本申请实施例提出了声学事件检测方法、装置、电子设备和存储介质。
[0006]第一方面，本申请...

【技术保护点】

【技术特征摘要】
1.一种声学事件检测方法，包括：获取待检测音频；将所述待检测音频分割为待检测片段；通过预先训练的特征提取网络确定所述待检测音频中各个待检测片段的高维映射；计算所述各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度；基于计算出的相似度输出声学事件检测结果。2.根据权利要求1所述的方法，其中，所述负例原型经由以下步骤生成：通过预先训练的特征提取网络确定所述正样本片段与所述负样本片段的高维映射；通过所述正样本片段的高维映射计算正例原型；计算第一预设数目个负样本片段的高维映射与所述正例原型的第一平均距离；根据所述第一平均距离保留所述负样本片段中不易与所述正样本片段混淆的负样本片段；通过保留的负样本片段的高维映射计算负例原型。3.根据权利要求2所述的方法，其中，所述根据所述第一平均距离保留所述负样本片段中不易与所述正样本片段混淆的负样本片段，包括：计算第二预设数目个正样本片段的高维映射与所述正例原型的第二平均距离；根据所述第一平均距离与所述第二平均距离确定距离阈值；保留所述负样本片段中高维映射与所述正例原型的距离大于所述距离阈值的负样本片段。4.根据权利要求2所述的方法，其中，所述计算第一预设数目个负样本片段的高维映射与所述正例原型的第一平均距离，包括：通过高斯函数拟合所述第一预设数目个负样本片段的高维映射与所述正例原型的距离分布；根据所述分布的均值确定所述第一平均距离。5.根据权利要求1所述的方法，其中，所述通过预先训练的特征提取网络确定所述待检测音频中各个待检测片段的高维映射，包括通过预先训练的至少两种特征提取网络分别确定所述待检测音频中各个待检测片段的高维映射；以及所述基于计算出的相似度输出声学事件检测结果，包括：基于所述至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果；融合所述备选检测结果得到所述声学事件检测结果。6.根据权利要求5所述的方法，其中，所述融合所述备选检测结果得到所述声学事件检测结果，包括：通过交并比计算确定所述备...

【专利技术属性】
技术研发人员：龙艳花，吴潇潇，许东星，
申请(专利权)人：云知声上海智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人