声学事件检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34515095 阅读:51 留言:0更新日期:2022-08-13 21:02
本申请实施例公开了声学事件检测方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:获取待检测音频;将待检测音频分割为待检测片段;通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射;计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度;基于计算出的相似度输出声学事件检测结果。该实施方式提供了一种基于正、负例原型的声学事件检测机制,实现了少样本情况下的声学事件检测。样本情况下的声学事件检测。样本情况下的声学事件检测。

【技术实现步骤摘要】
声学事件检测方法、装置、电子设备和存储介质


[0001]本申请实施例涉及计算机
,尤其涉及声学事件检测方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起,智能语音技术已逐渐被应用到人们的日常生活中,包括自动语音识别、语音增强,声学事件分类和检测,说话人识别,语音唤醒,网络视频的应用需求也越来越多。其中,声学事件分类和检测技术是模仿人类辨识声学事件的能力,利用音频信号处理和深度学习技术完成对声学事件的分类与识别,如人的说话声、交通工具的声音、和动物叫声等。
[0003]声学事件检测(AED)是检测在音频中是否发生某些声音事件的任务。AED可用于许多领域,在智能家居中用声学检测实现对家居的语音控制;无人驾驶,协助系统判断当前车辆所处的环境情况;异常声音检测可协助工厂智能化监测机器的运行状态,对异常机器及时做出提醒,大大减少人工监测成本;生物声学事件检测(BED)是一种自动检测和识别各种各样的动物(哺乳类,鸟,等)叫声的技术,可协助生物研究工作者对生物进行监测,为后续的研究提供有利条件。
[0004]在许多文献提出的关于声音事件检测的方法中,都需要大量精确标签的数据训练模型。然而在现实生活中,对于生物声学事件检测任务来说,收集大量标签过的训练数据是很困难的,尤其是稀有动物,比如老虎、朱鹮、仙鹤等。

技术实现思路

[0005]本申请实施例提出了声学事件检测方法、装置、电子设备和存储介质。
[0006]第一方面,本申请的一些实施例提供了一种声学事件检测方法,该方法包括:获取待检测音频;将待检测音频分割为待检测片段;通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射;计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度;基于计算出的相似度输出声学事件检测结果。
[0007]在一些实施例中,负例原型经由以下步骤生成:通过预先训练的特征提取网络确定正样本片段与负样本片段的高维映射;通过正样本片段的高维映射计算正例原型;计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离;根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段;通过保留的负样本片段的高维映射计算负例原型。
[0008]在一些实施例中,根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段,包括:计算第二预设数目个正样本片段的高维映射与正例原型的第二平均距离;根据第一平均距离与第二平均距离确定距离阈值;保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段。
[0009]在一些实施例中,计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离,包括:通过高斯函数拟合第一预设数目个负样本片段的高维映射与正例原型的距离分布;根据分布的均值确定第一平均距离。
[0010]在一些实施例中,通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射,包括通过预先训练的至少两种特征提取网络分别确定待检测音频中各个待检测片段的高维映射;以及基于计算出的相似度输出声学事件检测结果,包括:基于至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果;融合备选检测结果得到声学事件检测结果。
[0011]在一些实施例中,融合备选检测结果得到声学事件检测结果,包括:通过交并比计算确定备选检测结果中重叠的部分;根据重叠的部分得到声学事件检测结果。
[0012]在一些实施例中,根据重叠的部分得到声学事件检测结果,包括:选择至少两种特征提取网络中判断准确度高的特征提取网络对应的备选检测结果;计算重叠的部分中选择的备选检测结果的声学事件的平均后验概率;筛选出除重叠的部分外的备选检测结果中声学事件的平均后验概率大于平均后验概率的备选检测结果;合并筛选出的备选检测结果与重叠的部分得到声学事件检测结果。
[0013]在一些实施例中,通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射,包括:提取待检测音频中各个待检测片段的梅尔特征;将提取的梅尔特征在每个通道上进行能量标准化,得到特征提取网络的输入。
[0014]在一些实施例中,至少两种特征提取网络,包括:采用元学习的训练方式训练得到的原型网络,原型网络选择卷积神经网络作为网络结构。
[0015]在一些实施例中,至少两种特征提取网络,包括:使用迁移学习方法将训练得到的网络作为第2版模型的特征提取模块。
[0016]第二方面,本申请的一些实施例提供了一种声学事件检测装置,该装置包括:获取单元,被配置成获取待检测音频;分割单元,被配置成将待检测音频分割为待检测片段;确定单元,被配置成通过预先训练的特征提取网络确定待检测音频中各个待检测片段的高维映射;计算单元,被配置成计算各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度;输出单元,被配置成基于计算出的相似度输出声学事件检测结果。
[0017]在一些实施例中,装置还包括负例原型生成单元,负例原型生成单元被配置成:通过预先训练的特征提取网络确定正样本片段与负样本片段的高维映射;通过正样本片段的高维映射计算正例原型;计算第一预设数目个负样本片段的高维映射与正例原型的第一平均距离;根据第一平均距离保留负样本片段中不易与正样本片段混淆的负样本片段;通过保留的负样本片段的高维映射计算负例原型。
[0018]在一些实施例中,负例原型生成单元,进一步被配置成:计算第二预设数目个正样本片段的高维映射与正例原型的第二平均距离;根据第一平均距离与第二平均距离确定距离阈值;保留负样本片段中高维映射与正例原型的距离大于距离阈值的负样本片段。
[0019]在一些实施例中,负例原型生成单元,进一步被配置成:通过高斯函数拟合第一预设数目个负样本片段的高维映射与正例原型的距离分布;根据分布的均值确定第一平均距离。
[0020]在一些实施例中,确定单元,进一步被配置成通过预先训练的至少两种特征提取网络分别确定待检测音频中各个待检测片段的高维映射;以及输出单元,进一步被配置成:基于至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果;融合备选检测结果得到声学事件检测结果。
[0021]在一些实施例中,输出单元,进一步被配置成:通过交并比计算确定备选检测结果中重叠的部分;根据重叠的部分得到声学事件检测结果。
[0022]在一些实施例中,输出单元,进一步被配置成:选择至少两种特征提取网络中判断准确度高的特征提取网络对应的备选检测结果;计算重叠的部分中选择的备选检测结果的声学事件的平均后验概率;筛选出除重叠的部分外的备选检测结果中声学事件的平均后验概率大于平均后验概率的备选检测结果;合并筛选出的备选检测结果与重叠的部分得到声学事件检测结果。
[0023]在一些实施例中,确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学事件检测方法,包括:获取待检测音频;将所述待检测音频分割为待检测片段;通过预先训练的特征提取网络确定所述待检测音频中各个待检测片段的高维映射;计算所述各个待检测片段的高维映射与基于目标声学事件的正样本片段与负样本片段确定的正例原型、负例原型的相似度;基于计算出的相似度输出声学事件检测结果。2.根据权利要求1所述的方法,其中,所述负例原型经由以下步骤生成:通过预先训练的特征提取网络确定所述正样本片段与所述负样本片段的高维映射;通过所述正样本片段的高维映射计算正例原型;计算第一预设数目个负样本片段的高维映射与所述正例原型的第一平均距离;根据所述第一平均距离保留所述负样本片段中不易与所述正样本片段混淆的负样本片段;通过保留的负样本片段的高维映射计算负例原型。3.根据权利要求2所述的方法,其中,所述根据所述第一平均距离保留所述负样本片段中不易与所述正样本片段混淆的负样本片段,包括:计算第二预设数目个正样本片段的高维映射与所述正例原型的第二平均距离;根据所述第一平均距离与所述第二平均距离确定距离阈值;保留所述负样本片段中高维映射与所述正例原型的距离大于所述距离阈值的负样本片段。4.根据权利要求2所述的方法,其中,所述计算第一预设数目个负样本片段的高维映射与所述正例原型的第一平均距离,包括:通过高斯函数拟合所述第一预设数目个负样本片段的高维映射与所述正例原型的距离分布;根据所述分布的均值确定所述第一平均距离。5.根据权利要求1所述的方法,其中,所述通过预先训练的特征提取网络确定所述待检测音频中各个待检测片段的高维映射,包括通过预先训练的至少两种特征提取网络分别确定所述待检测音频中各个待检测片段的高维映射;以及所述基于计算出的相似度输出声学事件检测结果,包括:基于所述至少两种特征提取网络中各个特征提取网络提取的高维映射计算出的相似度确定该特征提取网络对应的备选检测结果;融合所述备选检测结果得到所述声学事件检测结果。6.根据权利要求5所述的方法,其中,所述融合所述备选检测结果得到所述声学事件检测结果,包括:通过交并比计算确定所述备...

【专利技术属性】
技术研发人员:龙艳花吴潇潇许东星
申请(专利权)人:云知声上海智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1