【技术实现步骤摘要】
本专利技术涉及音频处理,尤其涉及一种声学事件检测方法及装置、电子设备、存储介质。
技术介绍
1、声学事件检测是指通过分析音频信号,自动识别和分类特定声音事件的技术,例如识别玻璃破碎声、婴儿哭声、设备故障异响等。其核心目标是从连续音频流中定位目标声音的起止时间,并判断其类别。
2、目前,声学事件检测的方法主要分为传统方法和深度学习方法。传统方法包括特征提取和分类器,比如mfcc加svm或者hmm。深度学习方法则是cnn、rnn这些模型,可能还要提到一些混合模型如crnn。然而,这些声学事件检测技术虽在简单场景中表现良好,但仍面临噪声干扰、数据依赖、多模态融合低效、实时性不足等核心挑战,导致在复杂场景中的检测效果较差。
技术实现思路
1、本专利技术实施例提供了一种声学事件检测方法及装置、电子设备、存储介质,以解决复杂场景中的声学事件检测效果较差的问题。
2、第一方面,本专利技术实施例提供了一种声学事件检测方法,包括:
3、获取目标区域中的多模态传感器数据和表
...【技术保护点】
1.一种声学事件检测方法,其特征在于,包括:
2.根据权利要求1所述的声学事件检测方法,其特征在于,所述获取目标区域中的多模态传感器数据和表征声学事件的音频数据,包括:
3.根据权利要求2所述的声学事件检测方法,其特征在于,所述基于卡尔曼滤波和图神经网络模型,对所述多模态传感器数据和所述音频数据进行时空融合,得到所述目标区域的融合数据,包括:
4.根据权利要求3所述的声学事件检测方法,其特征在于,在所述基于所述目标区域的场景类型对应的图神经网络模型,将滤波后的传感器数据和所述音频数据映射为图节点,得到所述目标区域的融合数据之前,还包
5...
【技术特征摘要】
1.一种声学事件检测方法,其特征在于,包括:
2.根据权利要求1所述的声学事件检测方法,其特征在于,所述获取目标区域中的多模态传感器数据和表征声学事件的音频数据,包括:
3.根据权利要求2所述的声学事件检测方法,其特征在于,所述基于卡尔曼滤波和图神经网络模型,对所述多模态传感器数据和所述音频数据进行时空融合,得到所述目标区域的融合数据,包括:
4.根据权利要求3所述的声学事件检测方法,其特征在于,在所述基于所述目标区域的场景类型对应的图神经网络模型,将滤波后的传感器数据和所述音频数据映射为图节点,得到所述目标区域的融合数据之前,还包括:
5.根据权利要求1所述的声学事件检测方法,其特征在于,所述基于经过训练的cnn模型和lstm模型,对所述融合数据进行特征提取,得到表征声学事件的融合特征,包括:
6.根据权利要求5所述的声...
【专利技术属性】
技术研发人员:张吉松,李政,刘威,安迪,夏勇峰,
申请(专利权)人:北京蜂巢世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。