一种基于音频的事件检测方法和系统技术方案

技术编号:26175280 阅读:25 留言:0更新日期:2020-10-31 14:07
本申请实施例公开了一种基于音频的事件检测方法和系统。所述基于音频的事件检测方法包括:获取一段音频信号;将所述音频信号切割成多个音频片段;对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。本申请采用了在神经网络模型中引入残差连接,可以使神经网络模型同时学习浅层与深层的特征,有效提升了模型对音频信号中目标事件检测的准确性,同时联合多个音频片段是否包含目标事件的确定结果,来确定音频信号中是否包含目标事件的方法,可以增加对音频信号中目标事件检测的准确性。

【技术实现步骤摘要】
一种基于音频的事件检测方法和系统
本申请涉及安全监测领域,特别涉及一种基于音频的事件检测方法和系统。
技术介绍
随着经济发展,民众对衣食住行体验的要求越来越高,先进的音频检测是提供民众体验的一种途径。对于一些可能存在潜在风险的场景(如,网约车服务、地下停车场),通过录制的音频及时判断出当前场景是否存在目标事件(如,冲突、抢劫等),并及时实施干预措施具有非常重要的意义。因此,有必要提供一种基于音频进行目标事件检测的方法,以更准确的判断音频对应的场景是否存在目标事件(如,冲突、抢劫等),从而可以有效的采取相应的干预措施,以保证民众的人身安全。
技术实现思路
本申请实施例之一提供一种基于音频的事件检测方法。所述方法包括:获取一段音频信号;将所述音频信号切割成多个音频片段;对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。在一些实施例中,所述对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件包括:确定所述多个音频片段的一个或多个音频片段中是否包含目标事件;联合所述一个或多个音频片段中是否包含目标本文档来自技高网...

【技术保护点】
1.一种基于音频的事件检测方法,其特征在于,包括:/n获取一段音频信号;/n将所述音频信号切割成多个音频片段;/n对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。/n

【技术特征摘要】
1.一种基于音频的事件检测方法,其特征在于,包括:
获取一段音频信号;
将所述音频信号切割成多个音频片段;
对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。


2.如权利要求1所述的方法,其特征在于,所述对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件包括:
确定所述多个音频片段的一个或多个音频片段中是否包含目标事件;
联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件。


3.如权利要求2所述的方法,其特征在于,所述联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件包括:
若任一所述音频片段中包含目标事件,则确定所述音频信号中包含所述目标事件;
若所述音频片段中全部都未包含目标事件,则确定所述音频信号中未包含所述目标事件。


4.如权利要求1所述的方法,其特征在于,所述将所述音频信号切割成多个音频片段包括将所述音频信号在时域上切割成多个音频片段。


5.如权利要求1所述的方法,其特征在于,所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、强奸、车祸中至少一个。


6.如权利要求2所述的方法,其特征在于,所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件包括:
对于音频片段:
提取音频片段的特征信息;
基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值。


7.如权利要求6所述的方法,其特征在于,所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件还包括:
对于音频片段:
获取设定阈值;
判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值:
若是,则确定所述音频片段中包含目标事件。


8.如权利要求6所述的方法,其特征在于,所述特征信息包括以下特征中的一种或多种的组合:F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征以及Bottleneck特征。


9.如权利要求6所述的方法,其特征在于,所述机器学习模型包括神经网络模型;
所述基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值包括:
机器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。


10.如权利要求9所述的方法,其特征在于,所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。


11.如权利要求9所述的方法,其特征在于,所述神经网络模型中具有残差连接;所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。


12.如权利要求6所述的方法,其特征在于,所述机器学习模型通过以下方法获得:
获取音频信号样本;其中,包含目标事件的音频信号样本标记为正样本,未包含目标事件的音频信号样本标记为负样本;
将音频信号样本切割成多个音频片段;
基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。


13.如权利要求1所述的方法,其特征在于,所述音频信号通过音频采集设备实时获取;所述方法还包括:
响应于所述音频信号包含所述目标事件,对与所述音频信号相关的场景实施干预措施。


14.如权利要求13所述的方法,其特征在于,所述干预措施包括提醒、支援、报警中至少一个。


15.一种基于音频的事件检测系统,其特征在于,包括获取模块、音频信号切割模块和处理模块;其中:
所述获取模块用于获取一段音频信号;
所述音频信号切割模块用于将所述音频信号切割成多个音频片段;
所述处理模...

【专利技术属性】
技术研发人员:李武波张睿雄
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1