一种音频监测方法及系统技术方案

技术编号:26344784 阅读:31 留言:0更新日期:2020-11-13 21:02
本发明专利技术公开了一种音频监测方法及系统。方法包括如下步骤:收集敏感训练数据,该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种;根据事件的种类给定对应的弱标签,通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率;然后根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。本发明专利技术的检测方法具有检测范围广,覆盖率高,隐私性好等优点。对训练数据标签要求低,人工打标的成本低,易于实现,使用二级判定模型,可以降低虚警率。

【技术实现步骤摘要】
一种音频监测方法及系统
本专利技术涉及监测
,尤其涉及一种音频监测方法及系统。
技术介绍
随着人工智能和深度神经网络在图像,视频和语音等领域的发展,AI在音频领域,包括声音监测,网络音视频推荐等应用也越来越多。目前,基于图像识别的视频监控技术在交通,公共安全、室内监控、网络监测的部分领域已经有比较成熟的应用,但依然存在一些普遍问题。目前应用在安防领域的视频监控主要有以下两点缺陷:(1)监控类别单一视频监测的敏感事件种类较少,事件比较粗糙,例如路人求救,室内异常等通过现有技术还没有较为完善的应用。(2)监控死角摄像头存在死角,在实际生活中,例如婴儿啼哭,卫生间老人摔倒求救等事件受限于场景的隐私性而无法安装摄像头,导致无法监测。为了扩大安防监控的监控领域,并弥补监控的死角,专利技术人发现基于声音事件检测技术以达到辅助监控完成更好的监测任务。专利技术人在实现本申请过程中发现几个关键问题:在获取不同种类的敏感声音时,发现声音片段中具有明确起始点的声音种类标签较难获得,而只包含本文档来自技高网...

【技术保护点】
1.一种音频监测方法,其特征在于,包括如下步骤:/n收集敏感训练数据,该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种;/n根据事件的种类给定对应的弱标签,通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率;/n根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。/n

【技术特征摘要】
1.一种音频监测方法,其特征在于,包括如下步骤:
收集敏感训练数据,该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种;
根据事件的种类给定对应的弱标签,通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率;
根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。


2.如权利要求1所述的音频监测方法,其特征在于,还包括如下步骤:
通过基于循环神经网络的判别模型来完成二次判定,最后验证判别模型输出的置信度是否处于第二指定阈值范围,以输出最后的检测结果。


3.一种音频监测系统,其特征在于,包括:
数据处理及特征提取模块,该模块用于:
数据处理:收集用于训练的敏感事件声音数据,收集的数据的种类包含求救、哭喊、色情、枪声及吸收;其中,不同应用场景下出现概率较高的数据作为吸收类数据;
训练数据只需满足每条包含一个事件种类即可,单条数据的长度在5至20秒;
随机对训练数据添加环境噪声,混响,变速变调,以达到增加模型鲁棒性的效果;
特征处理:预加重,以25ms为一帧,10ms为帧移保持一部分重叠的分帧,使用汉明窗以平滑输入的语音信号以及快速傅里叶变换得到频域特征,利用梅尔滤波组...

【专利技术属性】
技术研发人员:廖闻剑陈眺曲宝珠王康
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1