当前位置: 首页 > 专利查询>福州大学专利>正文

音频监控中基于深度随机森林的声音事件分类方法技术

技术编号:23364283 阅读:33 留言:0更新日期:2020-02-18 17:50
本发明专利技术涉及一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。本发明专利技术基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。

Audio event classification method based on depth random forest in audio monitoring

【技术实现步骤摘要】
音频监控中基于深度随机森林的声音事件分类方法
本专利技术涉及监控系统中音频信号处理方法,具体涉及一种音频监控中基于深度随机森林的声音事件分类方法。
技术介绍
随着移动互联网技术的快速发展,人们可获取的音频数据呈爆炸式增长。如何从庞大、杂乱的音频数据中找出感兴趣的音频信息,是目前许多研究者关注的焦点。音频事件分类与检测是音频信息检索的重要基础,可以帮助解决感兴趣音频事件检出、分类等问题。安全监控系统是维护社会秩序、打击犯罪的强有力手段。传统的安全监控主要是基于视频图像。虽然城市中摄像头越来越多,但是安全保障还有待进一步提升。传统视频监控不能对某些异常情况及时地发出警报,而且需要一定的外部条件如光照、目标物体、清晰度等。基于音频事件检测的音频监控能够实时检测现场的声音,对一些异常音频事件如尖叫声、枪声进行监测,弥补视频监控的不足。因此,音频监控可以辅助视频监控,结合两者的优势组成多模安全监控系统,音频事件检测是音频监控的核心模块。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种音频监控中基于深度随机森林的声音事件分类方法,能够有效的对重叠声音事件进行检测并快速分类。为实现上述目的,本专利技术采用如下技术方案:一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。进一步的,所述步骤S1具体为:步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据处理成N*7503维序列格式,构成特征序列。进一步的,所述训练深度随机森林分类器,具体为:步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展。步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展。进一步的,所述步骤S3具体为:步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率。进一步的,所述步骤S4具体为:步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。本专利技术与现有技术相比具有以下有益效果:本专利技术基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。附图说明图1是本专利技术的方法流程示意框图;图2是本专利技术的实施例中训练深度随机森林流程图;图3是本专利技术的实施例中类预测概率生成图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。请参照图1,本实施例中提供一种音频监控中基于深度随机森林的声音事件分类方法,使用TUT2017和TUT2016声音事件数据集是DCASE2017(DetectionandClassificationofAcousticScenesandEvents)和DCASE2016挑战公开的数据集,分别是室外街道和室内家庭真实环境下的音频记录,各自包含24个和10个音频文件,包含12种声音事件类型;每个音频文件声音长度为3-5分钟,双声道“.wav”格式,采样率为44.1kHz,量化精度为24位。具体包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据处理成N*7503维序列格式,构成特征序列。步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;步骤S3:给定音频监控文件F,按照步骤S2完成划分,得到N*7503维的输入矩阵,使用组合的深度随机森林声音事件分类模型进行预测,得到N个音频片段中包含的声音事件的预测概率;步骤S4:每50个音频片段为一组,对应音频持续区间为该组第一个音频片段的持续区间。每组进行一次声音事件分类,将预测概率阈值设置为0.5,判断当前50个片段数据里某一声音事件类出现次数是否大于等于10,是的话,则分类出该声音事件的类别。同时每个分组内进行一次事件平滑处理,合并相邻音频片段中的连续事件,同时设置允许存在的最小事件长度为0.05秒,如果合并处理后,单一事件持续长度小于0.05秒,则删除该事件。最终合并所有分组的事件分类结果,得到音频监控文件F中包含的声音事件种类以及持续区间。在本实施例中,所述训练深度随机森林分类器,具体为:步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展。步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层本文档来自技高网...

【技术保护点】
1.一种音频监控中基于深度随机森林的声音事件分类方法,其特征在于,包括以下步骤:/n步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;/n步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;/n步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;/n步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。/n

【技术特征摘要】
1.一种音频监控中基于深度随机森林的声音事件分类方法,其特征在于,包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;
步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;
步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。


2.根据权利要求1所述的音频监控中基于深度随机森林的声音事件分类方法,其特征在于,所述步骤S1具体为:
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据处理成N*7503维序列格式,构成特征序列。


3.根据权利要求2所述的音频监控中基于深度随机森林的声音事件分类方法,其特征在于,所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森...

【专利技术属性】
技术研发人员:余春艳刘煌李明达
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1