音视频融合的人员入侵检测方法技术

技术编号:8453573 阅读:190 留言:0更新日期:2013-03-21 19:23
本发明专利技术提供了一种音视频融合的人员入侵检测方法,所述方法为:基于HOG通过检测区域收缩法进行快速人员识别,基于MFCC使用高斯混合模型(GMM)分类器进行实时脚步识别,基于贝叶斯网络的音视频融合决策。本发明专利技术充分利用视频信息(人体识别结果H、前景像素比例R)和音频信息(脚步声识别结果F),基于贝叶斯网络进行融合判决,得到最终的人员入侵检测结果(I)。相对于单一传感器检测,它大大地提高了鲁棒性,时空联合检测区域收缩的方法使它容易满足实时性要求,可以实现更好的实时性和检测精度的平衡。

【技术实现步骤摘要】

本专利技术涉及一种信息检测领域的方法,具体地,涉及一种。
技术介绍
人员入侵检测是广泛应用于智能视频监控。它不仅需要高精度,而且需要很高的实时性能。大多数方法不能同时满足这两个要求。一些简单的运动检测方法可以很容易满足实时性,但虚警率高,如帧差法、背景差分法,它们对光照非常敏感。虽然光流法受光照影响很小,但是巨大的计算量很难满足实时性要求。这类基于运动检测的方法于人员入侵检测,并不能排除动物入侵和光照变化带来的虚警。最近,Dalal和Triggs提出了一个人员检测方法,论文名称《Histograms oforiented gradients for human detectionKIEEE Conference on Computer Vision andPattern Recognition (CVPR),2005年),具有很好的检测结果。他们的方法使用方向梯度的直方图的(Histograms of Oriented Gradients,HOG)。这种方法被证实完全可以使用线性支持向量机进行行人分类识别。但这种方法的局限是只能处理320x240的图像。用一种稀疏的扫描方法,大概每幅图像要分割成800个检测窗口。此外,如果人的一部分被挡住,在那个区域的HOG特征经过线性支持向量机判决后归为负样本类。近年来音视频(Audio and Video, AV)融合算法在视频监控领域的应用已受到关注。音视频协同矩阵能成功地检测和区分异常的音视频事件。然而,在一个不可预知的环境中,很难区分异常的音视频事件是由小动物或光照变化还是由人员入侵引起的。在论文((Sem1-supervised adapted HMMs for unusual event detection)) (IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2005 年)中提出基于音频和视觉模式训练出一个增量的结构化HMM用于检测异常事件的方法,但这种方法要求原始声音信号段的长度至少为2秒,很难满足实时检测的性能。使用音视频融合用于事件检测比用于跟踪的少很多,有待进一步研究。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种,实现更好的实时性和检测精度的平衡。为实现上述目的,本专利技术提供一种,包括如下步骤步骤一,基于HOG通过检测区域收缩法进行快速人体识别。本步骤分为两小步(I)提取时空检测区域使用自适应高斯混合模型(Gaussian Mixture Model,GMM)进行前景提取,在时域上采用间隔检测策略(Interval Detection Strategy, IDS),把图像在宽度上分成K部分计算每个子区间的前景像素数量占整个前景的比例(Ratio,R),计算出来的子区间的值大于阈值即被选为检测区域,对于上述得到的检测区域做不平衡扩展(Unbalanced Extension, UBD)和重叠消除(Overlap Elimination, 0VE)。(2)在最终得到的区域上做基于HOG特征提取和人体识别检测。步骤(I)中,所述的间隔检测是为了满足实时性的要求,在得到的检测区域上做不平衡扩展是因为一个区域不能完整的包含所要检测的目标,并且与之相邻的一个区域可能包含目标其余的大部分信息,然而做完不平衡扩展之后,所得区域可能存在很多重叠的部分,为了避免重复检测和节省系统资源,所以最后要做重叠消除,就得到了检测目标所在的区域。步骤二,根据步骤一识别出的人体目标,基于MFCC使用高斯混合模型(GMM)分类器进行实时脚步识别。将音频信号分成固定长度为Wa (Wa小于0. 2S)的重叠时间窗口,由于行走特性,一个人在I秒之内一般行走2至3步,因此会存在至少两个段会被归为非脚步,为了提高步骤三中融合算法的精度,将结果做些修正,若之前Is内有至少2次是脚步声,则当前段若被检测为非脚步声更正为脚步声。步骤三,基于贝叶斯网络(Bayesian Network, BN)的音视频融合决策。最后的检测结果(E),视频报警和音频报警作为中间层,底层特征为脚步声识别(F)、基于HOG的快速人体识别(H)和前景像素比例(R)。和像素级融合以及特征级融合相t匕,决策层融合的优势是具有小通信和强大的抗干扰性。此外,它更适合异构传感器融合。与现有技术相比,本专利技术具有如下的有益效果本专利技术使用音视频融合充分利用视频和音频信息,相对于单一传感器检测,它大大地提高了鲁棒性,时空联合检测区域收缩的方法使它容易满足实时性要求,可以实现更好的实时性和检测精度的平衡。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显图1本专利技术基于HOG的快速人体识别概述图;图2本专利技术进行音视频融合决策的贝叶斯网络结构图;图3本专利技术实施效果图,其中(a)原始视频,(b)前景,(C)提取检测区域,⑷基于HOG通过检测区域收缩的检测结果,(e)基于HOG的最初检测结果。具体实施例方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。本实施例涉及的,包括如下具体步骤步骤一,基于HOG通过检测区域收缩法进行快速人体识别。基于HOG的人体识别需要提取并比较固定大小像素块的HOG特征,通过自适应增强来选择需要检测的像素块并且级联带阻滤波器的方法计算复杂度太高并且实时性能差。因为运动物体可以被包含在一个小区域内,在有限的运动区域而不是整个图像做HOG特征的提取可以大大减少计算时间。附图1概括了基于HOG通过检测区域收缩法进行快速人体识别的步骤采用自适应高斯混合模型(GMM)进行前景提取。因为大多数时间的应用程序场景没有异常事件,只需在前景目标出现的时候进行检测即可。假设前景目标出现当Rfg>Tfg,其中Rfg=Pixfg/Pixt(rtal,PixfjP Pixtotal分别代表前景图像和整个图像的像素数量,Tfg是Pixfg/Pixt(rtal的比例阈值。因为人的走路速度比较慢,帧间变化很小,所以采用间隔检测策略(IDS)。为了定位运动目标(locating motion objects,LM0),把图像在宽度上分成K个子区间,第k个子区间记作Bk, k的取值从I到K。Vk=Pixk/Pixfg,Pixk代表第k个子区间的前景像素数量。当Vk>Tb时,Bk被选为检测区域。考虑到前景目标可能跨越两个子区间,需对检测区域进行扩展,考虑到与之相邻的一个区域可能包含目标其余的大部分信息,用不 平衡扩展(UBD)比较合适。如果VkJVlrt (这里Vk=Pixk/Pixfg,Pixk代表第k个子区间的前景像素数量,Pixfg代表前景图像的像素数量,故Vlrl表示第k-1个子区间前景像素占整个前景图像像素的比例,Vk+1表示第k+1个子区间前景像素占整个前景图像像素的比例),检测区域向左扩展n个子区间宽度,向右扩展1-n个子区间宽度,其中n>0.5,反之亦然。扩展后的区域被作为检测区本文档来自技高网
...

【技术保护点】
一种音视频融合的人员入侵检测方法,其特征在于,所述方法包括如下步骤:步骤一,基于HOG通过检测区域收缩法进行快速人体识别;步骤二,根据步骤一识别出的人体目标,基于MFCC使用高斯混合模型分类器进行实时脚步识别;步骤三,基于贝叶斯网络的音视频融合决策。

【技术特征摘要】

【专利技术属性】
技术研发人员:张重阳王德富郑世宝
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1