一种基于多特征融合的机器视觉人体异常行为识别方法技术

技术编号:22974960 阅读:20 留言:0更新日期:2019-12-31 23:31
本发明专利技术公开了一种基于多特征融合的机器视觉人体异常行为识别方法,包括人脸属性检测、表情分析、姿态分析、人体异常行为分析。首先对视频中的行人进行人脸检测,将检测到的人脸归一化后输入人脸属性、表情检测模型,得到行人的属性和面部表情;同时对视频中的行人进行人体骨骼关键点检测,得到人体骨骼位位置信息;最后对行人属性,面部表情、姿态特征利用本发明专利技术提出的特征融合方法,将融合后的数据输入人体异常行为分析模型分析行人的异常行为,人体异常行为分析模型的设计采用提出的分组交叉传递的思想,该方法具有较好的鲁棒性、移植性、速度快,本方法可以嵌入到摄像头中,分析当前场景中行人的行为;特别是在安防领域应用有深远的意义。

A method of human abnormal behavior recognition based on multi feature fusion in machine vision

【技术实现步骤摘要】
一种基于多特征融合的机器视觉人体异常行为识别方法
本专利技术涉及一种机器视觉人体异常行为识别方法,尤其涉及一种基于多特征融合的机器视觉人体异常行为识别方法,属于智能安防领域。
技术介绍
随着计算机技术、互联网和人工智能的发展,视频图像的规模呈指数式的增长。如何让机器按照人类的思维方式去“认识”图像,并实现在不同场景下图像的自动理解,已经成为机器视觉领域一个急需解决的问题。当今摄像头装置无处不在,每时每刻都会产生海量的视频数据,而摄像头在安防领域的应用更是广泛;但是现在的摄像头大部分都是作为视频的采集装置,不能对场景中人的异常行为进行识别,通常在发生了事故后,再去调取视频图像取证,如果摄像头能对当前视频场景中行人的异常行为做出准确的识别,并联动报警系统,这样可以极大的降低公民面临的危害;从安全角度考虑,异常行为识别,可以通过自动识别视频场景中的异常行为,提前保护周围人的安全,减少不必要的危险发生;从社会角度上讲,这对社会治安,和人们的幸福指数都有很大的帮助;但视频中行人的异常行为分析与识别仍然面临着巨大挑战。传统的人体异常行为分析大都基于图像处理技术,采用一些形状建模,模板匹配的方法来评估人体的行为。在复杂的现实场景中表现鲁棒性不好,而且效果差,并未得到很好的应用。
技术实现思路
本专利技术提供了一种基于多特征融合的机器视觉人体异常行为识别方法。本专利技术通过对视频图像中人脸属性,表情,人体姿态多个特征进行融合,提出了一种基于多特征融合的机器视觉人体异常行为识别方法,其特征在于包括人体多种特征融合方法以及人体异常行为识别模型的设计方法。步骤1:获取人体的多个特征基于WideFace数据集,采用SFace算法,SFace是针对场景种人脸多处度问题而设计的一种网络结构,适合检测视频中的人脸;创建一个多任务网络,基础网络采用ShuffleNet提取特征,shuffleNet网络是一种轻量级卷积神经网络,适合应用在移动端;将SFace算法模型检测到的人脸输入到多任务网络中,输出人脸的五种属性和人脸的五种表情;该多任务网络是把人脸属性和人脸表情当作分类任务去做的,所以输出的结果的形式是10个(pi,pj)的概率向量,对10个概率向量做拼接,得到1个1*20的特征向量;该特征向量的每个位置分别表示五种属性:性别,年龄,肤色,发型,戴眼镜与否,以及五种表情(沮丧,紧张,惊恐,惊讶,喜悦)的概率。人体骨骼关键点的获取,采用PAF算法,该PAF算法有两个分支,上面的分支对人体关键点做检测,下面的分支对人体关键点做聚类操作,基础网络采用ShuffleNet提取特征,输出的结果是人体18个关键点的坐标位置,包括:鼻子,左右眼睛,左右耳朵,左右肩膀,左右手肘,左右手腕,左右臀部,左右膝盖,左右脚踝,脖子;步骤2:多特征的特征融合第一步:对步骤1中获取的特征,包括:人脸表情和人脸属性的特征向量,及人体姿态的18个关键点的特征向量做特征融合。首先对人体姿态的18个关键点的坐标(xi,yi),两两做差值计算,具体计算如下:(xn-yn)=(xj-yj)-(xi-yi)0≤i<j<18i,j∈N+,n∈[1,153]其中n表示运算后的生成的坐标,i,j表示18个关键点中的一个关键点得到2*153维的人体姿态向量表达,然后将该向量转换成1*306维的特征向量,具体计算如下:将人脸表情,属性的特征向量与人体姿态的特征向量做connect操作,即将两个1维的向量,直接拼接成一个一维的向量,转换成1*326维的特征向量,具体操作如下:其中(pk1qk2)T1*20表示人脸表情、属性特征向量,(xmym)T1*306表示人体姿态特征向量,进行connect操作后的特征向量,做为当前帧中行人的行为表达;该特征向量融合了人体的姿态信息,脸部的表情信息和脸部的属性信息;第二步:间隔一秒再截取一帧,重复第一步操作,得到1*326维的特征向量;同样该向量代表了当前帧中行人的行为表达;依次重复第一步操作,得到10个1*326维的行人行为的特征向量,获取的10个1*326维的向量代表了行人行为的静态特征。第三步:为了进一步获得行人行为在时序上的特征变化,接下来对10个1*326维的特征向量后面的视频帧与前面的视频帧做差值运算,具体计算如下:其中(pi1qi1xi1yi1)T1*326表示后面视频的特征向量,(pj1qj1xj1yj1)T1*326,表示前面帧的视频特征向量每操作一次得到一个(pn1qn1xn1yn1)T1*326,10帧图像共得到45个1*326维的特征向量,将45个向量进行拼接得到了一个45*326维的特征向量,具体计算如下:其中T表示向量转置;该特征向量融合了人体的姿态信息,人脸的表情信息,属性信息,以及在时序空间上的变化信息;该特征向量作为人体异常行为分析模型最终的输入。步骤3:人体异常行为分析模型的设计及实现根据步骤2数据处理操作获得的45*326维的特征数据,首先该处理方法对数据的每个特征做了特征融合,以及对融合后的特征的空间信息也做了关联。为此通过一个复杂的非线性的深度网络,来进一步拟合当前的高维特征,最后对特征分类;但是由于深度网络的参数多,如果每个神经元都采用全连接的方式,参数量巨大,会使得整个模型对算力的要求高;考虑到整个人体异常行为分析的模型,人脸表情,属性,人体姿态的获取,都采用的深度网络模型,时间消耗大;如果异常行为分析模型参数量和float计算都很大,会使得整个异常行为分析模型因为对算力要求高,导致在实际应用的过程中需要更高的服务配置,同时维护成本也变得更高,无法在现实场景中得到应用;所以,对人体异常行为分析模型速度的提升就变得尤为重要。设计了一种网络模型(深度可分离的交叉前向传递的网络)来降低模型的参数和float计算量;网络模型的结构如图4所示;模型设计细节如下:第一步:网络模型第一层有2048个神经元,和输入层是全连接的关系,即输入的每个特征值,都乘以一个权重w,作为下一个神经元的值,具体如图5所示;为了表示接下来每层的分组的情况,定义如下公式:其中k表示第几层神经网络,x表示k层的第几组,y表示第x组中的第几组,z表示第xy组的神经元个数;第二步:第一层与第二层以分组的形式连接,具体如下:将第一层的神经元分成4组,每组512个神经元,根据公式1-1可知,对第一层而言,k=1x∈[1,4]y=1z=512。第一层的每组神经元与第二层神经元之间是全连接的方式,但每个组间是相互独立传递的。这样就得到了第二层神经元,第二层神经元总个数为512个,由4组组成;每组神经元个数为128。第三步:由于第二层与第三层之间采用组间交叉传递的方式,所以把第二层的每一组内又平均分成4组,根据公式1-1可知,此时k=2x∈[1,4]y∈[1,4]z=32,具体结构如图6所示。如果整个特征只在组间传递,不同组的输出与输入没有本文档来自技高网...

【技术保护点】
1.一种基于多特征融合的机器视觉人体异常行为识别方法,其特征在于:本方法包括如下步骤,/n步骤1:获取人体的多个特征/n基于WideFace数据集,采用SFace算法,SFace是针对场景种人脸多处度问题而设计的一种网络结构,适合检测视频中的人脸;创建一个多任务网络,基础网络采用ShuffleNet提取特征,shuffleNet网络是一种轻量级卷积神经网络,适合应用在移动端;将SFace算法模型检测到的人脸输入到多任务网络中,输出人脸的五种属性和人脸的五种表情;该多任务网络是把人脸属性和人脸表情当作分类任务去做的,所以输出的结果的形式是10个(p

【技术特征摘要】
1.一种基于多特征融合的机器视觉人体异常行为识别方法,其特征在于:本方法包括如下步骤,
步骤1:获取人体的多个特征
基于WideFace数据集,采用SFace算法,SFace是针对场景种人脸多处度问题而设计的一种网络结构,适合检测视频中的人脸;创建一个多任务网络,基础网络采用ShuffleNet提取特征,shuffleNet网络是一种轻量级卷积神经网络,适合应用在移动端;将SFace算法模型检测到的人脸输入到多任务网络中,输出人脸的五种属性和人脸的五种表情;该多任务网络是把人脸属性和人脸表情当作分类任务去做的,所以输出的结果的形式是10个(pi,pj)的概率向量,对10个概率向量做拼接,得到1个1*20的特征向量;该特征向量的每个位置分别表示五种属性:性别,年龄,肤色,发型,戴眼镜与否,以及五种表情概率,五种表情分别为沮丧、紧张、惊恐、惊讶、喜悦;
人体骨骼关键点的获取,采用PAF算法,该PAF算法有上面和下面两个分支,上面的分支对人体关键点做检测,下面的分支对人体关键点做聚类操作,基础网络采用ShuffleNet提取特征,输出的结果是人体18个关键点的坐标位置,包括:鼻子,左右眼睛,左右耳朵,左右肩膀,左右手肘,左右手腕,左右臀部,左右膝盖,左右脚踝,脖子;
步骤2:多特征的特征融合
第一步:对步骤1中获取的特征,包括:人脸表情和人脸属性的特征向量,及人体姿态的18个关键点的特征向量做特征融合;
首先对人体姿态的18个关键点的坐标(xi,yi),两两做差值计算,具体计算如下:
(xn-yn)=(xj-yj)-(xi-yi)0≤i<j<18i,j∈N+,n∈[1,153]
其中n表示运算后的生成的坐标,i,j表示18个关键点中的一个关键点
得到2*153维的人体姿态向量表达,然后将该向量转换成1*306维的特征向量,具体计算如下:



将人脸表情,属性的特征向量与人体姿态的特征向量做connect操作,即将两个1维的向量,直接拼接成一个一维的向量,转换成1*326维的特征向量,具体操作如下:



其中(pk1qk2)T1*20表示人脸表情、属性特征向量,(xmym)T1*306表示人体姿态特征向量,进行connect操作后的特征向量,做为当前帧中行人的行为表达;该特征向量融合了人体的姿态信息,脸部的表情信息和脸部的属性信息;
第二步:间隔一秒再截取一帧,重复第一步操作,得到1*326维的特征向量;同样该向量代表了当前帧中行人的行为表达;依次重复第一步操作,得到10个1*326维的行人行为的特征向量,获取的10个1*326维的向量代表了行人行为的静态特征;
第三步:为了进一步获得行人行为在时序上的特征变化,接下来对10个1*326维的特征向量后面的视频帧与前面的视频帧做差值运算,具体计算如下:



其中(pi1qi1xi1yi1)T1*326表示后面视频的特征向量,(pj1qj1xj1yj1)T1*326,表示前面帧的...

【专利技术属性】
技术研发人员:陈双叶张洪路
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1