一种基于多特征融合的机器视觉人体异常行为识别方法技术

技术编号：22974960 阅读：20 留言：0更新日期：2019-12-31 23:31

本发明专利技术公开了一种基于多特征融合的机器视觉人体异常行为识别方法，包括人脸属性检测、表情分析、姿态分析、人体异常行为分析。首先对视频中的行人进行人脸检测，将检测到的人脸归一化后输入人脸属性、表情检测模型，得到行人的属性和面部表情；同时对视频中的行人进行人体骨骼关键点检测，得到人体骨骼位位置信息；最后对行人属性，面部表情、姿态特征利用本发明专利技术提出的特征融合方法，将融合后的数据输入人体异常行为分析模型分析行人的异常行为，人体异常行为分析模型的设计采用提出的分组交叉传递的思想，该方法具有较好的鲁棒性、移植性、速度快，本方法可以嵌入到摄像头中，分析当前场景中行人的行为；特别是在安防领域应用有深远的意义。

A method of human abnormal behavior recognition based on multi feature fusion in machine vision

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征融合的机器视觉人体异常行为识别方法
本专利技术涉及一种机器视觉人体异常行为识别方法，尤其涉及一种基于多特征融合的机器视觉人体异常行为识别方法，属于智能安防领域。
技术介绍
随着计算机技术、互联网和人工智能的发展，视频图像的规模呈指数式的增长。如何让机器按照人类的思维方式去“认识”图像，并实现在不同场景下图像的自动理解，已经成为机器视觉领域一个急需解决的问题。当今摄像头装置无处不在，每时每刻都会产生海量的视频数据，而摄像头在安防领域的应用更是广泛；但是现在的摄像头大部分都是作为视频的采集装置，不能对场景中人的异常行为进行识别，通常在发生了事故后，再去调取视频图像取证，如果摄像头能对当前视频场景中行人的异常行为做出准确的识别，并联动报警系统，这样可以极大的降低公民面临的危害；从安全角度考虑，异常行为识别，可以通过自动识别视频场景中的异常行为，提前保护周围人的安全，减少不必要的危险发生；从社会角度上讲，这对社会治安，和人们的幸福指数都有很大的帮助；但视频中行人的异常行为分析与识别仍然面临着巨大挑战。传统的人体异常行为分析大都基于图像处理技术，采用一些形状建模，模板匹配的方法来评估人体的行为。在复杂的现实场景中表现鲁棒性不好，而且效果差，并未得到很好的应用。
技术实现思路
本专利技术提供了一种基于多特征融合的机器视觉人体异常行为识别方法。本专利技术通过对视频图像中人脸属性，表情，人体姿态多个特征进行融合，提出了一种基于多特征融合的机器视觉人体异常行为识别方法，其特征在于包括人...

【技术保护点】
1.一种基于多特征融合的机器视觉人体异常行为识别方法，其特征在于：本方法包括如下步骤，/n步骤1：获取人体的多个特征/n基于WideFace数据集，采用SFace算法，SFace是针对场景种人脸多处度问题而设计的一种网络结构，适合检测视频中的人脸；创建一个多任务网络，基础网络采用ShuffleNet提取特征，shuffleNet网络是一种轻量级卷积神经网络，适合应用在移动端；将SFace算法模型检测到的人脸输入到多任务网络中，输出人脸的五种属性和人脸的五种表情；该多任务网络是把人脸属性和人脸表情当作分类任务去做的，所以输出的结果的形式是10个(p

【技术特征摘要】
1.一种基于多特征融合的机器视觉人体异常行为识别方法，其特征在于：本方法包括如下步骤，
步骤1：获取人体的多个特征
基于WideFace数据集，采用SFace算法，SFace是针对场景种人脸多处度问题而设计的一种网络结构，适合检测视频中的人脸；创建一个多任务网络，基础网络采用ShuffleNet提取特征，shuffleNet网络是一种轻量级卷积神经网络，适合应用在移动端；将SFace算法模型检测到的人脸输入到多任务网络中，输出人脸的五种属性和人脸的五种表情；该多任务网络是把人脸属性和人脸表情当作分类任务去做的，所以输出的结果的形式是10个(pi,pj)的概率向量，对10个概率向量做拼接，得到1个1*20的特征向量；该特征向量的每个位置分别表示五种属性：性别，年龄，肤色，发型，戴眼镜与否，以及五种表情概率，五种表情分别为沮丧、紧张、惊恐、惊讶、喜悦；
人体骨骼关键点的获取，采用PAF算法，该PAF算法有上面和下面两个分支，上面的分支对人体关键点做检测，下面的分支对人体关键点做聚类操作，基础网络采用ShuffleNet提取特征，输出的结果是人体18个关键点的坐标位置，包括：鼻子，左右眼睛，左右耳朵，左右肩膀，左右手肘，左右手腕，左右臀部，左右膝盖，左右脚踝，脖子；
步骤2：多特征的特征融合
第一步：对步骤1中获取的特征，包括：人脸表情和人脸属性的特征向量，及人体姿态的18个关键点的特征向量做特征融合；
首先对人体姿态的18个关键点的坐标(xi,yi)，两两做差值计算，具体计算如下：
(xn-yn)＝(xj-yj)-(xi-yi)0≤i＜j＜18i,j∈N+，n∈[1，153]
其中n表示运算后的生成的坐标，i，j表示18个关键点中的一个关键点
得到2*153维的人体姿态向量表达，然后将该向量转换成1*306维的特征向量，具体计算如下：

将人脸表情，属性的特征向量与人体姿态的特征向量做connect操作，即将两个1维的向量，直接拼接成一个一维的向量，转换成1*326维的特征向量，具体操作如下：

其中(pk1qk2)T1*20表示人脸表情、属性特征向量，(xmym)T1*306表示人体姿态特征向量，进行connect操作后的特征向量，做为当前帧中行人的行为表达；该特征向量融合了人体的姿态信息，脸部的表情信息和脸部的属性信息；
第二步：间隔一秒再截取一帧，重复第一步操作，得到1*326维的特征向量；同样该向量代表了当前帧中行人的行为表达；依次重复第一步操作，得到10个1*326维的行人行为的特征向量，获取的10个1*326维的向量代表了行人行为的静态特征；
第三步：为了进一步获得行人行为在时序上的特征变化，接下来对10个1*326维的特征向量后面的视频帧与前面的视频帧做差值运算，具体计算如下：

其中(pi1qi1xi1yi1)T1*326表示后面视频的特征向量，(pj1qj1xj1yj1)T1*326，表示前面帧的...

【专利技术属性】
技术研发人员：陈双叶，张洪路，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人