一种基于双流卷积神经网络的危险行为自动识别方法技术

技术编号:21772689 阅读:25 留言:0更新日期:2019-08-03 21:50
本发明专利技术公开了一种基于双流卷积神经网络的危险行为自动识别方法,本发明专利技术通过对视频中的人物进行部分人工标注来减小视频背景对人物行为识别的影响;使用LeNet‑5网络学习视频中的时间特征和空间特征,将融合后的时空特征送入3D卷积神经网络中完成对视频中人物动作的识别。本发明专利技术针对视频中存在的大量无关的背景信息,本发明专利技术对部分视频帧中的人物进行人工标注,通过增加输入的监督信息来降低噪声的干扰,有效解决了视频无关背景信息对人物动作识别的干扰。本发明专利技术基于双流卷积神经网络和3D卷积神经网络的危险动作自动识别方法,构建人物危险动作自动识别网络,使用人物危险动作视频数据训练网络,构建人物危险动作自动识别模型。

An Automatic Recognition Method of Dangerous Behavior Based on Two-stream Convolutional Neural Network

【技术实现步骤摘要】
一种基于双流卷积神经网络的危险行为自动识别方法
本专利技术涉及一种基于双流卷积神经网络的人体姿态估计和行为识别,更具体的是涉及一种针对监控视频数据的危险行为自动识别方法。
技术介绍
对于监狱、银行等一些特定的场所,需要避免暴力冲突、非法闯入等不稳定事件的发生,因此保持全天候的监管是十分必要的。单纯的通过安保人员巡查上述特定场所,需要耗费大量的时间成本和人力成本,效率相对低下。随着监控视频的大量普及,上述特定场所开始使用监控摄像头与安保人员相结合的方式,即安保人员借助监控摄像头实现在线巡查,对出现异常的区域再进行人为巡查和处理。这种方式要求安保人员长时间保持注意力高度集中,短时间的走神或者疏忽就可能导致非法闯入等危险行为。因此,急需一种能够辅助安保人员的基于监控视频数据的人体行为识别方法,对监控视频流中的人物姿态和动作自动识别,对可能出现的危险动作及时报警,在减轻了安保人员工作强度的同时也能提高上述特定场所的稳定程度。随着科技的不断进步,基于深度学习算法的视频数据智能分析正在快速发展,在人物脸部识别、人物位置预测等领域已经被大量应用。视频人物动作识别其本质是在时间上连续变化的序列图片的分类问题,所以图片识别的深度学习算法在视频人物动作识别研究中被大量应用。卷积神经网络(ConvolutionalNeuralNetworks,CNNs)是当前图像识别领域主流的深度学习网络,但是在基于视频的人物动作识别领域的应用受到抑制,主要的原因一方面是相较于图像数据集,视频数据集一般规模较小且质量较低(包含大量的无关噪声);另一方面,传统的卷积神经网络不能充分的学习时间特征,不能有效的提取连续帧之间的关联。为了充分的利用视频的时间特征,目前最新的研究是基于时空双流网络的人物动作识别。该网络包括两个并行的卷积神经网络结构,分别以等间隔抽样视频帧和视频的一系列光流图片作为输入,结合融合视频中人物动作的空间以及时间特征用于辨别人物动作类别。
技术实现思路
针对人物危险动作视频数据中包含大量与人物无关信息的特点,本专利技术通过对视频中的人物进行部分人工标注来减小视频背景对人物行为识别的影响;使用LeNet-5网络学习视频中的时间特征和空间特征,将融合后的时空特征送入3D卷积神经网络中完成对视频中人物动作的识别,提出了一种基于双流卷积网络的人物危险动作自动识别方法。为了解决以上问题,本专利技术采用了如下技术方案:一种基于双流卷积神经网络的危险行为自动识别方法,分别构建时间、空间特征学习网络学习人物动作的时空特征;针对现有基于空间、时间特征分别预测人物行为并加权预测结果计算最终动作类别割裂了人物动作在时间和空间上存在的关系,并没有充分利用学习的时间和空间特征的问题,使用简单线性加权首先融合人物动作的时空特征后再进行人物动作预测,提高了人物动作的准确率。包括以下步骤:Step1原始数据准备针对常见的人物危险行为,选择自杀、偷窃和打架等三种相对典型的人物危险动作,通过来自监狱、银行、超市以及部分来自公安系统的包含上述危险动作的视频数据;Step2数据预处理(1)数据增强:通过对视频进行水平翻转、对比度、亮度以及加噪处理,将原来的视频数据扩大4倍;(2)将大小、帧率各不相同的视频数据统一到相同大小和25帧率;Step3数据集制作针对Step2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息;随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取训练数据中的30%使用可视化的图像标定工具labelimg将视频中的人物标出;Step4空间特征与时间特征的提取网络构建Step4-1空间特征提取网络构建空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型;静态的外形特征是一个非常有用的信息,因为视频人物的某些行为动作与某些物体有着密切的关联性。本专利技术涉及的空间特征提取网络基于LeNet-5网络构建;LeNet-5是卷积神经网络(ConvolutionalNeuralNetworks,CNN)的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元经典的LeNet-5网络共包括7层,卷积层C1、C3、C5均使用5*5的卷积核,池化层S2、S4均使用大小为2*2模板进行平均池化,F6全连接层包括84个神经元节点,计算C5输出向量和权重向量之间的点积,OUTPUT层由一个全连接层构成,包括10个节点,采用径向欧式距离函数(EuclideanRadialBasisFunction)的网络连接方式,RBF的计算方法如公式(1)所示:(1)其中,表示输出层第i个的输出,表示F6层第j个节点的值,表示i节点和j节点之间的连接权重;Step4-2时间特征提取网络构建光流信息是连续视频帧之间的像素点位移场,描述的是视频的运动信息;对于视频中第i帧的像素点,在第k帧上记该像素点为,使用FlowNet(FlowNet:LearningOpticalFlowwithConvolutionalNetwork)计算光流,则该像素点从i帧到k帧的光流描述为变化,的计算方法如公式(2)所示:(2)其中,分别表示视频中第i帧和第帧;对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流,最终获得第i帧到第j帧的光流图;本专利技术的时间特征提取网络采用与空间特征提取网络相同的LeNet-5网络;时间流卷积神经网络输入的是间隔T帧之间的光流图片;Step5时空特征融合现有技术中使用空间特征和时间特征分别进行人物行为的预测,对预测结果加权后计算最终的人物行为类别。此类方法直接割裂了人物动作在时间和空间上存在的关系,并没有充分利用学习的时间和空间特征。针对这一问题,本专利技术融合视频数据中的空间特征和时间特征来进行人物行为动作的判断;本专利技术使用简单线性加权融合提取到的时间特征和空间特征;具体融合方法如公式(3)所示:(3)其中,和表示时间特征和空间特征,表示融合后的特征,表示大小为的三维矩阵。、和表示特征图的高度,、和表示特征图的宽度,、和表示特征图的通道数,且满足==,==,==(即、和为大小相同的三维矩阵),和表示权重。Step6基于3D卷积神经网络的危险动作识别Step6-13D卷积神经网络构建本专利技术基于3D卷积神经网络构建最终的危险动作识别网络。3D卷积神经网络架构包括一个硬连线hardwired层、3个卷积层、2个下采样层和一个全连接层;对于大小为连续T帧,hardwired层用于获得灰度、x方向梯度、y方向梯度、x方向光流、y方向光流5种不同特征;使用两个7*7*3的3D卷积核对5个特征分别进行卷积计算后,使用大小为2*2的模板进行下采样操作;使用7*6*3的3D卷积核对下采样后的特征继续进行卷积计算后,使用大小为3*3的模板进行下采样操作;此时经过两次3D卷积后,对于获得的特征图使用7*4大小的卷积核进行卷积计算;最终通过全连接层展开,计算动作类别的概率。Step6-2危险动作识别模型训练使用Step5融合后的时空混合特征作为上述3D卷积神经网络的输入,使用Step6-1中描述的3D卷积网络结构训练危险动作识别模型;模型的训练分类前向传播和后向传播两个部分;前向本文档来自技高网
...

【技术保护点】
1.一种基于双流卷积神经网络的危险行为自动识别方法,其特征在于,包括以下步骤:Step1 原始数据准备针对常见的人物危险行为,选择自杀、偷窃和打架三种相对典型的人物危险动作,通过来自监狱、银行、超市以及部分来自公安系统的包含上述危险动作的视频数据;Step2 数据预处理数据增强:通过对视频进行水平翻转、对比度、亮度以及加噪处理,将原来的视频数据扩大4倍;将大小、帧率各不相同的视频数据统一到相同的大小和25帧率;Step3 数据集制作针对Step 2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息;随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取训练数据中的30%使用可视化的图像标定工具labelimg将视频中的人物标出;Step4空间特征与时间特征的提取网络构建Step4‑1 空间特征提取网络构建空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型;本空间特征提取网络基于LeNet‑5网络构建;LeNet‑5是卷积神经网络“Convolutional Neural Networks, CNN”的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元;经典的LeNet‑5网络共包括7层,卷积层C1、C3、C5均使用5*5的卷积核,池化层S2、S4均使用大小为2*2模板进行平均池化,F6全连接层包括84个神经元节点,计算C5输出向量和权重向量之间的点积,OUTPUT层由一个全连接层构成,包括10个节点,采用径向欧式距离函数“Euclidean Radial Basis Function”的网络连接方式,RBF的计算方法如公式(1)所示:...

【技术特征摘要】
1.一种基于双流卷积神经网络的危险行为自动识别方法,其特征在于,包括以下步骤:Step1原始数据准备针对常见的人物危险行为,选择自杀、偷窃和打架三种相对典型的人物危险动作,通过来自监狱、银行、超市以及部分来自公安系统的包含上述危险动作的视频数据;Step2数据预处理数据增强:通过对视频进行水平翻转、对比度、亮度以及加噪处理,将原来的视频数据扩大4倍;将大小、帧率各不相同的视频数据统一到相同的大小和25帧率;Step3数据集制作针对Step2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息;随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取训练数据中的30%使用可视化的图像标定工具labelimg将视频中的人物标出;Step4空间特征与时间特征的提取网络构建Step4-1空间特征提取网络构建空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型;本空间特征提取网络基于LeNet-5网络构建;LeNet-5是卷积神经网络“ConvolutionalNeuralNetworks,CNN”的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元;经典的LeNet-5网络共包括7层,卷积层C1、C3、C5均使用5*5的卷积核,池化层S2、S4均使用大小为2*2模板进行平均池化,F6全连接层包括84个神经元节点,计算C5输出向量和权重向量之间的点积,OUTPUT层由一个全连接层构成,包括10个节点,采用径向欧式距离函数“EuclideanRadialBasisFunction”的网络连接方式,RBF的计算方法如公式(1)所示:(1)其中,表示输出层第i个的输出,表示F6层第j个节点的值,表示i节点和j节点之间的连接权重;Step4-2时间特征提取网络构建光流信息是连续视频帧之间的像素点位移场,描述的是视频的运动信息;对于视频中第i帧的像素点,在第k帧上记该像素点为,使用FlowNet“LearningOpticalFlowwithConvolutionalNetwork”计算光流,则该像素点从i帧到k帧的光流描述为变化,的计算方法如公式(2)所示:(2)其中,分别表示视频中第i帧和第帧;对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流,最终获得第i帧到第j帧的光流图;本时间特征提取网络采用与空间特征提取网络相同的LeNet-5网络;时间流卷积神经网络输入的是间隔T帧之间的光流图片;Step5时空特征融合本融合视频数据中的空间特征和时间特征...

【专利技术属性】
技术研发人员:邓杨敏李亨吕继团
申请(专利权)人:江苏德劭信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1