一种基于双流卷积神经网络和SVM的抽烟动作识别方法技术

技术编号:23558739 阅读:27 留言:0更新日期:2020-03-25 04:12
本发明专利技术公开了一种基于双流卷积神经网络的危险行为自动识别方法,通过两个不同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果;不直接简单加权融合两个网络的Softmax分类结果,将两个训练Softmax的输出作为新的输入特征来SVM分类器,最终实现对视频中人物抽烟动作的自动识别。本发明专利技术使用SVM对时域卷积网络和空域卷积网络的分类结果建模,进一步提升了基于视频的人物抽烟行为自动识别的精度。

A smoking action recognition method based on double flow convolution neural network and SVM

【技术实现步骤摘要】
一种基于双流卷积神经网络和SVM的抽烟动作识别方法
本专利技术涉及基于双流卷积神经网络的人体行为识别,更具体的是涉及一种针对监控视频数据的抽烟动作自动识别方法。
技术介绍
吸烟不仅是一种对人体健康危害巨大的不良习惯,更是一种安全隐患的主要诱发原因。对于加油站、油库、化学药品库等存储大量易燃易爆物品的场所,吸烟的明火可能导致火灾或爆炸等安全事故,造成巨大的经济损失和人员伤亡。目前,在上述场所下对于吸烟行为的防范主要依靠宣传标语警示或安全人员监察,将可能引发的巨大灾难寄托在依靠宣传标语唤醒的人员素质是不可靠的,安全人员也难以时刻观察场所内所有人员的行为,在吸烟后发现和及时制止,安全隐患已经出现。因此,我们急需一种在吸烟安全隐患刚刚出现的瞬间就能检测并报警的基于监控视频的抽烟行为自动识别方法,通过对禁烟场所的监控视频流中人员姿态的估计和动作的识别,对可能存在的抽烟动作及时预警,提醒管理人员重点注意,在减轻了安保人员工作强度的同时提高大幅度降低可能存在的安全隐患。目前,基于计算机视觉的吸烟检测主要是通过分析和识别烟雾,包括利用颜色、能量等烟雾静态特征或飘动方向等动态特征。相比于火灾产生的浓烟,吸烟烟雾的浓度相对低且范围相对小;在露天情况下,烟雾特征受光照、风向、风速等干扰,现有的技术难以提取到理想的烟雾特征进行吸烟行为识别。随着技术的不断进步,基于深度学习算法的视频数据智能分析正在快速发展,在人物脸部识别、人物位置预测等领域已经被大量应用。
技术实现思路
针对以上问题,本专利技术提出了一种基于双流卷积神经网络和SVM的抽烟动作识别方法。针对露天环境下难以提取到理想的烟雾特征进行吸烟行为识别的问题,通过识别人物的动作来识别抽烟行为,使用两个不同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果;针对抽烟动作的相似性动作较多容易出现误判的问题,不直接简单加权融合两个网络的Softmax分类结果,将两个训练Softmax的输出作为新的输入特征来SVM分类器,提高视频中人物抽烟动作的识别准确率。为了解决以上问题,本专利技术采用了如下技术方案:一种基于双流卷积神经网络和SVM的抽烟动作识别方法,其特征在于,包括以下步骤:Step1原始数据准备针对常见场景下的人物抽烟行为,通过收集来自吸烟室监控摄像头及网络的视频数据。Step2数据预处理(1)将大小、帧率各不相同的视频数据统一到相同大小和25帧率。(2)截取视频数据中关键的抽烟动作部分,将视频的时长控制在10s左右。(3)将每一个视频拆成视频帧,每一个视频随机抽取10张图片组成图片数据集。Step3数据集制作针对Step2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息。随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取图片数据集中的60%作为训练数据,其余的作为测试数据。Step4空域卷积网络的构建与训练Step4-1空域卷积网络的构建空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型。此处空间特征提取网络基于ZF网络构建。ZF是卷积神经网络(ConvolutionalNeuralNetworks,CNN)的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元;ZF网络由5层深度的卷积层构成。前两层卷积核的大小分别为7*7和5*5,滑动步长(stride)均为2个像素,通过边界扩充(pad=2)保持输入输出维度不变,每层卷积后均进行窗口为3*3的最大池化(maxpooling);后三层卷积的卷积核大小均为3*3,滑动步长均为1个像素,边界扩充1个像素。FC层表示一个全连接层,通过卷积核大小为1*1的卷积层实现,最后使用一个Softmax分类器来实现分类。Step4-2空域卷积网络的训练空域卷积网络的训练分为前向传播和后向传播两个部分。前向阶段:将抽烟图片数据集中选择批量(batch=8)数据输入网络,然后根据网络的数据流传播计算对应所属的实际动作种类。后向阶段:网络的实际输出与理想输出存在误差,对误差函数求各个偏置和权值的偏导数,从而使误差沿着降速最快的方向调整各个权值和偏置。(1)前向训练。网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小,表达式为如公式(4)所示:其中,表示前一层的输出特征向量;Wij表示输入i到输出j的连接权值;bk表示输出层第k个输出的偏置;Yk表示输出层中第k个输出;f()表示非线性激励函数。(2)反向训练。反向传播的目的是使误差达到最小,根据误差函数E来对权值参数w、偏置参数b的梯度进行调整。对于有M个输出类别和N个训练样本的多分类问题,使用的误差函数计算方法如公式(2)所示。其中,表示第n个样本中第k类对应的分类标签;为网络输出层实际输出向量。Step5时域卷积网络的构建与训练Step5-1时域卷积网络的构建此处时域卷积网络采用与空域卷积网络相同的ZF网络。时域卷积网络的输入是基于视频数据计算和转换而来的灰度的光流图。光流信息是连续视频帧之间的像素点位移场,描述的是视频的运动信息。对于视频中第i帧的像素点p(xp,yp),在第k帧上记该像素点为q(xq,yq),使用FlowNet(FlowNet:LearningOpticalFlowwithConvolutionalNetwork)计算光流,则该像素点从i帧到k帧的光流描述为变化δp,δp的计算方法如公式(3)所示:Mi→k=F(Ik,Ii),δp=Mi→k(p)(3)其中,Ik,Ii分别表示视频中第i帧和第k帧。对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流,最终获得第i帧到第j帧的光流图。Step5-2空域卷积网络的训练时域卷积网络的训练分为前向传播和后向传播两个部分,训练方法与空域卷积网络的训练过程相同。Step6基于SVM的抽烟动作识别模型Step6-1SVM分类器构建支持向量机(supportvectormachine,SVM)是一种常见的二分类模型,其基本思想是针对待分类的数据,找到具有最小间隔的样本点然后拟合出一个到这些样本点距离和最大的线段或平面;超平面的方程的定义如公式(4)所示。wTx+b=0(4)其中x表示空间中坐落在超平面上的样本点,该点可以被描述为X(x1,x2,...xn),其中xi表示点X的第i个特征变量;wT表示空间中超平面的参数,对应的wT为一个n维度的矩阵,可以被描述为wT(W1,W2,...,Wn);b表示样本点X在超平面上的截距。由公式(4)定义的超平面可知,样本空间中任意的点p(x1,x2,...xn)到超平面的距离可以通过公式(5)计算得到。其中,d表示点到超平面的距离,Wi∈wT表示超平面方程中的系数。在计算某个数据点到超平面的距离的基础本文档来自技高网...

【技术保护点】
1.一种基于双流卷积神经网络和SVM的抽烟动作识别方法,其特征在于,包括以下步骤:/nStep1原始数据准备/n针对常见场景下的人物抽烟行为,通过收集来自吸烟室监控摄像头及网络的视频数据,共收集抽烟视频数据1108条;/nStep2数据预处理/n(1)将大小、帧率各不相同的视频数据统一到相同大小和25帧率;/n(2)截取视频数据中关键的抽烟动作部分,将视频的时长控制在10s左右;/n(3)将每一个视频拆成视频帧,每一个视频随机抽取10张图片,组成图片数据集;/nStep3数据集制作/n针对Step2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息;随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取图片数据集中的60%作为训练数据,其余的作为测试数据;/nStep4空域卷积网络的构建与训练/nStep4-1空域卷积网络的构建/n空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型;此处空间特征提取网络基于ZF网络构建,ZF是卷积神经网络“Convolutional Neural Networks,CNN”的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元;/nZF网络由5层深度的卷积层构成;前两层卷积核的大小分别为7*7和5*5,滑动步长“stride”均为2个像素,通过边界扩充“pad=2”保持输入输出维度不变,每层卷积后均进行窗口为3*3的最大池化“max pooling”;后三层卷积的卷积核大小均为3*3,滑动步长均为1个像素,边界扩充1个像素;FC层表示一个全连接层,通过卷积核大小为1*1的卷积层实现,最后使用一个Softmax分类器来实现分类;/nStep4-2空域卷积网络的训练/n空域卷积网络的训练分为前向传播和后向传播两个部分;前向阶段:将抽烟图片数据集中选择批量数据输入网络,然后根据网络的数据流传播计算对应所属的实际动作种类;后向阶段:网络的实际输出与理想输出存在误差,对误差函数求各个偏置和权值的偏导数,从而使误差沿着降速最快的方向调整各个权值和偏置;/n(1)前向训练/n网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小,表达式为如公式(4)所示:/n...

【技术特征摘要】
1.一种基于双流卷积神经网络和SVM的抽烟动作识别方法,其特征在于,包括以下步骤:
Step1原始数据准备
针对常见场景下的人物抽烟行为,通过收集来自吸烟室监控摄像头及网络的视频数据,共收集抽烟视频数据1108条;
Step2数据预处理
(1)将大小、帧率各不相同的视频数据统一到相同大小和25帧率;
(2)截取视频数据中关键的抽烟动作部分,将视频的时长控制在10s左右;
(3)将每一个视频拆成视频帧,每一个视频随机抽取10张图片,组成图片数据集;
Step3数据集制作
针对Step2预处理后的数据进行人工分类,将人工分类信息作为网络训练的类别监督信息;随机选取增强后视频数据的60%作为训练数据,剩余的作为测试数据;随机选取图片数据集中的60%作为训练数据,其余的作为测试数据;
Step4空域卷积网络的构建与训练
Step4-1空域卷积网络的构建
空间流卷积神经网络的输入是单个视频帧,它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型;此处空间特征提取网络基于ZF网络构建,ZF是卷积神经网络“ConvolutionalNeuralNetworks,CNN”的一种代表性网络,包括有卷积层、池化层、连接层和输出层,每层包含多个相互独立的神经单元;
ZF网络由5层深度的卷积层构成;前两层卷积核的大小分别为7*7和5*5,滑动步长“stride”均为2个像素,通过边界扩充“pad=2”保持输入输出维度不变,每层卷积后均进行窗口为3*3的最大池化“maxpooling”;后三层卷积的卷积核大小均为3*3,滑动步长均为1个像素,边界扩充1个像素;FC层表示一个全连接层,通过卷积核大小为1*1的卷积层实现,最后使用一个Softmax分类器来实现分类;
Step4-2空域卷积网络的训练
空域卷积网络的训练分为前向传播和后向传播两个部分;前向阶段:将抽烟图片数据集中选择批量数据输入网络,然后根据网络的数据流传播计算对应所属的实际动作种类;后向阶段:网络的实际输出与理想输出存在误差,对误差函数求各个偏置和权值的偏导数,从而使误差沿着降速最快的方向调整各个权值和偏置;
(1)前向训练
网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小,表达式为如公式(4)所示:



其中,表示前一层的输出特征向量;Wij表示输入i到输出j的连接权值;bk表示输出层第k个输出的偏置;Yk表示输出层中第k个输出;f()表示非线性激励函数;
(2)反向训练
反向传播的目的是使误差达到最小,根据误差函数E来对权值参数w、偏置参数b的梯度进行调整;对于有M个输出类别和N个训练样本的多分类问题,使用的误差函数计算方法如公式(2)所示;



其中,表示第n个样本中第k类对应的分类标签;为网络输出层实际输出向量;
Step5时域卷积网络的构建与训练
Step5-1时域卷积网络的构建
此处时域卷积网络采用与空域卷积网络相同的ZF网络;
时域卷积网络的输入是基于视频数据计算和转换而来的灰度的光流图;光流信息是连续视频帧之间的像素点位移...

【专利技术属性】
技术研发人员:邓杨敏李亨吕继团
申请(专利权)人:江苏德劭信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1