基于注意力机制和3D卷积神经网络的人体行为识别方法技术

技术编号:19480874 阅读:108 留言:0更新日期:2018-11-17 10:37
本发明专利技术公开了一种基于注意力机制和3D卷积神经网络的人体行为识别方法,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。该方法中构建了识别视频中的人体行为的3D CNN模型,引入了注意力机制,计算两帧间的距离作为注意力矩阵,和原始人体行为视频序列构成双通道输入到构建的3D CNN中,让卷积操作对视觉重点区域进行着重特征提取。同时,对3DCNN结构进行优化,在网络中加入Dropout层随机冻结网络部分连接权值,使用ReLU激活函数,提高网络稀疏性,解决随着维度增加、层数加深引起的计算量剧增、梯度消失的问题,防止小数据集下的过拟合,提升网络识别准确率的同时减小时间的损耗。

【技术实现步骤摘要】
基于注意力机制和3D卷积神经网络的人体行为识别方法
本专利技术涉及人体行为识别方法,尤指一种基于注意力机制和3D卷积神经网络的人体行为识别方法。
技术介绍
智能视频分析一直是具有重要学术价值的研究领域,人体行为识别作为该领域中必不可少的一部分,成为了新的研究热点,在智能视频监控、高级人机交互、体育运动分析和基于内容的视频检索等方面都有广阔的应用前景。目前主流的人体行为识别方法大多使用人工设计的特征对视频中的人体运动进行表征,如轮廓、剪影、HOG、Harris、SIFT以及这些特征在三维上的扩展等。人工设计特征是一种利用人类的智慧和先验知识,且将这些知识应用到目标和行为识别技术中的很好的方式。但这种方式需要人工发掘能够表现运动的特征,而人工选择的特征有时较难表现出动作的本质特征,对识别结果影响较大。因此,如何提高视频中人体行为识别准确率,更好地利用视频中的原始信息,是本领域技术人员努力研究的方向。
技术实现思路
有鉴于此,本专利技术的主要目的在于提高视频中人体行为识别准确率,考虑到视频作为相互关联的图像在时间维度上的连续序列,可以通过卷积神经网络来进行处理,可将原始视频直接输入进构建的神经网络中,进行人体行为的训练和识别,本专利技术的目的之一在于提出一种能更好地利用视频中的原始信息的基于注意力机制的3D卷积神经网络模型。为实现上述目的,本专利技术提供了一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。较佳的,所述注意力矩阵是通过计算连续两帧之间的差分,并进行归一化后得到的。较佳的,所述注意力矩阵的计算是采用对连续两帧之间的差分计算的二差分法或者将相邻的三帧图像作为一组进行再差分三帧差法。传统的三帧差法是当前帧与前后帧差分后进行再差分,本专利技术进一步改进为取两次差分结果的“并集”,并集这个概念通过取每个像素点当前帧和前后帧差分结果的较大值得到,该结果能表示当前帧前后发生最大变化的区域。所述三帧差法是分别求出当前帧和前一帧以及当前帧与后一帧的差分图像,继续让两个帧差再做差。较佳的,该两帧差分法中,注意力矩阵A是通过以下公式计算得出:其中,x,y为目标像素点的坐标,t为当前帧序号,t-1表示当前帧的前一帧,It为当前帧在x,y位置的灰度值,公式(3)为计算相邻两帧之间的距离,通过公式(2)中的阈值T将无显著性变化区域剔除,得到显著性变化区域ID,通过公式(1)对距离进行归一化,最终得到注意力矩阵A,其中min和max为显著性变化区域ID内的所有像素中灰度值中的最小值和最大值,该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。较佳的,该三帧差分法步骤为:1)选取视频帧序列中的连续三帧图像It-1(x,y),It(x,y),It+1(x,y),分别计算相邻两帧图像的差值Dt-1,t(x,y),Dt,t+1(x,y):2)对得到的差分图像通过选择合适的阈值T提取显著性变化区域,排除噪声干扰:3)在一组内将得到两个差分图像逻辑“或”,取得连续两帧之间变化区域的并集,得到三帧图像中的中间帧的前后显著性变化区域,B(x,y),B(x,y)=max(B1(x,y),B2(x,y))(23)4)最后将得到的差分图像进行归一化,得到帧差通道A(x,y),该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。较佳的,该3D卷积神经网络的3D卷积神经网模型包含:一个双通道输入层、多个3D卷积层和多个3D池化层互相交错穿插,最终连接全连接层后得到分类结果,注意力矩阵同原始灰度视频帧立方体通过该双通道输入层一同输入到神经网络模型中。较佳的,所述全连接层为两个,在两个全连接层前分别有一个Dropout层。所述Dropout概率设置为0.25到0.5之间的小数。优选的所述Dropout概率分别为0.5和0.25。较佳的,所述3D卷积层和3D池化层为分别为3-7个。优选的所述3D卷积层和3D池化层的个数为分别为5个。较佳的,该3D卷积神经网络的3D卷积神经网模型包含:1个双通道输入层、5个3D卷积层和5个3D池化层互相交错穿插,最终连接2个全连接层后得到分类结果,在2个全连接层分别进行两次Dropout操作,其中:C1到C5为卷积层,每层的卷积核均为3×3×3,卷积核数量由16到256依次递增,以便从低级的特征组合产生更多类型的高层特征,在C1层,卷积核对注意力矩阵和原始视频帧进行双通道卷积,S1到S5层为下采样层,使用最大池化方法,降低特征图的分辨率,缩小特征图规模,减小计算量,提高对输入图像畸变的容忍能力;其中S2、S4层使用2×2×2的窗口同时对时间维度和空间维度进行下采样,其他层使用1×2×2的窗口,只在空间维度上进行下采样;D1层是全连接层,包含256个神经元,S5层输出的特征立方体与D1层的256个神经元相连,连续15帧的输入视频在这层被转化为256维的特征向量,在S5和D1之间使用了Dropout层,以0.25的概率冻结S5层和D1层的部分连接;D2层是第二个全连接层同时也是输出层,神经元个数为6,和目标类别数目相同,D2层每个神经元与D1层256个神经元全连接,最后由分类器softmax回归进行分类,得出能够标记行为类别的输出。较佳的,该3D卷积神经网络使用ReLU作为激活函数以提升深度网络的性能。优选的,其中的3D卷积层和全连接层D1使用ReLU作为激活函数,输出层使用Softmax作为激活函数,优化函数使用SGD函数,损失函数使用多类交叉熵函数。其中,对数似然代价函数,公式为:C=-∑kyklogak(5)其中,ak表示第k个神经元的输出值,yk表示第k个神经元对应的真实值,取值为0或1。神经网络权重w和偏置b的梯度公式如下:其中j为当前层神经元序号,k为上一层与之连接的神经元序号,L表示当前神经元的层数。对数似然函数和交叉熵代价函数一样具有非负性,因此目标就是最小化代价函数,当真实输出a与期望输出y接近的时候,代价函数接近于0。使用交叉熵函数可以克服方差代价函数更新权重过慢的问题。softmax函数配合对数似然代价函数可以很好地进行多分类任务下的神经网络训练。借助上述方法,本专利技术主要有如下优点:本专利技术使用了基于人类视觉机制的注意力通道,来辅助神经网络从原始视频帧中进行特征提取,网络同时对两个通道进行卷积操作,两个通道的特征互相作用互相影响。提高了视频中人体行为识别准确率,更好地利用视频中的原始信息,提出了基于注意力机制的3D卷积神经网络模型。该模型构建了一个深层三维卷积神经网,引入了注意力机制,通过计算帧间距离得到能够描述人体运动区域的注意力矩阵,将注意力矩阵和原始视频组合成双通道作为卷积神经网络的输入,使用3D卷积核进行卷积操作,提取视频中人体行为在时域和空域上的特征。为了克服网络训练时的过拟合问题,网络结构中增加Dropout层,在训练过程中以一定比例随机“冻结”部分神经元提高网络稀疏性,在一定程度上缓解网络过拟合。使用了ReLU激活函数,提高网络稀疏性,解决随着维度增加、层数加深引起的计算量剧增、梯度消失的问题,防止小数据集下的过拟合,提升网络识别准确率的同时减小时间的损耗在KTH数据本文档来自技高网...

【技术保护点】
1.一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。

【技术特征摘要】
1.一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。2.根据权利要求1所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,所述注意力矩阵是通过计算连续两帧或三帧图像之间的差分,并进行归一化后得到的。3.根据权利要求2所述的一种一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,所述三帧差法是分别求出当前帧和前一帧以及当前帧与后一帧的差分图像,然后取两次差分结果的“并集”;并集这个概念通过取每个像素点当前帧和前后帧差分结果的较大值得到,使该结果能表示当前帧前后发生最大变化的区域。4.根据权利要求2所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该两帧差分法中,注意力矩阵A是通过以下公式计算得出:其中,x,y为目标像素点的坐标,t为当前帧序号,t-1表示当前帧的前一帧,It为当前帧在x,y位置的灰度值,公式(3)为计算相邻两帧之间的距离D,通过公式(2)中的阈值T将无显著性变化区域剔除,得到显著性变化区域ID,通过公式(1)对距离进行归一化,最终得到注意力矩阵A,其中min和max为显著性变化区域ID内的所有像素中灰度值中的最小值和最大值,该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。5.根据权利要求3所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该三帧差分法步骤为:1)选取视频帧序列中的连续三帧图像It-1(x,y),It(x,y),It+1(x,y),分别计算相邻两帧图像的差值Dt-1,t(x,y),Dt,t+1(x,y):2)对得到的差分图像通过选择合适的阈值T提取显著性变化区域,排除噪声干扰:3)在一组内将得到两个差分图像逻辑“或”,取得连续两帧之间变化区域的并集,得到三帧图像中的中间帧的前后显著性变化区域,B(x,y),B(x,y)=max(B1(x,y),B2(x,y))(23)4)最后将得到的差分图像进行归一化,得到帧差通道A(x,y),该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。6.根据权利要求1-5任一项所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于,该3D卷积神经...

【专利技术属性】
技术研发人员:袁和金牛为华张颖崔克彬
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1