基于注意力机制和3D卷积神经网络的人体行为识别方法技术

技术编号：19480874 阅读：108 留言：0更新日期：2018-11-17 10:37

本发明专利技术公开了一种基于注意力机制和3D卷积神经网络的人体行为识别方法,该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。该方法中构建了识别视频中的人体行为的3D CNN模型，引入了注意力机制，计算两帧间的距离作为注意力矩阵，和原始人体行为视频序列构成双通道输入到构建的3D CNN中，让卷积操作对视觉重点区域进行着重特征提取。同时，对3DCNN结构进行优化，在网络中加入Dropout层随机冻结网络部分连接权值，使用ReLU激活函数，提高网络稀疏性，解决随着维度增加、层数加深引起的计算量剧增、梯度消失的问题，防止小数据集下的过拟合，提升网络识别准确率的同时减小时间的损耗。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制和3D卷积神经网络的人体行为识别方法
本专利技术涉及人体行为识别方法，尤指一种基于注意力机制和3D卷积神经网络的人体行为识别方法。
技术介绍
智能视频分析一直是具有重要学术价值的研究领域，人体行为识别作为该领域中必不可少的一部分，成为了新的研究热点，在智能视频监控、高级人机交互、体育运动分析和基于内容的视频检索等方面都有广阔的应用前景。目前主流的人体行为识别方法大多使用人工设计的特征对视频中的人体运动进行表征，如轮廓、剪影、HOG、Harris、SIFT以及这些特征在三维上的扩展等。人工设计特征是一种利用人类的智慧和先验知识，且将这些知识应用到目标和行为识别技术中的很好的方式。但这种方式需要人工发掘能够表现运动的特征，而人工选择的特征有时较难表现出动作的本质特征，对识别结果影响较大。因此，如何提高视频中人体行为识别准确率，更好地利用视频中的原始信息，是本领域技术人员努力研究的方向。
技术实现思路
有鉴于此，本专利技术的主要目的在于提高视频中人体行为识别准确率，考虑到视频作为相互关联的图像在时间维度上的连续序列，可以通过卷积神经网络来进行处理，可将原始视频直接输入进构建的神经网络中，进行人体行为的训练和识别，本专利技术的目的之一在于提出一种能更好地利用视频中的原始信息的基于注意力机制的3D卷积神经网络模型。为实现上述目的，本专利技术提供了一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于，该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。较佳的，所述注意力矩阵是通过计算连续两...

【技术保护点】
1.一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于，该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。

【技术特征摘要】
1.一种基于注意力机制和3D卷积神经网络的人体行为识别方法,其特征在于，该人体行为识别方法构建了一个3D卷积神经网络,该3D卷积神经网络的输入层包括原始灰度图和注意力矩阵两个通道。2.根据权利要求1所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法，其特征在于，所述注意力矩阵是通过计算连续两帧或三帧图像之间的差分，并进行归一化后得到的。3.根据权利要求2所述的一种一种基于注意力机制和3D卷积神经网络的人体行为识别方法，其特征在于，所述三帧差法是分别求出当前帧和前一帧以及当前帧与后一帧的差分图像，然后取两次差分结果的“并集”；并集这个概念通过取每个像素点当前帧和前后帧差分结果的较大值得到，使该结果能表示当前帧前后发生最大变化的区域。4.根据权利要求2所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法，其特征在于，该两帧差分法中，注意力矩阵A是通过以下公式计算得出：其中，x,y为目标像素点的坐标，t为当前帧序号，t-1表示当前帧的前一帧，It为当前帧在x,y位置的灰度值，公式(3)为计算相邻两帧之间的距离D，通过公式(2)中的阈值T将无显著性变化区域剔除，得到显著性变化区域ID，通过公式(1)对距离进行归一化，最终得到注意力矩阵A，其中min和max为显著性变化区域ID内的所有像素中灰度值中的最小值和最大值，该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。5.根据权利要求3所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法，其特征在于，该三帧差分法步骤为：1)选取视频帧序列中的连续三帧图像It-1(x,y)，It(x,y)，It+1(x,y)，分别计算相邻两帧图像的差值Dt-1,t(x,y)，Dt,t+1(x,y)：2)对得到的差分图像通过选择合适的阈值T提取显著性变化区域，排除噪声干扰：3)在一组内将得到两个差分图像逻辑“或”，取得连续两帧之间变化区域的并集，得到三帧图像中的中间帧的前后显著性变化区域，B(x,y)，B(x,y)＝max(B1(x,y),B2(x,y))(23)4)最后将得到的差分图像进行归一化，得到帧差通道A(x,y)，该三维矩阵能够表示输入的人体行为视频中动作显著性变化区域。6.根据权利要求1-5任一项所述的一种基于注意力机制和3D卷积神经网络的人体行为识别方法，其特征在于，该3D卷积神经...

【专利技术属性】
技术研发人员：袁和金，牛为华，张颖，崔克彬，
申请(专利权)人：华北电力大学保定，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人