The invention provides a human behavior recognition method based on Bi LSTM Attention model, which includes the following steps: input the extracted video frames into Inception V3 model, use Inception V3 model to increase the depth of convolution neural network while reducing network parameters, fully extract the depth features of video frames, and obtain the relevant feature vectors; and use Inception V3 model to obtain the features of video frames; Eigenvector is introduced into Bi LSTM neural network for processing, and the temporal features between video frames are fully learned by Bi LSTM neural network. Firstly, the temporal feature vectors obtained by E_2 are introduced into the attention mechanism model to self-adaptively perceive the network weights which have a great impact on the recognition results, so that the weight-related features of these networks can get more attention. The invention can improve the recognition rate of human behavior.
【技术实现步骤摘要】
基于Bi-LSTM-Attention模型的人体行为识别方法
本专利技术涉及视频分析与识别领域,尤其是一种基于Bi-LSTM-Attention模型的人体行为识别方法。
技术介绍
针对人体行为识别,早期大多数是使用人工设计的方法提取视频特征。一种方案使用时空兴趣点的方法提取复杂背景下的人体特征,该方法通过计算视频序列中每个位置的强弱并通过极大值滤波的方法找到时空兴趣点。WANGW等人使用稀疏编码的方法学习静态特征,并用基于最大池化的时域金字塔结构对特征进行直方图表示,最后采用SVM进行分类。另一种方案提出了一种分层聚类多任务学习(HC-MTL)方法,通过目标函数加强共享行为关系和学习特定的行为特征来实现人体行为识别。基于人工特征提取的方法在行为识别方面取得了许多优异的成果,然而也存在一些难以解决的问题,人工设计的方法往往不能表达出动作的本质特征,而且由于动作的多样性,往往很容易忽略一些重要的特征,对于行为识别有着较大的影响。JIS等人首次提出了一种3DCNN算法,该方法通过对时间轴上的视频帧运用3D卷积核来捕捉视频的空间和时间信息用来识别人体行为。B.Mahasseni等人通过构造人体3维骨架,然后利用LSTM学习人体3维骨架的时序信息用来识别人体行为。UllahA利用了CNN网络提取视频帧的深层特征,并通过双向LSTM进行学习特征序列中的时序信息,最后通过softmax分类器进行分类。J.Donahue等人提出了一种长期循环卷积网络,该网络从2DCNN中提取特征并通过LSTM网络来学习这些特征之间的顺序关系。在行为识别中CNN和LSTM的使用极大的提高了 ...
【技术保护点】
1.一种基于Bi‑LSTM‑Attention模型的人体行为识别方法,其特征在于,包括以下步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;步骤S2,将步骤S1得到的特征向量传入到Bi‑LSTM神经网络中进行处理,通过Bi‑LSTM神经网络充分学习视频帧之间的时序特征;步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。
【技术特征摘要】
1.一种基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,包括以下步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;步骤S2,将步骤S1得到的特征向量传入到Bi-LSTM神经网络中进行处理,通过Bi-LSTM神经网络充分学习视频帧之间的时序特征;步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。2.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,步骤S1中,InceptionV3模型将不同的卷积层通过并联的方式结合在一起,同时使用不同尺寸的卷积核对视频帧进行卷积操作,最后通过滤波器融合层把不同卷积核处理的特征向量拼接起来,通过全连接层输出深度特征矩阵用于传输到Bi-LSTM神经网络中。3.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,步骤S2具体包括:wi(i=1…6)表示一层网络层到另一网络层的权重;{…ht-1,ht,ht+1…}表示LSTM神经网络中的前向传播层,前向传播层的输入是{…xt-1,xt,xt+1…}从前向后的特征序列;{…ht+1',ht',ht-1'…}表示LSTM神经网络中的后向传播层,后向传播层的输入是{…xt+1,xt,xt-1…}从后向前的特征序列;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。