当前位置: 首页 > 专利查询>江南大学专利>正文

基于Bi-LSTM-Attention模型的人体行为识别方法技术

技术编号:21185306 阅读:17 留言:0更新日期:2019-05-22 15:55
本发明专利技术提供一种基于Bi‑LSTM‑Attention模型的人体行为识别方法,包括以下步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;步骤S2,将步骤S1得到的特征向量传入到Bi‑LSTM神经网络中进行处理,通过Bi‑LSTM神经网络充分学习视频帧之间的时序特征;步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。本发明专利技术能够提高人体行为的识别率。

Human Behavior Recognition Based on Bi-LSTM-Attention Model

The invention provides a human behavior recognition method based on Bi LSTM Attention model, which includes the following steps: input the extracted video frames into Inception V3 model, use Inception V3 model to increase the depth of convolution neural network while reducing network parameters, fully extract the depth features of video frames, and obtain the relevant feature vectors; and use Inception V3 model to obtain the features of video frames; Eigenvector is introduced into Bi LSTM neural network for processing, and the temporal features between video frames are fully learned by Bi LSTM neural network. Firstly, the temporal feature vectors obtained by E_2 are introduced into the attention mechanism model to self-adaptively perceive the network weights which have a great impact on the recognition results, so that the weight-related features of these networks can get more attention. The invention can improve the recognition rate of human behavior.

【技术实现步骤摘要】
基于Bi-LSTM-Attention模型的人体行为识别方法
本专利技术涉及视频分析与识别领域,尤其是一种基于Bi-LSTM-Attention模型的人体行为识别方法。
技术介绍
针对人体行为识别,早期大多数是使用人工设计的方法提取视频特征。一种方案使用时空兴趣点的方法提取复杂背景下的人体特征,该方法通过计算视频序列中每个位置的强弱并通过极大值滤波的方法找到时空兴趣点。WANGW等人使用稀疏编码的方法学习静态特征,并用基于最大池化的时域金字塔结构对特征进行直方图表示,最后采用SVM进行分类。另一种方案提出了一种分层聚类多任务学习(HC-MTL)方法,通过目标函数加强共享行为关系和学习特定的行为特征来实现人体行为识别。基于人工特征提取的方法在行为识别方面取得了许多优异的成果,然而也存在一些难以解决的问题,人工设计的方法往往不能表达出动作的本质特征,而且由于动作的多样性,往往很容易忽略一些重要的特征,对于行为识别有着较大的影响。JIS等人首次提出了一种3DCNN算法,该方法通过对时间轴上的视频帧运用3D卷积核来捕捉视频的空间和时间信息用来识别人体行为。B.Mahasseni等人通过构造人体3维骨架,然后利用LSTM学习人体3维骨架的时序信息用来识别人体行为。UllahA利用了CNN网络提取视频帧的深层特征,并通过双向LSTM进行学习特征序列中的时序信息,最后通过softmax分类器进行分类。J.Donahue等人提出了一种长期循环卷积网络,该网络从2DCNN中提取特征并通过LSTM网络来学习这些特征之间的顺序关系。在行为识别中CNN和LSTM的使用极大的提高了识别的精度,并减少了工作量。但是CNN的深度对视频帧的特征提取有着较大的影响:网络层次低不易表现出图像的深度特征,容易欠拟合;深层次的网络模型容易产生梯度消散难以优化网络模。LSTM无法有效地学习运动的时序特征,缺乏自主适应能力。本文涉及的术语:SVM:支持向量机;3DCNN:3D卷积神经网络;LSTM:长短时记忆网络。Attention:注意力。
技术实现思路
本专利技术的目的在于克服现有技术中存在的不足,提供一种基于Bi-LSTM-Attention模型的人体行为识别方法,该方法可以学习特征序列中的时序信息,并通过注意力机制训练网络权重,达到更好的性能,减小识别误差。本专利技术采用的技术方案是:一种基于Bi-LSTM-Attention模型的人体行为识别方法,包括以下步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;步骤S2,将步骤S1得到的特征向量传入到Bi-LSTM神经网络中进行处理,通过Bi-LSTM神经网络充分学习视频帧之间的时序特征;步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。进一步地,步骤S1中,InceptionV3模型将不同的卷积层通过并联的方式结合在一起,同时使用不同尺寸的卷积核对视频帧进行卷积操作,最后通过滤波器融合层把不同卷积核处理的特征向量拼接起来,通过全连接层输出深度特征矩阵用于传输到Bi-LSTM神经网络中。进一步地,步骤S2具体包括:wi(i=1…6)表示一层网络层到另一网络层的权重;{…ht-1,ht,ht+1…}表示LSTM神经网络中的前向传播层,前向传播层的输入是{…xt-1,xt,xt+1…}从前向后的特征序列;{…ht+1',ht',ht-1'…}表示LSTM神经网络中的后向传播层,后向传播层的输入是{…xt+1,xt,xt-1…}从后向前的特征序列;其中的xt表示所提取的视频帧通过InceptionV3模型提取深度特征后得到的特征向量;如下式:ht=f(w1xt+w2ht-1+b1)(1)ht'=f(w3xt+w5ht+1+b2)(2)ot'=g(w4ht+b3)(3)ot”=g(w6ht'+b3)(4)ot=(ot'+ot”)/2(5)上式(1)、(2)、(3)、(4)中的f和g代表激活函数,b1、b2、b3、b4代表隐藏单元的偏置系数,o',o”为两个LSTM单元在相应时刻分别处理Inceptionv3层输出的特征向量的结果;把相应时刻的两个特征向量相加求和取平均值作为输出的时序特征向量。进一步地,步骤S3具体包括:ot表示从Bi-LSTM神经网络中输出的第t个时序特征向量,然后把时序特征向量传入到注意力机制模型中,经过注意力机制模型中的隐藏层得到初始状态向量St;权重系数αt表示初始状态向量St在最终输出的状态向量Y中所占的比重大小;各个初始状态向量St与权重系数αt的乘积的累加和得到最终输出的状态向量Y;计算公式如下:et=tanh(wtst+bt)(6)tanh表示激励函数,n表示视频帧的数量;et表示第t个时序特征向量的状态向量St所决定的能量值,wt和bt表示权重和偏置;通过式(7)以e为底数各个部分能量值的次方与之前部分的能量值的累加和的比值可以得到对分类结果有多大影响的权重系数,由此实现了初始状态到注意力状态的转换;最后如式(8)得到最终输出的状态向量Y。本专利技术的优点在于:本专利技术在视频帧的特征提取阶段,使用InceptionV3模型提取特征,解决网络深度问题,然后Bi-LSTM神经网络可以充分学习特征之间的时序信息,最后的注意力机制可以使网络模型的性能更好。通过ActionYoutobe和KTH人体行为数据集与现有的DB-LSTM、3DCNN等方法进行比较,实验结果表明本专利技术所提出的算法识别率达到94.38%和95.67%。附图说明图1为本专利技术的基于Bi-LSTM-Attention模型的行为识别框架示意图。图2为本专利技术的InceptionV3模型的示意图。图3为本专利技术的Bi-LSTM神经网络的示意图。图4为本专利技术的注意力机制模型的示意图。具体实施方式下面结合具体附图和实施例对本专利技术作进一步说明。本专利技术提出一种基于Bi-LSTM-Attention模型的人体行为识别方法(OneHumanActionRecognitionAlgorithmBasedonBi-LSTM-Attentionmodel);该方法首先从每个视频中提取20个视频帧,通过InceptionV3模型提取视频帧的深度特征,然后构建向前和向后的Bi-LSTM神经网络中的特征向量,接着利用注意力(Attention)机制模型自适应地感知对识别结果有较大影响的网络权重,使Bi-LSTM-Attention模型能够根据行为的前后关系实现更精确的识别,最后通过一层全连接层连接softmax分类器对视频进行分类。该方法主要包括三大步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;InceptionV3模型主要是对输入视频帧进行特征提取即把这些视频帧处理成Bi-LSTM神经网络能够直接接收并能处理的特征向量形式;与传统的CNN特征提取方法不同,它将不同的卷积层通过并联的方式结合在一起本文档来自技高网
...

【技术保护点】
1.一种基于Bi‑LSTM‑Attention模型的人体行为识别方法,其特征在于,包括以下步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;步骤S2,将步骤S1得到的特征向量传入到Bi‑LSTM神经网络中进行处理,通过Bi‑LSTM神经网络充分学习视频帧之间的时序特征;步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。

【技术特征摘要】
1.一种基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,包括以下步骤:步骤S1,将提取的视频帧输入InceptionV3模型,使用InceptionV3模型增加卷积神经网络深度的同时减少网络参数,充分提取视频帧的深度特征,得到相关的特征向量;步骤S2,将步骤S1得到的特征向量传入到Bi-LSTM神经网络中进行处理,通过Bi-LSTM神经网络充分学习视频帧之间的时序特征;步骤S3,把步骤S2得到的时序特征向量传入到注意力机制模型自适应地感知对识别结果有较大影响的网络权重,使得这些网络权重相关的特征能够得到更多的关注。2.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,步骤S1中,InceptionV3模型将不同的卷积层通过并联的方式结合在一起,同时使用不同尺寸的卷积核对视频帧进行卷积操作,最后通过滤波器融合层把不同卷积核处理的特征向量拼接起来,通过全连接层输出深度特征矩阵用于传输到Bi-LSTM神经网络中。3.如权利要求1所述的基于Bi-LSTM-Attention模型的人体行为识别方法,其特征在于,步骤S2具体包括:wi(i=1…6)表示一层网络层到另一网络层的权重;{…ht-1,ht,ht+1…}表示LSTM神经网络中的前向传播层,前向传播层的输入是{…xt-1,xt,xt+1…}从前向后的特征序列;{…ht+1',ht',ht-1'…}表示LSTM神经网络中的后向传播层,后向传播层的输入是{…xt+1,xt,xt-1…}从后向前的特征序列;...

【专利技术属性】
技术研发人员:卢先领朱铭康王骏
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1