基于记忆单元强化-时序动态学习的行为识别方法技术

技术编号:21116408 阅读:19 留言:0更新日期:2019-05-16 09:11
本发明专利技术公开了一种基于记忆单元强化‑时序动态学习的行为识别方法,用于解决现有行为识别方法实用性差的技术问题。技术方案是采用融合记忆单元的递归神经网络建模长时视频序列的时序结构信息,通过离散化记忆单元读写控制器模块将视频序列的每一视频帧分类为相关帧与噪音帧,将相关帧的信息写入记忆单元同时忽略噪音帧信息。该方法能够滤掉未剪辑视频中大量的噪音信息,融合记忆单元的递归神经网络实现了大跨度时序结构的连接,通过数据驱动的自主训练学习,对复杂人物行为的长时时序结构模式进行建模,解决了背景技术对长时、未剪辑视频的运动模式复杂,背景变化多难题,提升了人物行为识别方法的鲁棒性,并且达到了平均94.8%的识别准确率。

Behavior Recognition Method Based on Memory Unit Enhancement-Time Sequence Dynamic Learning

【技术实现步骤摘要】
基于记忆单元强化-时序动态学习的行为识别方法
本专利技术涉及一种行为识别方法,特别涉及一种基于记忆单元强化-时序动态学习的行为识别方法。
技术介绍
文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,andL.V.Gool.TemporalSegmentNetworks:TowardsGoodPracticesforDeepActionRecognition,InProceedingsofEuropeanConferenceonComputerVision,pp.20–36,2016.”公开了一种基于双流卷积神经网络与时序片段网络的人物行为识别方法。该方法利用两个独立的卷积神经网络来解决行为识别任务,其中,空间流网络从视频帧中提取目标的表观特征,而时序流网络则从对应的光流场数据中提取目标的运动特征,通过融合这两个网络输出得到行为识别结果。同时,该方法提出时序片段网络来建模视频序列的长时时序结构信息,该网络通过稀疏时序采样策略与序列尺度的监督学习,实现了整个神经网络的高效有效学习,并在大规模公开数据集上取得了较好的结果。文献所述方法对视频中的时序建模较为粗糙,使得网络在学习过程中往往会忽略特征的时序关联性;在视频序列较长及未剪辑时,该方法会将无关的噪音信息融入最终识别结果,降低人物行为识别的准确率,同时噪音信息的加入,也会使得整个神经网络的训练学习变得困难。
技术实现思路
为了克服现有行为识别方法实用性差的不足,本专利技术提供一种基于记忆单元强化-时序动态学习的行为识别方法。该方法采用融合记忆单元的递归神经网络建模长时视频序列的时序结构信息,通过离散化记忆单元读写控制器模块将视频序列的每一视频帧分类为相关帧与噪音帧,将相关帧的信息写入记忆单元同时忽略噪音帧信息,该方法能够滤掉未剪辑视频中大量的噪音信息,提升后继行为识别的准确率。此外,融合记忆单元的递归神经网络可以实现大跨度时序结构的连接,通过数据驱动的自主训练学习,对复杂人物行为的长时时序结构模式进行建模,进而解决了现有的行为识别方法对长时、未剪辑视频的运动模式复杂,背景变化多难题,提升了人物行为识别方法的鲁棒性,并且达到平均94.8%、71.8%的识别准确率。本专利技术解决其技术问题所采用的技术方案:一种基于记忆单元强化-时序动态学习的行为识别方法,其特点是包括以下步骤:步骤一、计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(Δx,Δy)表示并保存为光流图Im。利用两个独立思维卷积神经网络提取各自的高维语义特征:xa=CNNa(Ia;wa)(1)xm=CNNm(Im;wm)(2)其中,CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征。xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征。wa、wm表示两个卷积神经网络的内部可训练参数。利用x表示卷积神经网络提取出的高维特征。步骤二、初始化记忆单元M为空,表示为M0。假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为那么,对应时刻的记忆模块读取操作如下:其中,读取出的mht代表视频前t时刻的历史信息。步骤三、利用片段式递归神经网络,提取视频内容的短时上下文特征。以步骤一计算得到的高维语义特征x作为输入,对应第t视频帧时的特征记为xt。初始化长短时递归神经网络(LSTM)的隐状态h0、c0为零,则t时刻的短时上下文特征计算如下:其中,EMD()表示长短时递归神经网络,ht-1,ct-1表示递归神经网络前一时刻的隐状态。而作为视频内容的短时上下文特征用于后续计算。步骤四、对于每一视频帧,步骤一、二、三计算得到的高维语义特征xt,记忆单元历史信息mht以及短时上下文特征输入记忆单元控制器,计算得到二值化记忆单元写入指令st∈{0,1},具体如下:at=σ(qt)(6)st=τ(at)(7)其中,vT为可学习的行向量参数,Wf、Wc、Wm为可学习的权重参数,bs为偏置参数。sigmoid函数σ()将线性加权的结果qt归一化到0,1之间,即at∈(0,1)。at输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令st。步骤五、基于二值化记忆单元写入指令st,更新记忆单元与片段式递归神经网络。对于每一视频帧,记忆单元Mt的更新策略如下:其中,Ww为可学习权重矩阵,该矩阵通过乘法运算将高维语义特征xt转换为记忆单元元素表示将写入记忆单元Mt-1,形成新的记忆单元Mt。此外,片段式递归神经网络的隐状态ht,ct更新如下:其中,为式(4)计算得到的结果。步骤六、利用记忆单元进行行为分类。假设视频总长为T,整个视频处理结束时记忆单元为MT,其中有NT个元素,则整个视频的特征表示f为:其中,f为D维向量,代表视频中行为类别的信息。该特征输入全连接分类层得到行为类别得分y,具体如下:y=softmax(W·f)(12)其中,W∈RC×D,C表示可识别的行为类别总数。计算得到的y表示系统对各个类别的分类得分,得分越高表示越有可能是该类行为。假设ya、ym分别表示表观与运动神经网络得到的得分,则最终得分yf如下:yf=ya+ym(13)其中,yf表示最终人物行为识别结果。本专利技术的有益效果是:该方法采用融合记忆单元的递归神经网络建模长时视频序列的时序结构信息,通过离散化记忆单元读写控制器模块将视频序列的每一视频帧分类为相关帧与噪音帧,将相关帧的信息写入记忆单元同时忽略噪音帧信息,该方法能够滤掉未剪辑视频中大量的噪音信息,提升后继行为识别的准确率。此外,融合记忆单元的递归神经网络可以实现大跨度时序结构的连接,通过数据驱动的自主训练学习,对复杂人物行为的长时时序结构模式进行建模,进而解决了现有的行为识别方法对长时、未剪辑视频的运动模式复杂,背景变化多难题,提升了人物行为识别方法的鲁棒性,并且达到平均94.8%、71.8%的识别准确率。下面结合附图和具体实施方式对本专利技术作详细说明。附图说明图1是本专利技术基于记忆单元强化-时序动态学习的行为识别方法的流程图。具体实施方式参照图1。本专利技术基于记忆单元强化-时序动态学习的行为识别方法具体步骤如下:步骤一、提取蕴含语义信息的高维表观与运动特征。首先,计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(Δx,Δy)表示并保存为光流图Im。然后,利用两个独立思维卷积神经网络提取各自的高维语义特征:xa=CNNa(Ia;wa)(1)xm=CNNm(Im;wm)(2)其中CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征。xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征。wa、wm表示两个卷积神经网络的内部可训练参数。由于表观神经网络与运动神经网络的后续操作完全一致,为使得标号简单清晰,利用x表示卷积神经网络提取出的高维特征。步骤二、初始化记忆单元M为空,表示为M0。假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为那么,对应时刻的记忆模块读取操作如下:其中读取出的mht代表了视频前t时刻的历史信息,同时该历史信息影响了此时刻视频内容的分析与理解。本文档来自技高网...

【技术保护点】
1.一种基于记忆单元强化‑时序动态学习的行为识别方法,其特征在于包括以下步骤:步骤一、计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(Δx,Δy)表示并保存为光流图Im;利用两个独立思维卷积神经网络提取各自的高维语义特征:xa=CNNa(Ia;wa)                         (1)xm=CNNm(Im;wm)                        (2)其中,CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征;xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征;wa、wm表示两个卷积神经网络的内部可训练参数;利用x表示卷积神经网络提取出的高维特征;步骤二、初始化记忆单元M为空,表示为M0;假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为m1,m2,...mNt;那么,对应时刻的记忆模块读取操作如下:

【技术特征摘要】
1.一种基于记忆单元强化-时序动态学习的行为识别方法,其特征在于包括以下步骤:步骤一、计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(Δx,Δy)表示并保存为光流图Im;利用两个独立思维卷积神经网络提取各自的高维语义特征:xa=CNNa(Ia;wa)(1)xm=CNNm(Im;wm)(2)其中,CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征;xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征;wa、wm表示两个卷积神经网络的内部可训练参数;利用x表示卷积神经网络提取出的高维特征;步骤二、初始化记忆单元M为空,表示为M0;假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为m1,m2,...mNt;那么,对应时刻的记忆模块读取操作如下:其中,读取出的mht代表视频前t时刻的历史信息;步骤三、利用片段式递归神经网络,提取视频内容的短时上下文特征;以步骤一计算得到的高维语义特征x作为输入,对应第t视频帧时的特征记为xt;初始化长短时递归神经网络(LSTM)的隐状态h0、c0为零,则t时刻的短时上下文特征计算如下:其中,EMD()表示长短时递归神经网络,ht-1,ct-1表示递归神经网络前一时刻的隐状态;而作为视频内容的短时上下文特征用于后续计算;步骤四、对于每一视频帧,步骤一、二、三计算得到的高维语义特征xt,记忆单...

【专利技术属性】
技术研发人员:袁媛王琦王栋
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1