基于记忆单元强化-时序动态学习的行为识别方法技术

技术编号：21116408 阅读：19 留言：0更新日期：2019-05-16 09:11

本发明专利技术公开了一种基于记忆单元强化‑时序动态学习的行为识别方法，用于解决现有行为识别方法实用性差的技术问题。技术方案是采用融合记忆单元的递归神经网络建模长时视频序列的时序结构信息，通过离散化记忆单元读写控制器模块将视频序列的每一视频帧分类为相关帧与噪音帧，将相关帧的信息写入记忆单元同时忽略噪音帧信息。该方法能够滤掉未剪辑视频中大量的噪音信息，融合记忆单元的递归神经网络实现了大跨度时序结构的连接，通过数据驱动的自主训练学习，对复杂人物行为的长时时序结构模式进行建模，解决了背景技术对长时、未剪辑视频的运动模式复杂，背景变化多难题，提升了人物行为识别方法的鲁棒性，并且达到了平均94.8％的识别准确率。

Behavior Recognition Method Based on Memory Unit Enhancement-Time Sequence Dynamic Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于记忆单元强化-时序动态学习的行为识别方法
本专利技术涉及一种行为识别方法，特别涉及一种基于记忆单元强化-时序动态学习的行为识别方法。
技术介绍
文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,andL.V.Gool.TemporalSegmentNetworks:TowardsGoodPracticesforDeepActionRecognition,InProceedingsofEuropeanConferenceonComputerVision,pp.20–36,2016.”公开了一种基于双流卷积神经网络与时序片段网络的人物行为识别方法。该方法利用两个独立的卷积神经网络来解决行为识别任务，其中，空间流网络从视频帧中提取目标的表观特征，而时序流网络则从对应的光流场数据中提取目标的运动特征，通过融合这两个网络输出得到行为识别结果。同时，该方法提出时序片段网络来建模视频序列的长时时序结构信息，该网络通过稀疏时序采样策略与序列尺度的监督学习，实现了整个神经网络的高效有效学习，并在大规模公开数据集上取得了较好的结果。文献所述方法对视频中的时序建模较为粗糙，使得网络在学习过程中往往会忽略特征的时序关联性；在视频序列较长及未剪辑时，该方法会将无关的噪音信息融入最终识别结果，降低人物行为识别的准确率，同时噪音信息的加入，也会使得整个神经网络的训练学习变得困难。
技术实现思路
为了克服现有行为识别方法实用性差的不足，本专利技术提供一种基于记忆单元强化-时序动态学习的行为识别方法。该方法采用融合记忆单元的递归神经网络建模长时视频序...

【技术保护点】
1.一种基于记忆单元强化‑时序动态学习的行为识别方法，其特征在于包括以下步骤：步骤一、计算视频帧Ia的光流信息，其中每个像素的光流信息由二维向量(Δx,Δy)表示并保存为光流图Im；利用两个独立思维卷积神经网络提取各自的高维语义特征：xa＝CNNa(Ia；wa) (1)xm＝CNNm(Im；wm) (2)其中，CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络，用以提取视频帧Ia与光流图Im的高维特征；xa、xm分别为2048维向量，代表卷积神经网络提取出的表观与运动特征；wa、wm表示两个卷积神经网络的内部可训练参数；利用x表示卷积神经网络提取出的高维特征；步骤二、初始化记忆单元M为空，表示为M0；假设第t视频帧时，记忆单元Mt不为空，其中包含Nt>0个元素，分别表示为m1,m2,...mNt；那么，对应时刻的记忆模块读取操作如下：

【技术特征摘要】
1.一种基于记忆单元强化-时序动态学习的行为识别方法，其特征在于包括以下步骤：步骤一、计算视频帧Ia的光流信息，其中每个像素的光流信息由二维向量(Δx,Δy)表示并保存为光流图Im；利用两个独立思维卷积神经网络提取各自的高维语义特征：xa＝CNNa(Ia；wa)(1)xm＝CNNm(Im；wm)(2)其中，CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络，用以提取视频帧Ia与光流图Im的高维特征；xa、xm分别为2048维向量，代表卷积神经网络提取出的表观与运动特征；wa、wm表示两个卷积神经网络的内部可训练参数；利用x表示卷积神经网络提取出的高维特征；步骤二、初始化记忆单元M为空，表示为M0；假设第t视频帧时，记忆单元Mt不为空，其中包含Nt>0个元素，分别表示为m1,m2,...mNt；那么，对应时刻的记忆模块读取操作如下：其中，读取出的mht代表视频前t时刻的历史信息；步骤三、利用片段式递归神经网络，提取视频内容的短时上下文特征；以步骤一计算得到的高维语义特征x作为输入，对应第t视频帧时的特征记为xt；初始化长短时递归神经网络(LSTM)的隐状态h0、c0为零，则t时刻的短时上下文特征计算如下：其中，EMD()表示长短时递归神经网络，ht-1,ct-1表示递归神经网络前一时刻的隐状态；而作为视频内容的短时上下文特征用于后续计算；步骤四、对于每一视频帧，步骤一、二、三计算得到的高维语义特征xt，记忆单...

【专利技术属性】
技术研发人员：袁媛，王琦，王栋，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人