一种基于堆叠递归单元的多级残差网络的动作识别方法技术

技术编号:18445581 阅读:29 留言:0更新日期:2018-07-14 10:39
本发明专利技术中提出的一种基于堆叠递归单元的多级残差网络的动作识别方法,其主要内容包括:残差网络、堆叠递归单元、数据集,其过程为,利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。本发明专利技术提出的基于堆叠递归单元的多级残差网络,减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响,提高了识别的准确性和整体效率。

An action recognition method based on stacked recursive unit for multilevel residual network

An action recognition method based on a multilevel residual network based on stacked recursion unit is proposed in this invention. Its main contents include the residual network, stack recursion unit and data set. The process is to represent the required residual mapping by the residual network, and to describe the other mapping for each of the stack layers of the building block, and choose the last one. The output activation of the three sets of residual blocks is used as the three representation of the low and middle level, and the appearance representation is pushed into the stack recursion unit to obtain the video representation on time and depth, then the average activation tensor is followed, and the different methods are used to fuse all the predictions of each time step, using the flat pool and the maximum pool for the final action. Finally, the different levels of information in the network are combined and the final prediction results are calculated. The multilevel residual network based on stacked recursion unit is proposed in this invention, which reduces the influence of fast movement, illumination change, occlusion and view change on action recognition, and improves the accuracy and overall efficiency of recognition.

【技术实现步骤摘要】
一种基于堆叠递归单元的多级残差网络的动作识别方法
本专利技术涉及动作识别领域,尤其是涉及了一种基于堆叠递归单元的多级残差网络的动作识别方法。
技术介绍
人体动作识别作为当前计算机视觉领域的研究热点,涉及了图像处理、模式识别、人工智能等多个学科。基于视频和图像的人体动作识别技术包括人体区域检测、动作和姿态分割、基于动作识别的目标分析和行为理解等。对人体动作进行自动识别和分析将会带来一种全新的交互方式,在高级人机交互、视频监控分析、体育运动分析、基于内容的检索等方面都具有广阔的应用前景。具体地,在高级人机交互领域,计算机通过视频采集设备收集人体动作视频信息,通过动作识别技术来分析和理解人体动作所表达的内容,从而达到人与机器顺利交互的目的。在视频监控分析中,通过对公共场合的人群进行动作识别,可以在一定程度上保障公共安全。在体育运动分析中,通过对体育运动进行客观和量化的分析、统计运动数据,可以作为一种科学直观的辅助识别手段,用于创建个性化的体育训练和分析系统,如指导运动员进行科学有效的训练,也可以辅助赛事直播评论员进行评论和讲解。在基于内容的检索中,通过对视频和图像中的人体运动和动作信息进行识别,可以对不同类型的视频和图像进行标识,帮助人们在海量的视频和图像信息数据中快速找到所需内容,从而实现高效地管理和查询视频或图像数据库。然而,现有的动作识别技术主要受快速移动、光照变化、遮挡和视点变化的影响,特别是如何充分利用时域信息一直是亟待解决的问题。本专利技术提出了一种基于堆叠递归单元的多级残差网络的动作识别方法,利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。本专利技术提出的基于堆叠递归单元的多级残差网络,减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响,提高了识别的准确性和整体效率。
技术实现思路
针对受快速移动、光照变化、遮挡和视点变化影响的问题,本专利技术的目的在于提供一种基于堆叠递归单元的多级残差网络的动作识别方法,利用残差网络表示所需的残差映射,针对每个构建块的堆叠层描述另一映射,选择最后三组残差块的输出激活作为低中高级三个表示,将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示,接着平均激活张量,使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池进行最终的动作预测,最后把网络中的不同层次的信息结合起来,并计算出最终的预测结果。为解决上述问题,本专利技术提供一种基于堆叠递归单元的多级残差网络的动作识别方法,其主要内容包括:(一)残差网络;(二)堆叠递归单元;(三)数据集。其中,所述的残差网络,残差网络(ResNet)将所需的残差映射表示为Φ(x),并且针对每个被称为构建块的堆叠层描述F(x)=Φ(x)-x的另一映射;每个块根据深度的要求包含两层或三层,其中两层为3×3和3×3卷积核,三层分别为1×1,3×3和1×1的卷积核;修正线性单元(ReLU)激活层之间用于引入非线性;采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度;通过参照层的输入,学习残差函数可以解决随深度增加而引起的退化问题,且易于优化;一般情况下,ResNet由多个残留块组成,每个块从下到上执行短连接,其信息从浅层流向深层;使用ResNet-34来构建不同级别的表示。进一步地,所述的ResNet-34,选择最后三组残差块的输出激活作为Al,Am,Ah的低、中、高级表示,并分别命名ResNet-34的不同层的低、中、高级;然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示;考虑ResNet-34层,输出激活张量A∈RC×H×W可以表示为:Alevel=[Al1,Al2,…,AlN],Al,i∈RC(1)其中,level∈[低,中,高],N=H×W;特别地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512×7×7;平均这些激活张量A∈RC×H×W,并产生描述符xfeature∈RC,馈入SRU。其中,所述的堆叠递归单元,递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1,这大大缓解了计算速度;门状态的计算如下所示:Statei,t=σ(Wxixt+Whiht-1+bi)(2)其中,在时刻t,Statei,t表示输入门状态、隐藏门状态和忘记门状态;显然,最后一步的隐藏ht-1被用于确定门状态;基于此,使用SRU来处理帧的时间信息;SRU架构如下所示:ft=σ(Wfxt+bf)(4)rt=σ(Wrxt+br)(5)ht=rt⊙g(ct)+(1-rt)⊙xt(7)其中,ft和rt是S型函数门,称为遗忘门和复位门;g(·)是双曲正切函数;SRU通过在递归过程中舍弃ht-1,简化状态计算;内部状态ct的更新仍然取决于之前的状态ct-1;输入向量xt被传递到SRU模块,ft,Rt可以同时计算出来;公式(6)和公式(7)的操作是元素级别的;之后进行平均激活张量。进一步地,所述的平均激活张量,如公式(1),平均激活张量如下式所示:作为framet的定长矢量表示,并在时间步t将其放入SRU中;使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池来进行最终的动作预测。进一步地,所述的动作预测,模型由两部分组成,将属于视频的N个连续视频帧编码为向量序列Xt=(xt1,…,xtN),其中xti∈RC,C∈[128,256,512],在SRU中,每个动作类别的概率分布由下式计算:其中,Wjt表示在时间t到动作j的映射SRU输出向量的权重参数;公式(9)和公式(10)分别表示均值预测和最大流量预测;最后,用下式把网络中的不同层次的信息结合起来,并计算出最终的预测结果。进一步地,所述的预测结果,得出的预测结果如下式所示:Pfinal=a×PH+b×PM+c×PL(11)其中,P(·)参考不同层次模型的预测,Pfinal是组合模型产生的最终预测;其中,a=0.7,b=0.2,c=0.1。其中,所述的数据集,对UCF-101数据集和HMDB-51数据集进行大量的评估;UCF-101数据集有从YouTuBe收集的13320个视频,共101个动作类别;每种动作都是由25人进行的,每个人都做过一次以上;动作类别可以分为五类:人物交互、肢体动作、人与人交互、演奏乐器和体育;HMDB数据集从各种来源收集,大部分来自电影;该数据集包含3570个训练剪辑和1530个测试剪辑,属于51个不同的类别;使用HMDB-51数据集来确定SRU和两个数据集的更好的超参数设置,接着进行训练。进一步地,所述的训练,SRU的输入单元数量与ResNet产生的激活张量的形状一致;对于低、中、高级帧表示,SRU的输入大小分别为128、256和512个单元;将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元;相似的,堆叠SRU的层数设置为3、4、5层;反复计算中的线性变换是S形激活函数,但是在每个时间步长的预测中,在叠本文档来自技高网
...

【技术保护点】
1.一种基于堆叠递归单元的多级残差网络的动作识别方法,其特征在于,主要包括残差网络(一);堆叠递归单元(二);数据集(三)。

【技术特征摘要】
1.一种基于堆叠递归单元的多级残差网络的动作识别方法,其特征在于,主要包括残差网络(一);堆叠递归单元(二);数据集(三)。2.基于权利要求书1所述的残差网络(一),其特征在于,残差网络(ResNet)将所需的残差映射表示为Φ(x),并且针对每个被称为构建块的堆叠层描述F(x)=Φ(x)-x的另一映射;每个块根据深度的要求包含两层或三层,其中两层为3×3和3×3卷积核,三层分别为1×1,3×3和1×1的卷积核;修正线性单元(ReLU)激活层之间用于引入非线性;采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度;通过参照层的输入,学习残差函数可以解决随深度增加而引起的退化问题,且易于优化;一般情况下,ResNet由多个残留块组成,每个块从下到上执行短连接,其信息从浅层流向深层;使用ResNet-34来构建不同级别的表示。3.基于权利要求书2所述的ResNet-34,其特征在于,选择最后三组残差块的输出激活作为Al,Am,Ah的低、中、高级表示,并分别命名ResNet-34的不同层的低、中、高级;然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示;考虑ResNet-34层,输出激活张量A∈RC×H×W可以表示为:Alevel=[Al1,Al2,…,AtN],Al,i∈RC(1)其中,level∈[低,中,高],N=H×W;特别地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512×7×7;平均这些激活张量A∈RC×H×W,并产生描述符xfeature∈RC,馈入SRU。4.基于权利要求书1所述的堆叠递归单元(二),其特征在于,递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1,这大大缓解了计算速度;门状态的计算如下所示:Statei,t=σ(Wxixt+Whiht-1+bi)(2)其中,在时刻t,Statei,t表示输入门状态、隐藏门状态和忘记门状态;显然,最后一步的隐藏ht-1被用于确定门状态;基于此,使用SRU来处理帧的时间信息;SRU架构如下所示:ft=σ(Wfxt+bf)(4)rt=σ(Wrxt+br)(5)其中,ft和rt是S型函数门,称为遗忘门和复位门;g(·)是双曲正切函数;SRU通过在递归过程中舍弃ht-1,简化状态计算;内部状态ct的更新仍然取决于之前的状态ct-1;输入向量xt被传递到SRU模块,ft,Rt可以同时计算出来;公式(6)和公式(7)的操作是元素级别的;之后进行平均激活张量。5.基于权利要求书4所述的平均激活张量,其特征在于,如公式(1),平均激活张量如下式所示:作为framet的定长矢量表示,并在时间步t将其放入SRU中;使用不同方...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1