一种基于堆叠递归单元的多级残差网络的动作识别方法技术

技术编号：18445581 阅读：29 留言：0更新日期：2018-07-14 10:39

本发明专利技术中提出的一种基于堆叠递归单元的多级残差网络的动作识别方法，其主要内容包括：残差网络、堆叠递归单元、数据集，其过程为，利用残差网络表示所需的残差映射，针对每个构建块的堆叠层描述另一映射，选择最后三组残差块的输出激活作为低中高级三个表示，将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示，接着平均激活张量，使用不同方法来融合每个时间步骤的所有预测，采用平均池和最大池进行最终的动作预测，最后把网络中的不同层次的信息结合起来，并计算出最终的预测结果。本发明专利技术提出的基于堆叠递归单元的多级残差网络，减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响，提高了识别的准确性和整体效率。

An action recognition method based on stacked recursive unit for multilevel residual network

An action recognition method based on a multilevel residual network based on stacked recursion unit is proposed in this invention. Its main contents include the residual network, stack recursion unit and data set. The process is to represent the required residual mapping by the residual network, and to describe the other mapping for each of the stack layers of the building block, and choose the last one. The output activation of the three sets of residual blocks is used as the three representation of the low and middle level, and the appearance representation is pushed into the stack recursion unit to obtain the video representation on time and depth, then the average activation tensor is followed, and the different methods are used to fuse all the predictions of each time step, using the flat pool and the maximum pool for the final action. Finally, the different levels of information in the network are combined and the final prediction results are calculated. The multilevel residual network based on stacked recursion unit is proposed in this invention, which reduces the influence of fast movement, illumination change, occlusion and view change on action recognition, and improves the accuracy and overall efficiency of recognition.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于堆叠递归单元的多级残差网络的动作识别方法
本专利技术涉及动作识别领域，尤其是涉及了一种基于堆叠递归单元的多级残差网络的动作识别方法。
技术介绍
人体动作识别作为当前计算机视觉领域的研究热点，涉及了图像处理、模式识别、人工智能等多个学科。基于视频和图像的人体动作识别技术包括人体区域检测、动作和姿态分割、基于动作识别的目标分析和行为理解等。对人体动作进行自动识别和分析将会带来一种全新的交互方式，在高级人机交互、视频监控分析、体育运动分析、基于内容的检索等方面都具有广阔的应用前景。具体地，在高级人机交互领域，计算机通过视频采集设备收集人体动作视频信息，通过动作识别技术来分析和理解人体动作所表达的内容，从而达到人与机器顺利交互的目的。在视频监控分析中，通过对公共场合的人群进行动作识别，可以在一定程度上保障公共安全。在体育运动分析中，通过对体育运动进行客观和量化的分析、统计运动数据，可以作为一种科学直观的辅助识别手段，用于创建个性化的体育训练和分析系统，如指导运动员进行科学有效的训练，也可以辅助赛事直播评论员进行评论和讲解。在基于内容的检索中，通过对视频和图像中的人体运动和动作信息进行识别，可以对不同类型的视频和图像进行标识，帮助人们在海量的视频和图像信息数据中快速找到所需内容，从而实现高效地管理和查询视频或图像数据库。然而，现有的动作识别技术主要受快速移动、光照变化、遮挡和视点变化的影响，特别是如何充分利用时域信息一直是亟待解决的问题。本专利技术提出了一种基于堆叠递归单元的多级残差网络的动作识别方法，利用残差网络表示所需的残差映射，针对每个构建块的堆叠层描...

【技术保护点】
1.一种基于堆叠递归单元的多级残差网络的动作识别方法，其特征在于，主要包括残差网络(一)；堆叠递归单元(二)；数据集(三)。

【技术特征摘要】
1.一种基于堆叠递归单元的多级残差网络的动作识别方法，其特征在于，主要包括残差网络(一)；堆叠递归单元(二)；数据集(三)。2.基于权利要求书1所述的残差网络(一)，其特征在于，残差网络(ResNet)将所需的残差映射表示为Φ(x)，并且针对每个被称为构建块的堆叠层描述F(x)＝Φ(x)-x的另一映射；每个块根据深度的要求包含两层或三层，其中两层为3×3和3×3卷积核，三层分别为1×1，3×3和1×1的卷积核；修正线性单元(ReLU)激活层之间用于引入非线性；采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度；通过参照层的输入，学习残差函数可以解决随深度增加而引起的退化问题，且易于优化；一般情况下，ResNet由多个残留块组成，每个块从下到上执行短连接，其信息从浅层流向深层；使用ResNet-34来构建不同级别的表示。3.基于权利要求书2所述的ResNet-34，其特征在于，选择最后三组残差块的输出激活作为Al，Am，Ah的低、中、高级表示，并分别命名ResNet-34的不同层的低、中、高级；然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示；考虑ResNet-34层，输出激活张量A∈RC×H×W可以表示为：Alevel＝[Al1，Al2，…，AtN]，Al，i∈RC(1)其中，level∈[低，中，高]，N＝H×W；特别地，Al∈R128×28×28，Am∈R256×14×14，Al∈R512×7×7；平均这些激活张量A∈RC×H×W，并产生描述符xfeature∈RC，馈入SRU。4.基于权利要求书1所述的堆叠递归单元(二)，其特征在于，递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1，这大大缓解了计算速度；门状态的计算如下所示：Statei，t＝σ(Wxixt+Whiht-1+bi)(2)其中，在时刻t，Statei，t表示输入门状态、隐藏门状态和忘记门状态；显然，最后一步的隐藏ht-1被用于确定门状态；基于此，使用SRU来处理帧的时间信息；SRU架构如下所示：ft＝σ(Wfxt+bf)(4)rt＝σ(Wrxt+br)(5)其中，ft和rt是S型函数门，称为遗忘门和复位门；g(·)是双曲正切函数；SRU通过在递归过程中舍弃ht-1，简化状态计算；内部状态ct的更新仍然取决于之前的状态ct-1；输入向量xt被传递到SRU模块，ft，Rt可以同时计算出来；公式(6)和公式(7)的操作是元素级别的；之后进行平均激活张量。5.基于权利要求书4所述的平均激活张量，其特征在于，如公式(1)，平均激活张量如下式所示：作为framet的定长矢量表示，并在时间步t将其放入SRU中；使用不同方...

【专利技术属性】
技术研发人员：夏春秋，
申请(专利权)人：深圳市唯特视科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人