基于分级式结构的细粒度视频动作识别方法技术

技术编号：29331577 阅读：67 留言：0更新日期：2021-07-20 17:49

基于分级式结构的细粒度视频动作识别方法，目标是实现视频中的细粒度动作识别，具体为双阶段过程：第一阶段识别某长时序视频中动作所属的大类类别，在此基础上第二阶段识别细粒度动作；具体步骤如下：第一步，数据分级处理及特征提取；第二步，视频表征特征提取；第三步，段间融合、双流融合及预测；第四步，细粒度动作特征提取；第五步，细粒度动作预测分类。本发明专利技术应用于细粒度动作分类中，能够有效地对细粒度视频动作完成识别分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于分级式结构的细粒度视频动作识别方法
本专利技术涉及行为识别领域，具体涉及一种基于分级式结构的细粒度视频动作识别方法。
技术介绍
行为识别算法是计算机视觉领域的一个基本的研究问题，其主要内容是分析视频中人类的行为，一般是对给定视频中人的动作进行分类。行为识别已应用于生活诸多方面，如社会监控、公共安全、人机交互以及智能家居等。目前已提出了许多行为识别算法，但如何获得更好的视频表征及更细致的细粒度动作识别，依旧是一个具有挑战性的工作。在深度学习进入行为识别领域之前，表现最好的算法是密集轨迹法DT(DenseTrajectories)[1]和改进密集轨迹法iDT(improvedDenseTrajectories)[2]。深度学习应用于行为识别领域的标志性工作是twostream(双流网络)[3]的提出。双流网络将视频处理为空间流(表征目标)和时序流(表征动作)，最后对双流融合得到分类结果。TSN(TemporalSegmentNetworks)[4]网络也是基于空间流时序流双流融合的方式，但它是多个网络并行运行的，最后...

【技术保护点】
1.基于分级式结构的细粒度视频动作识别方法，其特征在于：细粒度动作识别由双阶段构成，第一阶段识别大类类别，第二阶段在第一阶段基础上识别细粒度动作；具体为：第一步，将长时序视频分级式数据处理，长时序视频分段后每段提取一帧RGB图像以及提取帧附近的光流信息；第二步，将长时序视频的多个视频帧及光流特征送入多个并行的双流网络进行特征提取，每个双流网络由空间流和时序流构成；第三步，多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，融合信息经过预测函数输出视频动作的大类类别；第四步，完成大类动识别后对分级式数据处理得到的细粒度动作进行识别，在已知细粒度动作所属大类类别基...

【技术特征摘要】
1.基于分级式结构的细粒度视频动作识别方法，其特征在于：细粒度动作识别由双阶段构成，第一阶段识别大类类别，第二阶段在第一阶段基础上识别细粒度动作；具体为：第一步，将长时序视频分级式数据处理，长时序视频分段后每段提取一帧RGB图像以及提取帧附近的光流信息；第二步，将长时序视频的多个视频帧及光流特征送入多个并行的双流网络进行特征提取，每个双流网络由空间流和时序流构成；第三步，多个并行网络进行段之间的融合，随后对空间流和时序流进行融合，融合时赋予空间流较高权重，融合信息经过预测函数输出视频动作的大类类别；第四步，完成大类动识别后对分级式数据处理得到的细粒度动作进行识别，在已知细粒度动作所属大类类别基础上，每段细粒度动作提取一帧图像及帧间光流信息输入双流网络；第五步，双流网络输出进行双流融合，融合时赋予时序流较高权重，经预测函数进行视频细粒度动作识别；双阶段的第一阶段包括第一步到第三步，第二阶段包括第四步到第五步。

2.根据权利要求1所述的基于分级式结构的细粒度视频动作识别方法，其特征在于：第一步中所述将长时序视频分级式数据处理，具体为：原始输入视频的数据处理是分级式的，某个完整动作的长时序视频采样多帧信息作为该视频的表征，包括多帧图像及帧间光流信息；随后将长时序动作视频分割为多个细粒度动作片段，每个视频片段包括一段细粒度动作，每段细粒度动作视频采样一帧信息作为当前细粒度动作视频片段的表征。

3.根据权利要求1所述的基于分级式结构的...

【专利技术属性】
技术研发人员：杨旸，杨文涛，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人