当前位置: 首页 > 专利查询>武汉大学专利>正文

基于深度学习的轻量化视频动作识别网络、方法及系统技术方案

技术编号:29927929 阅读:15 留言:0更新日期:2021-09-04 18:51
本发明专利技术公开了一种基于深度学习的轻量化视频动作识别网络、方法及系统,提出了一个多维度模块(MDM)来进行动作识别。MDM使用多个不同维度的2D卷积核来重构3D卷积核,这些模块兼具高效率和识别准确性。具体而言,MDM首先从三个正交维度上对视频立方体执行2D卷积,以协同的方式学习视频中动作主体的外观和运动特征。其次,沿通道维度对三个2D卷积进行分组操作,旨在进一步减少参数计算量。最后,对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作,有效获得视频中长程和短程的时序信息。与3D CNN的计算量相比,本发明专利技术方法的效率更高,在保证识别性能的基础上满足了轻量化需求。求。求。

【技术实现步骤摘要】
基于深度学习的轻量化视频动作识别网络、方法及系统


[0001]本专利技术属于视频识别
,涉及一种针对视频的人体动作识别网络、方法及系统,具体涉及一种基于深度学习的轻量化视频动作识别网络、方法及系统。
技术背景
[0002]深度学习推动了视频动作识别的进展。深度学习通过在大量视频数据集上进行训练获得了远超传统识别方法的效果。然而,考虑到设备的功耗、存储成本等因素,基于视频的人体动作分析与识别应用又对实时性、速度有着很高的要求。因此,对人体行为分析识别模型进行轻量化设计具有重要意义。
[0003]目前视频动作识别的主流方法大致分为三类:
[0004](1)双流方法:扩展2D CNN来处理视频识别任务是最直接的方法。Simonyan等人提出了一种two

stream模型来识别视频中的人体动作,该模型由空间流和光流组成,这二者在动作识别上是信息互补的。空间流用于提取视频的RGB特征,光流旨在捕捉视频堆叠帧之间的光流特征。最后采用后期融合模式对双流结果进行融合。然而一些研究指出了双流网络中后期融合的缺点,并探索了不同的融合策略。Feichtenhofer等人指出,时空特征仅通过后期融合进行整合,并不能真正学习到视频内部的时空交互信息。为了减轻这种限制,他们提出了具有跨流残差连接的时空乘数网络,以确保更有效地学习到视频中的时空交互信息。特别是,在残差网络中实现了乘法运动门控函数,重构了双流结构从而保证模型在整个学习过程中能够实现时空特征的有效交互。
[0005](2)3D CNN方法:3D CNN利用3D卷积操作和3D池化操作,从堆叠的视频块中协同学习时空信息。有研究表明3D卷积是学习视频时空激活的一种较好的方法,Tran等人提出了一种基于VGG的深度模型,从帧序列中学习时空特征。Carira等人在Inception模块中提出将二维卷积扩展到三维卷积。然而,3DCNN存在昂贵的计算成本和大量的内存需求等弊端。因此,许多研究者通过分解时空卷积来减少模型参数的计算量。Qiu等人提出了P3D,包括三种不同的空间和时间卷积的组合方法。R(2+1)D和S3D

G也使用空间2D卷积和时间1D卷积来捕捉动作识别的时空特征。
[0006](3)时空建模方法:视频动作识别中最新的研究趋势聚焦于设计轻量化的高性能网络结构。现有研究结果表明,只有非底层卷积层才能提取出明显的运动信号。Sun等人采用1D时间卷积和2D空间卷积组合方式进行动作识别。Xie等人证明了可分离的3D CNN在2D CNN的顶部可以更有效的学习时空信息。同时,静态场景和主体的单帧空间特征也可以为动作识别提供线索。例如,MiCT采取一种双流架构,用于组合3D卷积和2D卷积来进行动作识别。时空映射模型通过联合分析视频的所有帧来捕捉帧的时间演化从而学习视频中的时空信息。受分组卷积范式的启发,GST在分离的信道群上,使用2D卷积和3D卷积并行建模空间和时空交互信息,因而可以在减少网络参数的同时提升模型的识别准确率。CSN通过群组卷积分离信道交互和时空交互来进行动作识别。TSM通过对时间维度上的特征进行位移操作来学习连续帧之间的时空交互关系,这种无参数的方法实现了3D CNN的等效性能。
[0007]现有的这些视频动作识别模型大多为(2+1)D模型或2D+3D并行模型,虽然这些方法都取得了一定的效果,但它们在学习过程中实际上都是将时空信息分割成两个独立的部分分别提取,并未实现真正意义上的时空信息交互。

技术实现思路

[0008]为了解决上述技术问题,本专利技术使用深度学习中分离式卷积和分组卷积以及时间偏移思想,提出了一种基于深度学习的轻量化视频动作识别网络、方法及系统。本专利技术在满足识别准确率的同时,最大化的减少了模型的复杂度,满足了当前动作识别模型对于轻量化的需求。
[0009]本专利技术的识别网络所采用的技术方案是:一种基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM

A(t,h)和MDM

C(t,w),及一个空间卷积模块分支MDM

B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM

A维度为3
×3×
1、MDM

B维度为1
×3×
3,MDM

C维度为3
×1×
3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
[0010]对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[W
C1
,W
C2
]、W1×3×3=[W
S1
,W
S2
]、W3×1×3=[W
C1
,W
C2
],其中C表示时空协同卷积MDM

A和MDM

C,S表示空间卷积MDM

B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
[0011]将MDM嵌入Inception

V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
[0012]所述Inception

V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception

V3网络的每个Block_module中的1
×
1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception

V3网络插入10个MDM模块。
[0013]本专利技术的方法所采用的技术方案是:一种基于深度学习的轻量化视频动作识别方法,包括以下步骤:
[0014]步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列(RGB帧);
[0015]步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
[0016]步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
[0017]本专利技术的系统所采用的技术方案是:一种基于深度学习的轻量化视频动作识别系统,包括以下模块:
[0018]模块1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的轻量化视频动作识别网络,其特征在于:采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM

A(t,h)和MDM

C(t,w),及一个空间卷积模块分支MDM

B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM

A维度为3
×3×
1、MDM

B维度为1
×3×
3,MDM

C维度为3
×1×
3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[W
C1
,W
C2
]、W1×3×3=[W
S1
,W
S2
]、W3×1×3=[W
C1
,W
C2
],其中C表示时空协同卷积MDM

A和MDM

C,S表示空间卷积MDM

B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;将MDM嵌入Inception

V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;所述Inception

V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception

V3网络的每个Block_module中的1
×
1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception

V3网络插入10个MDM模块。2.根据权利要求1所述的基于深度学习的轻量化视频动作识别网络,其特征在于:使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练。3.一种基于深度学习的轻量化视频动作识别方法,其特征在于,包括以下步骤:步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列;步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。4.根据权利要求3所述的基于深度学习的轻量化视频动作识别方法,其特征在于,步骤1的具体实现包括以下子步骤:步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中;步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229
×
229大小;步骤...

【专利技术属性】
技术研发人员:王中元陈建宇曾康利黄宝金
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1