【技术实现步骤摘要】
基于深度学习的轻量化视频动作识别网络、方法及系统
[0001]本专利技术属于视频识别
,涉及一种针对视频的人体动作识别网络、方法及系统,具体涉及一种基于深度学习的轻量化视频动作识别网络、方法及系统。
技术背景
[0002]深度学习推动了视频动作识别的进展。深度学习通过在大量视频数据集上进行训练获得了远超传统识别方法的效果。然而,考虑到设备的功耗、存储成本等因素,基于视频的人体动作分析与识别应用又对实时性、速度有着很高的要求。因此,对人体行为分析识别模型进行轻量化设计具有重要意义。
[0003]目前视频动作识别的主流方法大致分为三类:
[0004](1)双流方法:扩展2D CNN来处理视频识别任务是最直接的方法。Simonyan等人提出了一种two
‑
stream模型来识别视频中的人体动作,该模型由空间流和光流组成,这二者在动作识别上是信息互补的。空间流用于提取视频的RGB特征,光流旨在捕捉视频堆叠帧之间的光流特征。最后采用后期融合模式对双流结果进行融合。然而一些研究指出了双流网络中后期融合的缺点,并探索了不同的融合策略。Feichtenhofer等人指出,时空特征仅通过后期融合进行整合,并不能真正学习到视频内部的时空交互信息。为了减轻这种限制,他们提出了具有跨流残差连接的时空乘数网络,以确保更有效地学习到视频中的时空交互信息。特别是,在残差网络中实现了乘法运动门控函数,重构了双流结构从而保证模型在整个学习过程中能够实现时空特征的有效交互。
[0005](2)3D CNN ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的轻量化视频动作识别网络,其特征在于:采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM
‑
A(t,h)和MDM
‑
C(t,w),及一个空间卷积模块分支MDM
‑
B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM
‑
A维度为3
×3×
1、MDM
‑
B维度为1
×3×
3,MDM
‑
C维度为3
×1×
3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[W
C1
,W
C2
]、W1×3×3=[W
S1
,W
S2
]、W3×1×3=[W
C1
,W
C2
],其中C表示时空协同卷积MDM
‑
A和MDM
‑
C,S表示空间卷积MDM
‑
B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;将MDM嵌入Inception
‑
V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;所述Inception
‑
V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception
‑
V3网络的每个Block_module中的1
×
1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception
‑
V3网络插入10个MDM模块。2.根据权利要求1所述的基于深度学习的轻量化视频动作识别网络,其特征在于:使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练。3.一种基于深度学习的轻量化视频动作识别方法,其特征在于,包括以下步骤:步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列;步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。4.根据权利要求3所述的基于深度学习的轻量化视频动作识别方法,其特征在于,步骤1的具体实现包括以下子步骤:步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中;步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229
×
229大小;步骤...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。