【技术实现步骤摘要】
基于时空增强网络的视频动作识别方法
[0001]本专利技术涉及涉及深度学习和图像处理领域,具体涉及一种基于时空增强网络的视频动作识别方法。
技术介绍
[0002]随着互联网技术和大数据科学的快速发展,人们通过网络可获取的视频数量呈爆发式增长。如何从视频图像中提取有效信息已成为备受关注的问题。从视频中提取信息需要能够快速理解视频的内容,并根据一定规则对这些内容进行解释。显然,随着视频数量的急速增长,通过人工方式对视频进行理解和分析已经难以适应当前的需求。从而,需要采用智能自动化的方式完成相应的任务。作为视频理解的一个基本问题,视频图像中行为的识别在实际工程领域有着非常广泛的应用,如视频审核、手势识别和安防监控等。近年来,深度学习理论的研究取得了很大的进展,被成功用于图像处理等问题。因此,研究基于深度学习的视频动作识别具有非常重要的理论价值和应用前景。
[0003]在已有的研究中,人们通常采用3D卷积神经网络或者2D卷积神经网络处理视频图像中的动作识别问题。其中,基于2D卷积神经网络的动作识别方法一般采用双流架构,基本思 ...
【技术保护点】
【技术特征摘要】
1.一种基于时空增强网络的视频动作识别方法,其特征在于,包括:S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;S2.将S1获取到的视频帧图像序列进行预处理;S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。2.如权利要求1所述的基于时空增强网络的视频动作识别方法,其特征在于,步骤S3的具体流程为:S3
‑
1.采用的基础网络为MobileNet V2,它包含17个Bottleneck,将设计的时空增强模块嵌入在其第3,5,6,8,9,10,12,13,15,16个Bottleneck中得到时空增强网络模型;S3
‑
2.为了保证时空增强网络模型长期时间建模的能力,在时空增强模块之前级联了一个核大小为3的1D卷积;S3
‑
3.时空增强模块是通过残差块的形式实现的,其残差函数为x
n+1
=x
n
+A(x
n
,W
n
),其中A(x
n
,W
n
)是时空增强部分,其大致步骤为:将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分。3.如权利要求2所述的基于时空增强网络的视频动作识别方法,其特征在于,在步骤S3
‑
1中使用的MobileNet V2结构为:首先使用一个3
×
3的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图;然后将得到的特征图依次通过17个Bottleneck和一个1
×
1的卷积得到大小为[NT,1280,7,7]的特征图;最后将得到的特征图经过平均池化再馈送到全连接层得到NT
×
CLS的特征,其中,CLS代表视频行为的分类数。4.如权利要求2所述的基于时空增强网络的视频动作识别方法,其特征在于,步骤S3
‑
2的具体流程为:将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N
×
H
×
W,C,T];用核大小为3的1D卷...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。