一种基于分段图卷积网络的视频动作识别方法技术

技术编号:35264680 阅读:21 留言:0更新日期:2022-10-19 10:26
本发明专利技术公开了一种基于分段图卷积网络的视频动作识别方法,包括以下步骤:A:获取每个视频段中的帧样本图像并进行图像增强;B:提取图像增强后的每个帧样本图像的外观特征和运动特征;C:构建基于每个视频段的特征关联图与时序一致性图及对应的关系连接矩阵;D:通过图卷积神经网络对输出特征进行增强得到输出特征;E:将输出特征与池化后的原始特征进行融合得到最终的时空特征;F:利用中期融合模型和后期融合模型进行动作,对分段识别的结果取平均值,得到待识别视频的动作识别结果。本发明专利技术能够提高视频动作的识别准确性。够提高视频动作的识别准确性。够提高视频动作的识别准确性。

【技术实现步骤摘要】
一种基于分段图卷积网络的视频动作识别方法


[0001]本专利技术涉及视频动作识别领域,尤其涉及一种基于分段图卷积网络的视频动作识别方法。

技术介绍

[0002]目前,为了解决基于视频的动作识别,当前研究主要通过图神经网络显式建模,处理视频帧内和不同视频帧的目标之间的相互交互。然而,视频帧的目标变化很大,但图节点是固定的,因此目标可能过于冗余或不够构成图,导致信息超载或丢失,从而造成视频动作识别效果不佳。

技术实现思路

[0003]本专利技术的目的是提供一种基于分段图卷积网络的视频动作识别方法,能够提高视频动作的识别准确性。
[0004]本专利技术采用下述技术方案:
[0005]一种基于分段图卷积网络的视频动作识别方法,包括以下步骤:
[0006]A:对待识别视频进行分段得到若干个视频段,然后获取每个视频段中的帧样本图像并进行图像增强;
[0007]B:使用二维卷积神经网络和三维卷积神经网络分别提取图像增强后的每个帧样本图像的外观特征和运动特征;
[0008]C:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征,分别构建基于每个视频段的特征关联图G
F
与时序一致性图G
T
,以及特征关联图G
F
对应的关系连接矩阵A
F
与时序一致性图G
T
对应的关系连接矩阵A
T

[0009]D:根据步骤C中得到的基于每个视频段的特征关联图G
F
与时序一致性图G
T
,以及对应的关系连接矩阵A
F
与A
T
,通过图卷积神经网络分别对特征关联图G
F
与时序一致性图G
T
中的输出特征进行增强,得到图卷积神经网络的输出特征Z;
[0010]E:利用步骤D中得到的图卷积神经网络的输出特征Z,与池化后的原始特征F进行融合,得到最终的时空特征;
[0011]F:将待识别视频进行分段得到多个视频段,然后根据步骤E中得到的最终的时空特征,利用中期融合模型和后期融合模型分别对每一个视频段进行动作识别并得到识别结果,最后对分段识别的结果取平均值,最终得到待识别视频的动作识别结果。
[0012]所述的步骤A中,首先设待识别视频S
k
表示第k个视频段,待识别视频V共有N个视频段,k∈(1,2,...,N),频V共有N个视频段,k∈(1,2,...,N),表示第k个视频段的t时刻的帧样本图像,表示视频V的视频帧集合,H,W和C分别表示每个帧样本图像的高度、宽度和通道,T为帧样本图像的总个数,t∈(1,2,...,T);然后,利用随机水平翻转和随机裁剪对帧样本图像进行图像增强。
[0013]所述的步骤B中,在使用二维卷积神经网络进行外观特征提取时:
[0014]设第k个视频段中的帧样本图像T为第k个视频段中帧样本图像的总个数;将每一个帧样本图像均通过外观特征提取函数φ
a
获取对应的外观特征
[0015][0016]其中,表示第k个视频段中第t个帧样本图像的外观特征,下角标a表示外观特征;
[0017]在使用三维卷积神经网络进行运动特征提取时:
[0018]将每一个帧样本图像均通过运动特征提取函数φ
m
获取对应的运动特征
[0019][0020]其中,下角标m表示运动特征。
[0021]所述的步骤C包括以下具体步骤:
[0022]C1:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征,构建基于每个视频段的特征关联图G
F
及对应的关系连接矩阵A
F

[0023]构建过程中,首先,将语义相关的特征进行连接,构建得到基于每个视频段的特征关联图G
F

[0024]然后,根据从视频段中提取池化后的原始特征F={f
a1
,f
a2
,...,f
aT
,f
m
},通过下述公式分别计算由任意两个特征所形成的每个特征对的关联性;
[0025]F(f
ai
,f
aj
)=φ(f
ai
)
T
φ(f
aj
);
ꢀꢀꢀ
(3)
[0026]F(f
ai
,f
m
)=φ(f
ai
)
T
φ'(f
m
);
ꢀꢀꢀ
(4)
[0027]其中,f
a1
,f
a2
,...,f
aT
表示该视频段中提取到的T个外观特征,f
m
表示该视频段中提取到的1个运动特征;f
ai
,f
aj
分别表示该视频段中不同时间戳提取到的T个外观特征中的第i个和第j个外观特征;φ(x)=Wx与φ'(x)=W'x分别表示外观特征变换函数和运动特征变换函数,其中W与W'分别为外观特征变换函数和运动特征变换函数中通过训练获得的权重矩阵。
[0028]最后,通过公式(3)和(4)计算得到关联矩阵,然后对关联矩阵的每一行采用softmax函数做归一化处理,获得表示特征关联图的关系连接矩阵A
F

[0029]归一化处理的公式为:
[0030][0031]其中,表示两个特征(x
i
,x
j
)经过归一化处理后的关联值,F(x
i
,x
j
)表示F(f
ai
,
f
aj
)或F(f
ai
,f
m
);即计算外观特征关联性时F(x
i
,x
j
)代入值为F(f
ai
,f
aj
),计算外观特征与运动特征关联性时F(x
i
,x
j
)代入值为F(f
ai
,f
m
);
[0032]C2:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征,构建基于每个视频段的时序一致性图G
T
及对应的关系连接矩阵A
T

[0033]构建过程中,首先,将运动特征放在T个外观特征的中心,将与动作相关的运动特征与不同时序上的外观特征进行连接,构建基于每个视频段的时序一致性图G
T

[0034]然后,将时序一致性图G
T
直接建立在时序结构上,表示时序一致性的关系连接矩阵A
T

[0035]第i个和第j个特征的时序一致性关系具体如下所示:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分段图卷积网络的视频动作识别方法,其特征在于:包括以下步骤:A:对待识别视频进行分段得到若干个视频段,然后获取每个视频段中的帧样本图像并进行图像增强;B:使用二维卷积神经网络和三维卷积神经网络分别提取图像增强后的每个帧样本图像的外观特征和运动特征;C:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征,分别构建基于每个视频段的特征关联图G
F
与时序一致性图G
T
,以及特征关联图G
F
对应的关系连接矩阵A
F
与时序一致性图G
T
对应的关系连接矩阵A
T
;D:根据步骤C中得到的基于每个视频段的特征关联图G
F
与时序一致性图G
T
,以及对应的关系连接矩阵A
F
与A
T
,通过图卷积神经网络分别对特征关联图G
F
与时序一致性图G
T
中的输出特征进行增强,得到图卷积神经网络的输出特征Z;E:利用步骤D中得到的图卷积神经网络的输出特征Z,与池化后的原始特征F进行融合,得到最终的时空特征;F:将待识别视频进行分段得到多个视频段,然后根据步骤E中得到的最终的时空特征,利用中期融合模型和后期融合模型分别对每一个视频段进行动作识别并得到识别结果,最后对分段识别的结果取平均值,最终得到待识别视频的动作识别结果。2.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法,其特征在于:所述的步骤A中,首先设待识别视频S
k
表示第k个视频段,待识别视频V共有N个视频段,k∈(1,2,...,N),频段,k∈(1,2,...,N),表示第k个视频段的t时刻的帧样本图像,表示视频V的视频帧集合,H,W和C分别表示每个帧样本图像的高度、宽度和通道,T为帧样本图像的总个数,t∈(1,2,...,T);然后,利用随机水平翻转和随机裁剪对帧样本图像进行图像增强。3.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法,其特征在于,所述的步骤B中,在使用二维卷积神经网络进行外观特征提取时:设第k个视频段中的帧样本图像T为第k个视频段中帧样本图像的总个数;将每一个帧样本图像均通过外观特征提取函数φ
a
获取对应的外观特征应的外观特征其中,表示第k个视频段中第t个帧样本图像的外观特征,下角标a表示外观特征;在使用三维卷积神经网络进行运动特征提取时:将每一个帧样本图像均通过运动特征提取函数φ
m
获取对应的运动特征
其中,下角标m表示运动特征。4.根据权利要求1所述的基于分段图卷积网络的视频动作识别方法,其特征在于,所述的步骤C包括以下具体步骤:C1:利用步骤B中得到的图像增强后的每个帧样本图像的外观特征和运动特征,构建基于每个视频段的特征关联图G
F
及对应的关系连接矩阵A
F
;构建过程中,首先,将语义相关的特征进行连接,构建得到基于每个视频段的特征关联图G
F
;然后,根据从视频段中提取池化后的原始特征F={f
a1
,f
a2
,...,f
aT
,f
m
},通过下述公式分别计算由任意两个特征所形成的每个特征对的关联性;F(f
ai
,f
aj
)=φ(f
ai
)
T
φ(f
aj
);
ꢀꢀꢀ
(3)F(f
ai
,f
m
)=φ(f
ai
)
T
φ'(f
m
);
ꢀꢀꢀ
(4)其中,f
a1
,f
a2
,...,f
aT
表示该视频段中提取到的T个外观特征,f
m
表示该视频段中提取到的1个运动特征;f
ai
,f
aj
分别表示该视频段中不同时间戳提取到的T个外观特征中的第i个和第j个外观特征;φ(x)=Wx与φ'(x)=W'x分别表示外观特征变换函数和运动特征变换函数,其中W与W'分别为外观特征变换函数和运动特征变换函数中通过训练获得的权重矩阵。最后,通过公式(3)和(4)计算得到关联矩阵,然后对关联矩阵的每一行采用softmax函数做归一化处理,获得表示特征关联图的关系连接矩阵A
F
;归一化处理的公式为:其中,表示两个特征(x
i
,x
j
)经过归一化处理...

【专利技术属性】
技术研发人员:张争王珏赵辉王宇丁肖摇刘梦李涛
申请(专利权)人:郑州信息科技职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1