基于图卷积网络的多粒度人体动作分类方法技术

技术编号:35072841 阅读:29 留言:0更新日期:2022-09-28 11:36
基于图卷积网络的多粒度人体动作分类方法,属于视频动作识别领域,为了解决生成准确和高鲁棒性的动作分类结果的问题,要点是将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,在骨架拓扑的三个通道上,将输入数据通过卷积、不同维度的均值压缩和维度扩展处理,提取空间的特征矩阵和时间特征矩阵,同时,对输入数据进行卷积等,效果是可以对粗粒度的动作数据和细粒度的动作数据都进行准确分类。的动作数据都进行准确分类。的动作数据都进行准确分类。

【技术实现步骤摘要】
基于图卷积网络的多粒度人体动作分类方法


[0001]本专利技术属于视频动作识别领域,涉及一种基于图卷积网络的多粒度动作分类方法。

技术介绍

[0002]基于图卷积网络的多粒度人体动作分类是视频动作识别领域非常具有挑战性的一个研究方向。其中,对于骨骼点数据的分类方法的研究是最为热门和核心的研究内容。图卷积网络主要基于空间卷积

时间卷积模式构建,输入的信息是二维或三维的特征序列。
[0003]目前,动作识别领域中分类问题的研究已经取得了很多进展,各种方法层出不穷。所研究的数据模态从最初RGB数据扩展到了骨骼点数据,视频帧的选择策略从整段输入进阶为随机多帧抽取,提取的判别信息也逐渐细化到人体的时空位置信息。人体动作分类面向的是人体运动的视频数据,分类性能的好坏着力于空间尺度和时间尺度上信息的提取。空间尺度信息表现为单个视频帧中人体结构的空间分布,时间尺度信息表现为人体结构在时间轴上的变化。当前的主流方法大多只关注同一帧节点的空间连接信息,时间上的信息只通过时域卷积进行传播。但是,这些方法忽略了每个节点在不同帧中的差异性,丢失了时空层面上的高等级特征。主流的公开数据集也多为粗粒度数据集,与之相比,细粒度分类问题的研究较为缓慢。细粒度分类问题具有许多的实际应用场景,比如滑冰运动中的不同级别跳跃的判别,滑冰运动中的每种跳跃只有很细微的差别且都属于一个大类别跳跃。这些细粒度分类问题更加具有挑战性,也更加具有应用价值。

技术实现思路

[0004]本专利技术目的是提供一种基于图卷积网络的多粒度人体动作分类方法,通过在每个样本中提取时间维度和空间维度的特征,捕获骨骼点和骨骼点之间,帧与骨骼点之间,帧与帧之间的关系,进而生成准确和高鲁棒性的动作分类结果。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于图卷积网络的多粒度人体动作分类方法,包括
[0007]S1.获取目标动作的骨骼点数据集;
[0008]S2.将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,使用V表示骨骼点数量,每个子集是V
×
V的矩阵;
[0009]根据所述三个子集划分形状为3
×
V
×
V的所述三个子集的邻接矩阵,根据所述邻接矩阵划分骨架拓扑的三个通道;
[0010]对所述邻接矩阵标准化得到骨架拓扑矩阵A,用Ai表示第i个通道的骨架拓扑矩阵A的子集;
[0011]S3.对骨骼点数据集进行抽帧得到形状为C
×
T
×
V的输入数据X
in
,C表示特征数量,T表示时间窗大小;
[0012]S4.在骨架拓扑的三个通道上,将输入数据X
in
通过C
r
维度的1
×
1卷积、不同维度的
均值压缩和维度扩展处理,提取空间的特征矩阵X1、X2和时间特征矩阵X3,空间的特征矩阵X1形状为C
r
×
T
×
1、空间的特征矩阵X2形状为C
r
×1×
T、时间特征矩阵X3形状为C
r
×
T
×
1,同时,对输入数据X
in
进行C
out
维度的1
×
1卷积,得到形状为C
out
×
T
×
V的时空向量X4;
[0013]S5.空间的特征矩阵X1和空间的特征矩阵X2通过减法运算进行空间关系建模,通过激活函数φ1和C
out
维度的1
×
1卷积f1,生成空间向量X5:
[0014]X5=f1(φ1(X1‑
X2))
ꢀꢀꢀ
(1)
[0015]空间的特征矩阵X2和时间特征矩阵X3通过乘法运算融合建立时空关系,通过激活函数φ2和C
out
维度的1
×
1卷积f2,生成时空权重向量X6:
[0016]X6=f2(φ2(X2·
X3))
ꢀꢀꢀ
(2)
[0017]S6.空间向量X5和每个通道的骨架拓扑子集A
i
通过融合函数构建细化的空间向量X7,空间向量X5和每个通道的骨架拓扑子集A
i
之间的数值关系是可学习的,权重系数为α;
[0018][0019]时空权重向量X6通过融合函数为时空向量X4提供权重,产生细化的时空向量X8;
[0020][0021]S7.将两个空间向量X7和X8在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑
[0022]S8.将所有通道的输出相加进行融合,通过归一化和ReLu函数激活,得到通道细化拓扑X
c

[0023]S9.将通道细化拓扑X
c
输入到时域卷积网络得到输出X
out

[0024]S10.输出X
out
作为输入数据X
in
循环若干次执行步骤S4~S9,将每一次循环执行步骤S4~S8所得输出X
out
输入全连接层,进行最大池化得到特征f
out
,特征f
out
表示从输入骨骼点数据中提取的动作特征,最后将特征f
out
输入Softmax层得到多粒度人体动作分类标签。
[0025]在一种实施例中,输出X
out
作为输入数据X
in
循环八次执行步骤S4~S9。
[0026]在一种实施例中,最大池化得到维度为256的特征f
out

[0027]在一种实施例中,每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成。
[0028]在一种实施例中,所述步骤S4~S7执行所构建的网络为时空细化图卷积网络。
[0029]在一种实施例中,所述步骤S8~S9执行所构建的网络为多维度细化图卷积网络。
[0030]在一种实施例中,所述多维度细化图卷积网络共有九层,前三层有64个输出通道,中间三层有128个输出通道,最后三层有256个输出通道,九层多维度细化图卷积网络的输出输入全连接层,进行最大池化得到特征f
out

[0031]在一种实施例中,所述的基于图卷积网络的多粒度人体动作分类方法还包括
[0032]S11.通过特征f
out
和训练集的标签y计算角弦损失函数L
AL
,并根据损失函数结果进行优化,迭代训练,直到达到预设的迭代轮次;L
AL
由常规损失函数L
s
、角度损失函数L
in
、角度补偿损失函数L
out
和弦长损失函数L
L
组成;L...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积网络的多粒度人体动作分类方法,其特征在于,包括S1.获取目标动作的骨骼点数据集;S2.将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,使用V表示骨骼点数量,每个子集是V
×
V的矩阵;根据所述三个子集划分形状为3
×
V
×
V的所述三个子集的邻接矩阵,根据所述邻接矩阵划分骨架拓扑的三个通道;对所述邻接矩阵标准化得到骨架拓扑矩阵A,用Ai表示第i个通道的骨架拓扑矩阵A的子集;S3.对骨骼点数据集进行抽帧得到形状为C
×
T
×
V的输入数据X
in
,C表示特征数量,T表示时间窗大小;S4.在骨架拓扑的三个通道上,将输入数据X
in
通过C
r
维度的1
×
1卷积、不同维度的均值压缩和维度扩展处理,提取空间的特征矩阵X1、X2和时间特征矩阵X3,空间的特征矩阵X1形状为C
r
×
T
×
1、空间的特征矩阵X2形状为C
r
×1×
T、时间特征矩阵X3形状为C
r
×
T
×
1,同时,对输入数据X
in
进行C
out
维度的1
×
1卷积,得到形状为C
out
×
T
×
V的时空向量X4;S5.空间的特征矩阵X1和空间的特征矩阵X2通过减法运算进行空间关系建模,通过激活函数φ1和C
out
维度的1
×
1卷积f1,生成空间向量X5:X5=f1(φ1(X1‑
X2))
ꢀꢀ
(1)空间的特征矩阵X2和时间特征矩阵X3通过乘法运算融合建立时空关系,通过激活函数φ2和C
out
维度的1
×
1卷积f2,生成时空权重向量X6:X6=f2(φ2(X2·
X3))
ꢀꢀ
(2)S6.空间向量X5和每个通道的骨架拓扑子集A
i
通过融合函数构建细化的空间向量X7,空间向量X5和每个通道的骨架拓扑子集A
i
之间的数值关系是可学习的,权重系数为α;时空权重向量X6通过融合函数为时空向量X4提供权重,产生细化的时空向量X8;S7.将两个空间向量X7和X8在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑S8.将所有通道的输出相加进行融合,通过归一化和ReLu函数激活,得到通道细化拓扑X
c
;S9.将通道细化拓扑X
c
输入到时域卷积网络得到输出X
out
;S10.输出X
out
作为输入数据X
in
循环若干次执行步骤S4~S9,将每一次循环执行步骤S4~S8所得输出X
out
输入全连接层,进行最大池化得到特征f
out
,特征f
out

【专利技术属性】
技术研发人员:刘胜蓝丁宇宁李光哲张津榕
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1