一种基于时空图卷积网络的人体行为识别方法技术

技术编号:39241827 阅读:19 留言:0更新日期:2023-10-30 11:54
本发明专利技术公开一种基于时空图卷积网络的人体行为识别方法,该方法基于部位级时空图卷积网络模型,对人体行为进行了识别,其包括如下步骤:构建原始骨骼序列数据集并对原始骨骼序列数据集进行预处理;构建部位级时空图卷积网络模型,包括空间建模网络、时间建模网络和分类器;将预处理后的原始骨骼序列数据集划分为训练集和测试集,输入部位级时空图卷积网络模型中进行训练;将待识别的数据输入训练后的部位级时空图卷积网络模型中,得到识别结果。本发明专利技术能够推动建立更精确的关节拓扑,能够更充分学习人体各部分的动作频率和趋势,实现了一种高效的,准确率更高的人体行为识别方法。准确率更高的人体行为识别方法。准确率更高的人体行为识别方法。

【技术实现步骤摘要】
一种基于时空图卷积网络的人体行为识别方法


[0001]本专利技术属于行为识别领域,特别涉及一种基于时空图卷积网络的人体行为识别方法。

技术介绍

[0002]随着互联网技术的快速发展,人工智能理论被不断深入研究,计算机视觉技术也随之迅速发展,在图像分类、目标检测和行为识别等领域起着至关重要的作用。伴随着人工智能和行为识别技术的不断进步,行为识别在运动健身、智慧医疗、智能家居等领域有着广泛的应用,因此对行为识别技术的研究有着重要的学术价值和社会意义。目前主流的提取人体行为动作的方式包括传感器监测、视频监测等,对于传感器监测,需要被监测人员佩戴配套的传感器,因此实用性受到一定局限。
[0003]在视频监测获取人体行为特征的方法中,目前主流的行为识别数据的模态特征包括RGB视频、深度视频和骨骼序列。基于RGB视频数据的识别方法的缺点是易受光照、复杂背景的影响,准确率会大大降低;虽然深度学习的方法一定程度上提高了识别准确率,但是受限于机器性能和训练时间长的问题,很难实际应用于实时交互的场景。基于深度视频数据的识别方法较RGB图像不易受光照、复杂背景等外界因素的影响。近年来基于深度信息的动作识别模型取得了较好的性能。但深度信息也有明显的缺点,过于依赖于深度传感器,价格昂贵;数据量相对较大,训练成本高,实时性一般。
[0004]基于骨架的动作识别的传统方法通常采用手工制作的特征来建模人体,它们主要依赖于利用关节之间的相对3D旋转和平移,因此存在复杂的特征设计和次优性能。随着深度学习技术的发展,深度学习方法逐渐代替了传统手工特征方法,其主流方法根据网络架构可分为三类:卷积神经网络(CNNs)、循环神经网络(RNNs)和图卷积网络(GCN)。
[0005]基于CNN的方法通常根据手工设计的转换规则将骨架数据转换成伪图像,然后使用各种CNN网络对图像进行预测,得到动作类别。基于RNN的方法通常先提取帧级骨架特征,将骨架数据表示为具有预定义遍历规则的序列数据,然后使用RNN模型对顺序依赖关系进行建模。然而,骨架自然是一种图结构,而不是2D网格或向量序列的形式,RNN和CNN都难以捕捉骨架拓扑,由于忽略了这个空间配置,导致了在骨架行为识别中的缺陷。为了捕捉人体骨架拓扑,人们开始用图的方式对骨骼之间的相关性进行建模,现有众多基于GCN的方法也都取得了优秀的性能。然而,现有的基于GCN的模型方法大多通过手动改变人体关节连接关系或通过自注意力机制学习人体关节连接关系,并且没有对不同类别的动作做出清晰的区分,导致对骨骼数据的学习不充分,没有达到预期的训练效果。

技术实现思路

[0006]本专利技术的目的,在于提供一种基于时空图卷积网络的人体行为识别方法,通过构建空间建模网络和时间建模网络,在关节拓扑图的学习中加入人体部位信息,实现一种高效的,准确率更高的人体行为识别方法,只需输入人体动作视频,就可得到动作预测结果。
[0007]为了达成上述目的,本专利技术的解决方案是:
[0008]一种基于时空图卷积网络的人体行为识别方法,包括如下步骤:
[0009]步骤1,构建原始骨骼序列数据集并对原始骨骼序列数据集进行预处理;
[0010]步骤2,构建部位级时空图卷积网络模型,包括空间建模网络、时间建模网络和分类器;
[0011]步骤3,将步骤1预处理后的原始骨骼序列数据集划分为训练集和测试集,输入步骤2部位级时空图卷积网络模型中进行训练;
[0012]步骤4,将待识别的数据输入步骤3训练后的部位级时空图卷积网络模型中,得到识别结果。
[0013]上述步骤1的具体内容是:通过摄像头采集不同环境中不同个体的动作视频,然后将采集的视频通过局域网传输至上位机中,获取人体骨骼动作序列,并结合与之对应的动作标签,得到原始骨骼序列数据集;对原始骨骼序列数据集进行数据填充操作,将缺失的骨骼点填充为0,再对填充后的原始骨骼序列数据集进行帧下采样至64帧。
[0014]上述动作视频包括但不限于跑步、跳跃、站立、坐下、鼓掌的动作;所述动作标签通过上位机进行标记;所述人体骨骼动作序列是通过上位机将采集的动作视频输入到人体姿态估计模型中进行处理,由人体姿态估计模型输出得到,其中,人体姿态估计模型包括但不限于Alphapose模型和Openpose模型。
[0015]上述步骤2中,空间建模网络由全局关节拓扑图和局部关节拓扑图构成,其中全局关节拓扑图以人体骨骼自然连接为初始化,依靠网络自适应学习得到,设定全局关节相关性为模型可学习参数;其中局部关节拓扑图由1个全局平均池化层和4个卷积层组成,将人体分为6个部位,包括头颈、身体、左臂、右臂、左腿和右腿。
[0016]上述空间建模网络还加入可学习的门控机制α来控制不同采样区域中部位内部关节的差异。
[0017]上述步骤2中,时间建模网络将短期运动细节的动作定义为快动作,将长期运动趋势的动作定义为慢动作,设置不同卷积核大小的二维时间卷积;将完整的人体骨骼动作序列划分成整个身体、手部和腿部三部分作为该网络的输入,在对时间建模网络进行输入前,对输入特征用卷积核大小为1的卷积层进行降维处理,对快动作和慢动作流的输出部分进行通道维度的级联,作为整个时间建模网络的输出特征。
[0018]上述时间建模网络还设置可学习的门控机制β,在捕捉长期运动趋势和短期运动细节之后,进行通道维度的级联的同时,通过加入人体手臂和腿部的自适应相关权重系数,来加强对人体手臂和腿部的模型训练。
[0019]上述部位级时空图卷积网络模型包括十层空间建模网络、十层时间建模网络和一个激活函数分类器;将最后一层时间建模网络的输出特征输入全局平均池化层以降低维度至1,最后连接激活函数分类器。
[0020]上述步骤3中按各个动作4:1的比例划分为训练集和测试集,将人体骨骼动作序列输入部位级时空图卷积网络模型前,对其张量进行转置、重塑操作,至张量维度与模型输入对应,以交叉熵损失函数作为模型的损失函数,用SGD优化器进行随机梯度下降和训练参数更新,将人体骨骼动作序列传入输入端,由输出端得到预测结果,根据损失函数将误差反向传播到网络的各个层之中,自动调整网络的权重和参数,每次训练迭代损失逐渐减小,至训
练集损失和测试集损失均趋于稳定,当两次迭代之间损失变化小于所设定损失变化阈值时,模型收敛,完成模型的训练,得到模型的权重。
[0021]上述交叉熵损失函数的公式如下所示:
[0022][0023]其中x是真实标签,是预测的类的分布;
[0024]训练参数的梯度下降过程的公式如下所示:
[0025]θ
t
=θ
t
‑1‑
ηm
t
[0026]m
t
=β1m
t
‑1+(1

β1)g
t
‑1[0027]其中,θ
t
表示第t次迭代时的训练参数,η表示学习率,m
t
表示第t次迭代时的动量参数,g<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空图卷积网络的人体行为识别方法,其特征在于,包括如下步骤:步骤1,构建原始骨骼序列数据集并对原始骨骼序列数据集进行预处理;步骤2,构建部位级时空图卷积网络模型,包括空间建模网络、时间建模网络和分类器;步骤3,将步骤1预处理后的原始骨骼序列数据集划分为训练集和测试集,输入步骤2部位级时空图卷积网络模型中进行训练;步骤4,将待识别的数据输入步骤3训练后的部位级时空图卷积网络模型中,得到识别结果。2.如权利要求1所述的人体行为识别方法,其特征在于,所述步骤1的具体内容是:通过摄像头采集不同环境中不同个体的动作视频,然后将采集的视频通过局域网传输至上位机中,获取人体骨骼动作序列,并结合与之对应的动作标签,得到原始骨骼序列数据集;对原始骨骼序列数据集进行数据填充操作,将缺失的骨骼点填充为0,再对填充后的原始骨骼序列数据集进行帧下采样至64帧。3.如权利要求2所述的人体行为识别方法,其特征在于:所述动作视频包括但不限于跑步、跳跃、站立、坐下、鼓掌的动作;所述动作标签通过上位机进行标记;所述人体骨骼动作序列是通过上位机将采集的动作视频输入到人体姿态估计模型中进行处理,由人体姿态估计模型输出得到,其中,人体姿态估计模型包括但不限于Alphapose模型和Openpose模型。4.如权利要求1所述的人体行为识别方法,其特征在于,所述步骤2中,空间建模网络由全局关节拓扑图和局部关节拓扑图构成,其中全局关节拓扑图以人体骨骼自然连接为初始化,依靠网络自适应学习得到,设定全局关节相关性为模型可学习参数;其中局部关节拓扑图由1个全局平均池化层和4个卷积层组成,将人体分为6个部位,包括头颈、身体、左臂、右臂、左腿和右腿。5.如权利要求4所述的人体行为识别方法,其特征在于,所述空间建模网络还加入可学习的门控机制α来控制不同采样区域中部位内部关节的差异。6.如权利要求1所述的人体行为识别方法,其特征在于,所述步骤2中,时间建模网络将短期运动细节的动作定义为快动作,将长期运动趋势的动作定义为慢动作,设置不同卷积核大小的二维时间卷积;将完整的人体骨骼动作序列划分成整个身体、手部和腿部三部分作为该网络的输入,在对时间建模网络进行输入前,对输入特征...

【专利技术属性】
技术研发人员:黄倩朱萧伟胡鹤轩李畅巫义锐袁驰
申请(专利权)人:南京荟英电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1