一种基于多重心时空注意图卷积网络的骨架动作识别方法技术

技术编号:37375833 阅读:14 留言:0更新日期:2023-04-27 07:19
本发明专利技术公开了一种基于多重心时空注意图卷积网络的骨架动作识别方法,包括:对预处理后的人体行为视频进行一阶骨骼信息提取并形成第一骨架序列;将第一骨架序列转换为第二骨架序列;获取每帧图像的二阶骨骼信息;根据四种流态数据对应建立四类训练集和标签;建立多重心时空注意图卷积网络模型并训练;将待识别的人体行为视频输入训练好的模型,获取对应的初始预测结果和softmax分数;根据初始预测结果利用多重心特征融合单元计算对应权重系数;采用特征融合模块将各softmax分数进行加权融合获得骨架动作识别结果。该方法可结合数量更多、特征更明显的关节数据以实现人体行为预测,提高预测精确度。提高预测精确度。提高预测精确度。

【技术实现步骤摘要】
一种基于多重心时空注意图卷积网络的骨架动作识别方法


[0001]本专利技术属于计算机视觉和深度学习领域,具体涉及一种基于多重心时空注意图卷积网络的骨架动作识别方法。

技术介绍

[0002]行为识别技术广泛应用在智能监控、虚拟现实、人机交互、公共安全、医疗健康等众多领域,具有十分广阔的应用前景,为计算机视觉等领域的重要研究课题。人体行为识别的目的简单来说就是根据输入视频或数据来自动判断有什么人在什么样的场景中做了怎样的动作。识别系统的一般处理流程是:通过分析处理输入数据,提取数据特征,将聚合的特征作为一种特定模式,根据这种模式来对应某类人体行为活动。对人体行为的识别不同于姿态估计,单纯一张图片并不能判断出人体活动的类型,因为行为是个持续性的动作。例如,一张“抬着手”的图片,并不知道图片中的人下一步是要将手放下还是继续抬起,必须通过追踪数据中长期的动态信息才能感知到不同行为的运动特征。
[0003]骨架数据是包含多个人体骨骼关节的二维或三维坐标位置的时间序列,可以使用姿态估计方法从视频图像中提取或者利用传感器设备直接采集。相比于传统的RGB视频识别方法,基于骨架数据的动作识别能有效地减少识别过程中由于光照变化、环境背景、遮挡等干扰因素的影响,对动态环境和复杂背景具有较强的适应性。
[0004]目前,将人体骨架数据拓扑为时空图,并利用图卷积网络(GCNs)进行处理被证实有着良好的识别效果。然而,目前基于GCN的主流模型还存在如下不足:(1)特征提取能力有限。一般来说,特征明显或者结合数量越多的关节点数据,行为特征信息也就更加复杂,越利于行为预测,通常采用更大的卷积核或加大网络深度的方法,但这些都会带来更大的计算量;(2)多流融合特定行为模式的方法简单。目前,经典的多流框架模型通常直接将各流的softmax分数相加获得最终的预测结果,但实际上各个流的预测效果是有明显差异的,单纯的分数相加难以获得精确的预测结果,并且参数计算量较大。(3)生成具有语义意义的边的邻接矩阵在此任务中尤为重要,传统的空间拓扑图受物理连接性影响,边的提取仍是一个具有挑战性的问题。

技术实现思路

[0005]本专利技术的目的在于针对上述问题,提出一种基于多重心时空注意图卷积网络的骨架动作识别方法,可更充分地提取不同重心下的拓扑图信息,并在不增加计算量的情况下,结合数量更多、特征更明显的关节数据以实现人体行为预测,有助于提高人体行为的预测精确度。
[0006]为实现上述目的,本专利技术所采取的技术方案为:
[0007]本专利技术提出的一种基于多重心时空注意图卷积网络的骨架动作识别方法,包括如下步骤:
[0008]S1、对预处理后的人体行为视频进行一阶骨骼信息提取,一阶骨骼信息包括对应
关节的位置和置信度;
[0009]S2、将每批预处理后的人体行为视频表示为五维矩阵(N,C,T,K,M),并将全部图像帧中的一阶骨骼信息按照时间排序形成第一骨架序列其中,N代表每批人体行为视频的数量,C代表关节的特征维度,T代表每个人体行为视频中图像帧的数量,K代表人体关节数量,M代表每帧图像中的人数,v为关节向量;
[0010]S3、将第一骨架序列V从相机坐标转换为身体坐标形成第二骨架序列V


[0011]S4、基于第二骨架序列V

获取每帧图像的二阶骨骼信息,二阶骨骼信息包括e
ti
、m
joint,tj
和m
bone,ti
,公式如下:
[0012]e
ti
=v
ti
′‑
v
ti
[0013]m
joint,tj
=v
(t+1)j

v
tj
[0014]m
bone,ti
=e
(t+1)i

e
ti
[0015]其中,e
ti
为第t帧第i个骨骼的骨骼向量,v
ti
为第t帧第i个骨骼上靠近骨架重心的源关节坐标,v
ti

为第t帧第i个骨骼上远离骨架重心的目标关节坐标,m
joint,tj
为第j个关节在第t+1帧和第t帧的向量差,m
bone,ti
为第i个骨骼在第t+1帧和第t帧的向量差,v
tj
为第t帧第j个关节的坐标,v
(t+1)j
为第t+1帧第j个关节的坐标,e
(t+1)i
为第t+1帧第i个骨骼的骨骼向量;
[0016]S5、根据四种流态数据对应建立四类训练集和标签,四种流态数据包括关节流V

、骨骼流关节运动流和骨骼运动流其中,e为每个骨骼的骨骼向量,m
joint
为每个关节在相邻帧图像的向量差,m
bone
为每个骨骼在相邻帧图像的向量差;
[0017]S6、建立多重心时空注意图卷积网络模型,多重心时空注意图卷积网络模型包括并行的十二个时空图卷积网络模型,且每四个时空图卷积网络模型处于同一重心下,重心包括腹部重心b、臀部重心h和胸部重心c;
[0018]S7、分别将四类训练集和标签一一对应输入对应重心下的时空图卷积网络模型进行训练,获取训练好的时空图卷积网络模型;
[0019]S8、将待识别的人体行为视频形成四种流态数据,并输入训练好的时空图卷积网络模型,获取对应的初始预测结果和softmax分数;
[0020]S9、根据各时空图卷积网络模型的初始预测结果利用多重心特征融合单元计算对应的权重系数α
ns
,公式如下:
[0021][0022][0023]其中,表示每流初始预测结果组成的数组,每流初始预测结果的取值范围为0~1,Acu[ns]表示第n个重心第s流识别准确度,Acu[nm]表示第n个重心第m流识别准确度,γ为非零常数;
[0024]S10、根据计算出的权重系数α
ns
采用特征融合模块将各时空图卷积网络模型的softmax分数进行加权融合,获得的融合结果Result即为骨架动作识别结果,公式如下:
[0025][0026]其中,r
ns
为第n个重心第s流的softmax分数。
[0027]优选地,时空图卷积网络模型包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、128、128、128、256、256、256的九层特征提取模块。
[0028]优选地,各层特征提取模块包括第二残差模块、以及依次连接的自适应空间域图卷积单元、第一激活函数、注意力模块、时间域图卷积单元、第二BN层、第二激活函数和第一特征提取单元,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第一特征提取单元连接,第一特征提取单元用于执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述基于多重心时空注意图卷积网络的骨架动作识别方法包括如下步骤:S1、对预处理后的人体行为视频进行一阶骨骼信息提取,所述一阶骨骼信息包括对应关节的位置和置信度;S2、将每批预处理后的人体行为视频表示为五维矩阵(N,C,T,K,M),并将全部图像帧中的一阶骨骼信息按照时间排序形成第一骨架序列其中,N代表每批人体行为视频的数量,C代表关节的特征维度,T代表每个人体行为视频中图像帧的数量,K代表人体关节数量,M代表每帧图像中的人数,v为关节向量;S3、将第一骨架序列V从相机坐标转换为身体坐标形成第二骨架序列V

;S4、基于第二骨架序列V

获取每帧图像的二阶骨骼信息,所述二阶骨骼信息包括e
ti
、m
joint,tj
和m
bone,ti
,公式如下:e
ti
=v
ti
′‑
v
ti
m
joint,tj
=v
(t+1)j

v
tj
m
bone,ti
=e
(t+1)i

e
ti
其中,e
ti
为第t帧第i个骨骼的骨骼向量,v
ti
为第t帧第i个骨骼上靠近骨架重心的源关节坐标,v
ti

为第t帧第i个骨骼上远离骨架重心的目标关节坐标,m
joint,tj
为第j个关节在第t+1帧和第t帧的向量差,m
bone,ti
为第i个骨骼在第t+1帧和第t帧的向量差,v
tj
为第t帧第j个关节的坐标,v
(t+1)j
为第t+1帧第j个关节的坐标,e
(t+1)i
为第t+1帧第i个骨骼的骨骼向量;S5、根据四种流态数据对应建立四类训练集和标签,所述四种流态数据包括关节流V

、骨骼流关节运动流和骨骼运动流其中,e为每个骨骼的骨骼向量,m
joint
为每个关节在相邻帧图像的向量差,m
bone
为每个骨骼在相邻帧图像的向量差;S6、建立多重心时空注意图卷积网络模型,所述多重心时空注意图卷积网络模型包括并行的十二个时空图卷积网络模型,且每四个时空图卷积网络模型处于同一重心下,所述重心包括腹部重心b、臀部重心h和胸部重心c;S7、分别将四类训练集和标签一一对应输入对应重心下的时空图卷积网络模型进行训练,获取训练好的时空图卷积网络模型;S8、将待识别的人体行为视频形成四种流态数据,并输入训练好的时空图卷积网络模型,获取对应的初始预测结果和softmax分数;S9、根据各时空图卷积网络模型的初始预测结果利用多重心特征融合单元计算对应的权重系数α
ns
,公式如下:,公式如下:其中,表示每流初始预测结果组成的数组,每流初始预测结果的取值范围为0~1,Acu[ns]表示第n个重心第s流识别准确度,Acu[nm]表示第n个重
心第m流识别准确度,γ为非零常数;S10、根据计算出的权重系数α
ns
采用特征融合模块将各时空图卷积网络模型的softmax分数进行加权融合,获得的融合结果Result即为骨架动作识别结果,公式如下:其中,r
ns
为第n个重心第s流的softmax分数。2.如权利要求1所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述时空图卷积网络模型包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层和softmax分类器,所述多尺度图卷积模块包括输出通道依次为64、64、64、128、128、128、256、256、256的九层特征提取模块。3.如权利要求2所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:各层所述特征提取模块包括第二残差模块、以及依次连接的自适应空间域图卷...

【专利技术属性】
技术研发人员:张海平张昕昊刘旭马琮皓胡泽鹏杨景皓朱崇磊管力明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1