基于GCN和Transformer的人体行为识别方法技术

技术编号：41337566 阅读：4 留言：0更新日期：2024-05-20 09:56

本发明专利技术公开了基于GCN和Transformer的人体行为识别方法，具体为：获取含有人体运动的RGB视频，提取关键帧并进行预处理，裁剪人类活动的区域，对视频进行标注，使其有对应的种类标签；对每一帧图像进行处理，识别出人体的关键点形成骨架序列，并对序列进行补齐，划分训练集和测试集；将训练集输入GCN和Transformer网络中进行训练；将测试集输入GCN和Transformer网络中进行测试，即可实现人体行为识别。本发明专利技术利用Transformer的全局建模能力，不仅在空间维度和时间维度对特征进行提取，更是在全局维度对提取的特征进行时空融合，使得模型更好地理解特征信息，达到提升识别率的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人体行为识别，具体涉及基于gcn和transformer的人体行为识别方法。

技术介绍

1、作为计算机视觉研究的热点，人体行为识别研究已经被人类深入研究了数十年，得到了长足的发展。这一技术不仅具有重要的学术意义，同时也具有广阔的应用前景，在安防监控系统、医疗诊断监护、智能人机交互等领域均具有应用价值。

2、基于骨架数据的算法是人体行为识别的主流算法，通过分析人体骨架的动态变化来识别个体的行为模式，具有数据量较小、表达信息充分、鲁棒性强且不容易受到干扰的特点。尤其是近些年姿态估计算法(如openpose)和人体骨架捕获系统传感器(如kinect)的发展，极大地促进了基于骨架的行为识别算法的发展。人体骨架数据是一张自然结构的图拓扑，这一结构特性使得图卷积算法(gcn)能够良好地处理数据，提取人体在做出行为动作时各个骨骼关节点之间的潜在关系，并对骨架节点之间的关系进行建模和学习，从而表示出人体骨架的结构信息和运动特征。所以图卷积算法在基于骨架数据的行为识别中得到了广泛的应用。另外，目前现有的算法常常使用标准的卷积方法来提取时间维度上的信息，其缺陷是：(1)无法确定适当大小的卷积核，使得算法能够更有效地学习到序列的时间特征；(2)仅仅提取了短期内的时间信息，无法对长距离的视频帧之间的关系进行建模。

技术实现思路

1、本专利技术的目的是提出基于gcn和transformer的人体行为识别方法，解决了现有技术中无法对时间维度的信息进行全局建模进而导致识别率低的问题。</p>

2、本专利技术所采用的技术方案是，基于gcn和transformer的人体行为识别方法，具体按照以下步骤实施：

3、步骤1，获取含有人体运动的多个rgb视频，从每一个rgb视频中提取多个关键帧，对提取的关键帧图像进行预处理，裁剪出只含人类活动的区域，然后对视频进行标注，使每个行为视频都有对应的种类标签；

4、步骤2，使用人体姿态估计算法mmpose对每一帧图像进行处理，识别出图像中人体的关键点，再将骨架数据按时间顺序排列，形成骨架序列，并对长短不同的序列进行补齐，最后划分训练集和测试集；

5、步骤3，将训练集输入gcn和transformer网络中进行训练；

6、步骤4，将测试集输入gcn和transformer网络中进行测试，即可实现人体行为识别。

7、本专利技术的特点还在于，

8、步骤1中，关键帧提取的公式如式(1)所示；

9、n＝t/f (1)；

10、其中，n为视频总帧数；t为视频时长，单位为秒；f为帧率。

11、步骤2中，具体为：使用人体姿态估计算法mmpose对每一帧图像进行处理，识别出图像中人体的关键点，即为关节的位置和相应的连接骨架，将每个关键点的位置用三维坐标(xi,yi,zi)表示，其中i＝1,2,3…25；i为关键点个数，再将骨架数据按时间顺序排列，形成骨架序列；采用填补数值操作来标准化序列长度，使得所有序列的长度都达到序列中最长的长度达到lmax；再将70％的骨架序列作为训练集，30％的骨架序列作为测试集。

12、步骤3中，具体为：

13、步骤3.1，使用gcn方法来提取每一个关键帧对应的骨架序列上的空间特征；

14、步骤3.2，使用transformer提取序列的时间信息，

15、步骤3.3，对得到的各个向量q，k，v进行多头自注意力的操作；

16、步骤3.4，将上述使用gcn方法和transformer方法提取完特征后得到的向量zoit的维度进行变换，将时空特征联合起来，使用transformer对得到的特征进行全局建模；

17、步骤3.5，将每个向量使用nn.conv2d()方法分类到步骤1对应的种类标签中；每个向量都会有num_class个数字，通过softmax()函数将这些数字转化成0-1之间的概率；在网络得出的各个概率中，向量真正属于的类别的概率为p*；设该视频样本为xi(i＝1,2,3…n)，n为样本个数，根据概率p*构造xi的focal损失函数，构造好损失函数后，通过adam优化器和反向传播算法迭代训练优化网络超参数。

18、步骤3.1中，具体为：

19、在一个rgb视频中，将同一帧内的各个关节点之间的相对坐标dr和在时间维度不同帧上的同一个关节点之间的相对坐标dt融进步骤2中对应的骨架序列中，形成新的表示向量z，再将向量z根据人体骨骼结构分为上肢，下肢，上部躯干和下部躯干四部分，然后分别对每一部分的各个关节点的组合进行卷积，如式(2)所示；

20、

21、其中，xi(i＝1,2,3,4)表示每个关节点的组合数据；vtj表示每个组合中对应的每个关节点，ai表示每个组合的邻接矩阵，di表示每个组合的度矩阵，wij表示对于组合中的每个关节点的权重；提取信息后得到表示各个组合特征的向量xi，再对四个向量xi进行加权相加，得到更高层次的特征向量z，如式(3)所示；

22、

23、步骤3.2中，具体为：

24、步骤3.21，gcn提取信息后形成向量z，将向量z的维度变换为(b*v,t,c)，其中b表示批次大小，t表示序列长短，c表示通道数，v表示骨架图的关节点数目；对骨架序列中每一帧图像的每一个关节点进行余弦编码，以获得表示每一帧图像的顺序向量pe，如式(4)及式(5)所示：

25、

26、

27、其中，d表示向量的维度大小，即c，pe(pos,2i)表示向量的第偶数个维度，pe(pos,2i+1)表示向量的第奇数个维度，每个pos表示每个帧在序列中的绝对位置；

28、步骤3.22，将顺序向量pe与向量z进行相加得到新的表示向量e，自此表示每一帧的向量不仅含有特征信息，还含有顺序信息，如式(6)所示：

29、e＝z+pe (6)；

30、步骤3.23，将表示向量e分别进行线性变换，得到查询向量q，关键值向量k，代表值向量v，如式(7)-(9)所示：

31、q＝wq·ln(z) (7)；

32、k＝wk·ln(z) (8)；

33、v＝wv·ln(z) (9)；

34、其中，ln表示layernorm，wq，wk，wv分别表示生成三个不同向量的权重矩阵，q＝(q1,q2…qd)，k＝(k1,k2…kd)，v＝(v1,v2…vd)；d表示设置的多头自注意力机制的头数。

35、步骤3.3中，具体为：

36、步骤3.31，计算注意力atten，如式(10)所示：

37、

38、其中，q是一组用来寻找相关信息的向量，可以将查询向量视为对输入序列中的每个元素进行提问的过程，以确定其与其他元素的关联程度；键向量k包含了每个位置的输入信息，表示序列中每个元素对于查询向本文档来自技高网...

【技术保护点】

1.基于GCN和Transformer的人体行为识别方法，其特征在于，具体按照以下步骤实施：

2.如权利要求1所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤1中，关键帧提取的公式如式(1)所示；

3.如权利要求1所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤2中，具体为：使用人体姿态估计算法MMPose对每一帧图像进行处理，识别出图像中人体的关键点，即为关节的位置和相应的连接骨架，将每个关键点的位置用三维坐标(xi，yi，zi)表示，其中i＝1，2，3…25；i为关键点个数，再将骨架数据按时间顺序排列，形成骨架序列；采用填补数值操作来标准化序列长度，使得所有序列的长度都达到序列中最长的长度达到Lmax；再将70％的骨架序列作为训练集，30％的骨架序列作为测试集。

4.如权利要求1所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤3中，具体为：

5.如权利要求4所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤3.1中，具体为：

6.如权利要求5所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤3.2中，具体为：

7.如权利要求6所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤3.3中，具体为：

8.如权利要求7所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤3.4中，具体为：

9.如权利要求4所述的基于GCN和Transformer的人体行为识别方法，其特征在于，所述步骤3.5中，根据概率p*构造xi的focal损失函数，如式(21)所示：

...

【技术特征摘要】

1.基于gcn和transformer的人体行为识别方法，其特征在于，具体按照以下步骤实施：

2.如权利要求1所述的基于gcn和transformer的人体行为识别方法，其特征在于，所述步骤1中，关键帧提取的公式如式(1)所示；

3.如权利要求1所述的基于gcn和transformer的人体行为识别方法，其特征在于，所述步骤2中，具体为：使用人体姿态估计算法mmpose对每一帧图像进行处理，识别出图像中人体的关键点，即为关节的位置和相应的连接骨架，将每个关键点的位置用三维坐标(xi，yi，zi)表示，其中i＝1，2，3…25；i为关键点个数，再将骨架数据按时间顺序排列，形成骨架序列；采用填补数值操作来标准化序列长度，使得所有序列的长度都达到序列中最长的长度达到lmax；再将70％的骨架序列作为训练集，30％的骨架序列作为测试集。

4.如权利要求...

【专利技术属性】
技术研发人员：刘龙，任思颖，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人