基于时频数据融合的分层图卷积手势识别方法及装置制造方法及图纸

技术编号：41257104 阅读：7 留言：0更新日期：2024-05-11 09:16

本发明专利技术公开一种基于时频数据融合的分层图卷积手势识别方法及装置，包括由基础块与全连接层组成的网络结构；网络结构执行以下步骤：分层手部图卷积模块将待识别手势图像拆分成预设个数的关节分层图，并提取得到关节分层图特征；拼接所有关节分层图特征，得到第一图像特征；时间卷积模块根据输入的第一图像特征依次进行卷积、激活以及残差连接操作，得到第二图像特征；空间注意力模块根据输入的第二图像特征进行特征提取，得到第三图像特征；时间卷积模块根据输入的第三图像特征依次进行卷积、激活以及残差连接操作，得到第四图像特征；全连接层根据第四图像特征输出手势预测结果。从而提高对手势识别的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，特别是涉及一种基于时频数据融合的分层图卷积手势识别方法及装置。

技术介绍

1、随着人工智能技术的发展，使用深度学习模型进行手势识别成为一种趋势。例如现有技术1(devineau g，moutarde f，xi w，et al.《deep learning for hand gesturerecognition on skeletal data》)首先提出通过卷积神经网络（convolutional neuralnetwork，cnn）沿骨架序列时间维度提取特征。现有技术2（lai k，yanushkevich s n.《cnn+rnn depth and skeleton based dynamic hand gesture recognition》）提出了将骨架作为时间序列输入到循环神经网络（recurrent neural network，rnn）进行特征提取。但现有技术1和2无法自然的表示非欧式结构的骨架数据。

2、现有技术3（yan s，xiong y，lin d.《spatial temporal graph convolutionalnetworks for skeleton-based action recognition》）提出的st-gcn(spatial temporalgraph convolutional networks，时空图卷积网络)是基于空域方法的典型代表。st-gcn由若干空间块和时间块堆叠而成，其中的空间块是通过gcn（graph convolutiona

3、现有技术4（shi l，zhang y，cheng j，et al.《two-stream adaptive graphconvolutional networks for skeleton-based action recognition》）提出的2s-agcn（two-stream adaptive graph convolutional networks，双流自适应图卷积网络）通过两个线性层将输入线性变换为和，之后将与进行矩阵乘法得到大小为的矩阵，其中表示实数集，为输入通道数、为帧数以及为节点数。最后与骨架图的邻接矩阵相加得到最终的骨架图拓扑矩阵，其中为输出通道数。这样做的目的在于通过网络训练学习到各节点间的潜在关系。现有技术5（chen y，zhang z，yuan c，et al.《channel-wise topology refinement graph convolution forskeleton-based action recognition》）提出的ctr-gcn（channel-wise topologyrefinement-graph convolutional networks，通道拓扑图卷积神经网络）使用可学习的矩阵，用来寻找较远骨架节点之间的潜在关系。通过数据驱动对每个通道学习一个图拓扑结构以此得到一个针对输入实例的图邻接矩阵，使得可以发掘潜在的节点关系。

4、现有技术4和5，太过依赖初始的骨架图拓扑结构，虽然模型能够实现对图像的学习，但是这些模型还是会受到初始化骨架图拓扑的影响，从而更加重视原来节点之间的相关性。

5、现有技术6（lee j，lee m，lee d，et al.《hierarchically decomposed graphconvolutional networks for skeleton-based action recognition》）提出应该着重考虑对识别动作更重要的结点。为此，将骨架图划分为多个层，通过距离中心点的跳数划分关节点组，对不同的关节点组的图邻接矩阵提取的特征进行平均池化，得到更具有代表性的动作特征。然而，如果需要让图卷积神经网络系列的网络模型考虑到全局信息，则必须堆叠较深的gcn层才能将其聚合半径扩大到全图，这会造成计算量过大的问题。

技术实现思路

1、本专利技术所要解决的技术问题是：提供一种基于时频数据融合的分层图卷积手势识别方法及装置，提高对手势识别的效果。

2、为了解决上述技术问题，本专利技术采用的技术方案为：

3、一种基于时频数据融合的分层图卷积手势识别方法，包括由基础块与全连接层组成的网络结构；所述基础块由分层手部图卷积模块、时间卷积模块、空间注意力模块、时间卷积模块依次残差连接组成；所述网络结构执行以下步骤：

4、所述分层手部图卷积模块将待识别手势图像拆分成预设个数的关节分层图，并提取得到关节分层图特征；拼接所有所述关节分层图特征，得到第一图像特征；

5、所述时间卷积模块根据输入的所述第一图像特征依次进行卷积、激活以及残差连接操作，得到第二图像特征；

6、所述空间注意力模块根据输入的所述第二图像特征进行特征提取，得到第三图像特征；

7、所述时间卷积模块根据输入的所述第三图像特征依次进行卷积、激活以及残差连接操作，得到第四图像特征；

8、所述全连接层根据所述第四图像特征输出手势预测结果。

9、为了解决上述技术问题，本专利技术采用的另一技术方案为：

10、一种基于时频数据融合的分层图卷积手势识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的一种基于时频数据融合的分层图卷积手势识别方法中的各个步骤。

11、本专利技术的有益效果在于：通过使用图卷积神经网络以及图卷积核，能够自然地表达非欧式结构以及通过训练样本学习到较远关节点之间的相关性；采用分层手部图结构，将手部骨架分为多层并通过训练学习每一层的节点之间的相关性，从而摆脱对于初始的骨架图拓扑结构的依赖，使得模型可以提取到更加多样的骨架序列特征；通过空间注意力块代替冗余的图卷积块提取全局特征，并使用空间注意力块与图卷积块交替堆叠，既可以避免堆叠过多图卷积层带来的计算负担、降低系统复杂度，又确保了模型的全局特征提取能力。

本文档来自技高网...

【技术保护点】

1.一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，包括由基础块与全连接层组成的网络结构；所述基础块由分层手部图卷积模块、时间卷积模块、空间注意力模块、时间卷积模块依次残差连接组成；所述网络结构执行以下步骤：

2.根据权利要求1所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所述分层手部图卷积模块包括三个图卷积流以及一个图边卷积流；

3.根据权利要求2所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，通过所述图卷积流进行特征提取包括：

4.根据权利要求3所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所述拼接所有所述关节分层图特征，得到第一图像特征包括：

5.根据权利要求1所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所述时间卷积模块对输入的每一所述第一图像特征依次进行卷积、激活以及残差连接操作包括：

6.根据权利要求1所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所述空间注意力模块根据输入的所述第二图像特征进行特征提取，得到第三图像特征包括：

7.根据权利要求6所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所述得到第三图像特征包括：

8.根据权利要求1所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，还包括：

9.一种基于时频数据融合的分层图卷积手势识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的一种基于时频数据融合的分层图卷积手势识别方法中的各个步骤。

...

【技术特征摘要】

3.根据权利要求2所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，通过所述图卷积流进行特征提取包括：

4.根据权利要求3所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所述拼接所有所述关节分层图特征，得到第一图像特征包括：

5.根据权利要求1所述的一种基于时频数据融合的分层图卷积手势识别方法，其特征在于，所...

【专利技术属性】
技术研发人员：邹峥，刘石坚，黄葵，廖律超，荆东星，蔡建成，吴屹，陈才艺，
申请(专利权)人：福建师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人