一种基于HGCN和手势骨架序列的手势类别识别方法技术

技术编号:36401425 阅读:15 留言:0更新日期:2023-01-18 10:08
本发明专利技术公开了一种基于HGCN和手势骨架序列的手势类别识别方法,能够根据用户的手势动作来识别其对应的手势类别,本发明专利技术在前期基础模型上进行了两个方面的改进,以更有效地利用手部关节空间与时间上的结构信息。首先本发明专利技术提出了基于图卷积的手部特征增强,构建了手部关节依赖关系图,提出了使用全连接网络加强关联较远的节点间的信息流通;另外本发明专利技术提出了使用时空位置编码与自注意力机制,来学习手部关节在空间与时间上的依赖关系。基于这些改进,本发明专利技术在序列手势骨架生成上取得了更好的效果,证明了本发明专利技术改进模型的有效性。证明了本发明专利技术改进模型的有效性。证明了本发明专利技术改进模型的有效性。

【技术实现步骤摘要】
一种基于HGCN和手势骨架序列的手势类别识别方法


[0001]本专利技术属于计算机视觉及人体姿态估计
,具体涉及一种基于HGCN和手势骨架序列的手势类别识别方法。

技术介绍

[0002]手势是交流互动中一种重要的非语言媒介,经常出现在日常对话互动中,它不仅可以辅助语言交流,而且具有独立的表达性,在交流中具有重要的作用;代表性、典型性的手势以及便于直观表达的模仿性手势,都能更好地完成交流参与者间的表达理解。当语言难以传达交流信息时,手势能够很好地辅助表达交流意图;不论手势表达的是交流的表面含义还是隐含义,手势都具有交流参考性。
[0003]例如,当表达“心”或“爱”时,可以用双手合并形成心形,或者用单手拇指和食指在第一指节处交叠,其他手指蜷曲来表示。近年来,手势由于其广泛的人机交互、游戏、控制家用电器等非语言通信应用,并且作为增强现实和虚拟现实应用程序中的一种自然的交互方式,受到了学业界和工业界的关注,逐渐成为一个活跃的研究领域,也被认为是未来的一种新趋势。手势生成作为手势表达行为建模的重要任务,具有大量的实际应用,如视频合成、手势分类、手势预测、手势识别。
[0004]自然场景的复杂性、高维度性以及与身体其他部位交叠的影响等,使得直接生成图像级的手势具有高挑战性;一个自然的解决办法是,首先生成更容易处理的基于骨骼的手势序列,然后根据这些序列来渲染自然手势序列。基于上述考虑,研究基于骨骼的手势序列的生成,目的是探索生成多个类别的静态手势以及连续序列的手势动作。事实上,大部分的运动信息都存储在骨骼序列中,因而生成相应的手势骨架在手势生成任务中起着重要的作用。
[0005]在对人类手势的研究中,McNeill等人在文献《Hand and Mind:What Gestures Reveal About Thought》中根据符号学提出了四种主要的手势类型,分别为标志性、隐喻性、指示性和节拍式手势,之后Toshinori等人在文献《A speech

driven hand gesture generation method and evaluation in android robots》中进行了手势分类的总结,添加了象征性以及伴随式手势;其中标志性、隐喻性以及象征性的手势都与语音词汇高度相关,指示性手势是指向特定目标或空间的指示性动作,与语音词汇和形成手势的空间上下文有关;节拍手势是一种与语音音频密切相关的有节奏的动作,伴随式手势经常涉及自我触摸的动作,研究发现伴随性手势有助于表明特定人格类型,为如何创建特定角色提供了指导。
[0006]但是目前的手势生成的工作多用于从语音或文本中产生协同的手势以及探索手势的图像或视频生成;协同手势作为非语言信号辅助交流,使得交流更加自然,却难以单独表达语义,且由于语音到手势的高度非确定性映射,使得生成的手势会特定于个人手势风格。另外,手势生成工作中大多数都是将人体的骨骼关节点当作图像的一个像素,将动作的一帧当作一个图像来处理,而没有考虑到骨骼关节点间丰富的人体结构信息,从而可能导
致生成的结果是扭曲的、不自然的。

技术实现思路

[0007]鉴于上述,本专利技术提供了一种基于HGCN和手势骨架序列的手势类别识别方法,针对手势骨架问题的特殊性,提出相应改进措施,探索具有独立表达含义的手势生成方案,实现更好的效果。
[0008]一种基于HGCN和手势骨架序列的手势类别识别方法,包括如下步骤:
[0009](1)获取大量关于手势动作的视频帧序列及对应的手势类别标签,并对视频帧中的手部特征进行增强;
[0010](2)构建基于HGCN(Hand

Gesture Graph Convolution Neural Networks,手势骨架图卷积神经网络)的模型架构,其由生成器以及两个判别器DF和DV组成,生成器用于对输入的视频帧序列进行编码生成手势骨架图序列,判别器DF以手势骨架图序列中的部分帧作为输入以判别输出相应的手势类别结果,判别器DF以整个手势骨架图序列作为输入以判别输出相应的手势类别结果;
[0011](3)利用步骤(1)获得的大量视频帧序列及其手势类别标签对上述模型架构进行训练;
[0012](4)将待识别的手势动作视频帧序列输入训练好的模型中,即可识别出其对应的手势类别。
[0013]进一步地,所述视频帧序列中的每一帧都对手部关节点做了标记,包括手掌根以及每根手指的指尖、第一指节、第二指节以及指根,同一手指的指尖、第一指节、第二指节、指根与手掌根通过边依次连接。
[0014]进一步地,所述步骤(1)中对手部特征进行增强的具体实现方式为:在同一帧中增加相邻指尖、相邻第一指节、相邻第二指节以及相邻指根之间的边连接;对于整个视频帧序列,增加相同关节点在不同帧之间的映射连接。
[0015]进一步地,所述编码器从输入至输出由卷积网络D、基于时空位置编码的自注意力模块、卷积网络D1、卷积网络D2、自注意力机制模块以及图卷积网络模块依次连接,卷积网络D1和D2的输出均经过ReLU激活函数处理。
[0016]进一步地,所述自注意力机制模块用于学习视频帧序列的稀疏动作图,以减少图卷积网络的计算负担,同时为图卷积网络提供邻接矩阵具体地:
[0017]首先,构造初始邻接矩阵如下:
[0018][0019]其中:I为单位矩阵,A为N
×
N大小的邻接矩阵,用以表示视频帧中关节点的连接关系,若两关节点存在连接则对应的元素值设置为1,否则设置为0,N为视频帧中的关节点个数;
[0020]然后,根据模块的输入信息对整个视频帧序列计算自注意力得分,得到掩码注意力矩阵S
mask

[0021][0022]其中:s
i,j
表示视频帧序列中第i帧对第j帧的影响即自注意力得分,i和j表示帧序号,T表示视频帧序列的总帧数;
[0023]进而,对于矩阵S
mask
中的任一行,保留行内自注意力得分最高的前K个元素值,其余元素值置0,K为预设的正整数;
[0024]最后,将S
mask
与相乘得到矩阵进而对做归一化处理后即得到最终的邻接矩阵
[0025]进一步地,所述图卷积网络模块为多层图卷积网络结构,每一层从输入至输出由全连接网络FC1、二维卷积网络Conv2d、全连接网络FC2依次连接组成,Conv2d的输出与邻接矩阵相加后即作为FC2的输入,第一层的输入为模块的输入信息Hin,Hin经过一个二维卷积网络与第一层的输出相加后作为第二层的输入,从第三层开始每一层的输入即为前一层的输出,第二层的输入经过一个二维卷积网络与最后一层的输出相加后再经过一个二维卷积网络即作为图卷积网络模块的输出。
[0026]进一步地,所述基于时空位置编码的自注意力模块首先对视频帧序列中的关节点位置分别在时间和空间上进行编码,得到时间位置编码PEt和空间位置编码PEs;然后将模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于HGCN和手势骨架序列的手势类别识别方法,包括如下步骤:(1)获取大量关于手势动作的视频帧序列及对应的手势类别标签,并对视频帧中的手部特征进行增强;(2)构建基于HGCN的模型架构,其由生成器以及两个判别器DF和DV组成,生成器用于对输入的视频帧序列进行编码生成手势骨架图序列,判别器DF以手势骨架图序列中的部分帧作为输入以判别输出相应的手势类别结果,判别器DF以整个手势骨架图序列作为输入以判别输出相应的手势类别结果;(3)利用步骤(1)获得的大量视频帧序列及其手势类别标签对上述模型架构进行训练;(4)将待识别的手势动作视频帧序列输入训练好的模型中,即可识别出其对应的手势类别。2.根据权利要求1所述的手势类别识别方法,其特征在于:所述视频帧序列中的每一帧都对手部关节点做了标记,包括手掌根以及每根手指的指尖、第一指节、第二指节以及指根,同一手指的指尖、第一指节、第二指节、指根与手掌根通过边依次连接。3.根据权利要求1所述的手势类别识别方法,其特征在于:所述步骤(1)中对手部特征进行增强的具体实现方式为:在同一帧中增加相邻指尖、相邻第一指节、相邻第二指节以及相邻指根之间的边连接;对于整个视频帧序列,增加相同关节点在不同帧之间的映射连接。4.根据权利要求1所述的手势类别识别方法,其特征在于:所述编码器从输入至输出由卷积网络D、基于时空位置编码的自注意力模块、卷积网络D1、卷积网络D2、自注意力机制模块以及图卷积网络模块依次连接,卷积网络D1和D2的输出均经过ReLU激活函数处理。5.根据权利要求4所述的手势类别识别方法,其特征在于:所述自注意力机制模块用于学习视频帧序列的稀疏动作图,以减少图卷积网络的计算负担,同时为图卷积网络提供邻接矩阵具体地:首先,构造初始邻接矩阵如下:其中:I为单位矩阵,A为N
×
N大小的邻接矩阵,用以表示视频帧中关节点的连接关系,若两关节点存在连接则对应的元素值设置为1,否则设置为0,N为视频帧中的关节点个数;然后,根据模块的输入信息对整个视频帧序列计算自注意力得分,得到掩码注意力矩阵S
mask

其中:s
i,j<...

【专利技术属性】
技术研发人员:张海翔李少华曾瑞张静雯冯杰
申请(专利权)人:浙江理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1