一种基于时空图卷积神经网络的手势识别方法和装置制造方法及图纸

技术编号:27270076 阅读:121 留言:0更新日期:2021-02-06 11:35
本发明专利技术公开了一种基于时空图卷积神经网络的手势识别方法和装置。所述方法包括:获取人手关节序列;基于人手关节序列建立人手骨架时空图;构建人手骨架时空图上的时间注意力和空间注意力机制;构建时间金字塔池化层,提取多尺度的时间特征;使用人手关节和人手运动两种类型的输入数据设计双分支网络,获取人手关节之间的关联性,可以提取人手关节序列具有强鉴别力的特征,进行特征融合和手势识别。本发明专利技术具有精度高和实时性的优点,可满足专业的或者大众化的应用需求。者大众化的应用需求。者大众化的应用需求。

【技术实现步骤摘要】
一种基于时空图卷积神经网络的手势识别方法和装置


[0001]本专利技术属于计算机视觉、手势识别、人机交互领域,具体涉及到一种基于时空图卷积神经网络的手势识别方法和装置,适用于人体整体或局部(如人体、人手、人脸等)、动物、机器人等对象。

技术介绍

[0002]手势识别是计算机视觉和人机交互领域的热点问题,在虚拟现实,智能控制和终端设备上具有广泛的应用。手势识别任务主要是从一段手势动作视频中识别出动作者具体在做哪种手势。手势识别分为基于RGB视频的手势识别方法和基于人手姿态的手势识别方法。相比于基于RGB视频的手势识别方法,基于人手姿态的手势识别方法使用人手关节位置作为输入,这类方法能够更好的关注到手部的位置与运动信息,并且容易剔除背景信息的影响,是一种具有较大发展潜力的方法,可得到更准确的手势识别结果,计算效率更高。基于人手姿态的手势识别方法中,如何提取人手姿态序列中的有鉴别力的时间与空间特征是关键难点。基于手部姿态的手势识别方法主要分为以下三个阶段:首先,利用人工标注方法或手部姿态检测方法获取手部的姿态信息;然后,利用传统特征提取方法或深度学习特征提取方法提取手部姿态的特征;最后,将特征输入到分类器中进行手势分类。
[0003]基于手部姿态的手势识别方法也分为基于传统机器学习方法和基于深度学习的方法。
[0004]基于传统机器学习的方法通常利用Fisher Vector(FV)或者直方图的方法构造出手部姿态的特征,然后利用GMM或者CRF等方法提取出时序特征,最后输入到SVM等分类器中进行手势分类。Smedt等人使用三个向量来表示手部的运动方向信息,旋转信息和手部的形状信息,并利用FV和GMMs方法来编码这些特征,最后输入到SVM进行训练和分类。Zhao等人提出了一种基于骨架的动态手势识别方法。该方法提取了四种手部形状特征和一种手部方向特征,并将其输入线性SVM分类器进行识别。相比于深度学习方法,传统机器学习方法需要手动构造特征,这种特征往往没有深度学习自动提取的特征好,从而最后分类的效果也不如深度学习的方法好。
[0005]基于深度学习的方法主要可以分为三种:基于长短时记忆网络(LSTM)架构、基于卷积神经网络(CNN)架构和基于图卷积神经网络(GCN)架构的方法。基于长短时记忆网络(LSTM)架构的识别方法通常将人手姿态信息输入到LSTM网络中直接进行分类。这种方法较为简单,但是准确率不高。基于CNN架构的方法将人体姿态通过一定的编码方式编码成图片或者矩阵的形式,利用现有的CNN网络架构进行特征提取并进行识别。基于GCN的方法首先将人体姿态建立时空图,然后利用图卷积神经网络提取时空特征。相比于基于CNN架构的方法,这种方法可以减小参数量,是目前手势识别和动作识别的主流方法。基于图卷积神经网络(GCN)架构的方法是最近兴起的方法,通常将人手姿态信息输入到一个使用固定图的图卷积神经网络中进行分类,分类准确性依然不高。

技术实现思路

[0006]为了解决上述问题,本专利技术提供了一种基于时空图卷积神经网络的手势识别方法和装置。本专利技术不仅关注手势识别中的时间信息,还关注空间上下文信息(空间上下文信息在手势识别中是十分关键的),而且对不同时刻、不同关节对于手势识别效果的重要性进行区分。因此本专利技术基于人手关节序列建立人手骨架时空图,设计时间注意力和空间注意力机制,时间注意力机制刻画人手骨架序列在时间维度上的关联性,空间注意力机制建立每个时间的动态图结构,获取人手关节之间的关联性,通过具有时间注意力和空间注意力机制的时空图卷积神经网络可以提取人手关节序列中具有强鉴别力的时间空间特征。
[0007]本专利技术提供一种基于时空图卷积神经网络的手势识别方法,所述方法包括以下步骤:获取人手关节序列;基于人手关节序列建立人手骨架时空图;构建人手骨架时空图上的时间注意力和空间注意力机制;构建时间金字塔池化层;使用以人手关节和人手运动两种类型的输入数据的双分支网络,进行特征融合和手势识别。
[0008]本专利技术提供一种基于时空图卷积神经网络的手势识别装置,所述装置包括:获取人手关节序列模块,用于确定手部关节点坐标;基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块,用于获取手部姿态序列中有强鉴别力的空间时间特征;时间金字塔池化模块,用于整合不同时间长度和不同速度的手部姿态序列;以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。
[0009]本专利技术的技术方案为:
[0010]一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:
[0011]1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={v
i,j
|i=1,2,

T,j=1,2,

,N},其中v
i,j
表示第i帧的第j个关节点;特征集F={f
i,j
|i=1,2,

T,j=1,2,

,N},其中f
i,j
表示节点v
i,j
的特征;特征集F为姿态流;
[0012]2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;
[0013]3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;
[0014]4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。
[0015]进一步的,空间图注意力网络的公式为其中,和分别是第l层空间图注意力网络的输入特征和输出特征,σ(
·
)表示ReLU激活函数,是大小为的权重矩阵,和分别代表输入通道数和输出通道数,分别代表输入通道数和输出通道数,分别代表输入通道数和输出通道数,是利用训练数据对空间图注意力网络训练得到的矩阵,是空间注意力矩阵。
[0016]进一步的,得到空间注意力矩阵的方法为:将大小为的特征输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={v
i,j
|i=1,2,...T,j=1,2,...,N},其中v
i,j
表示第i帧的第j个关节点;特征集F={f
i,j
|i=1,2,...T,j=1,2,...,N},其中f
i,j
表示节点v
i,j
的特征;特征集F为姿态流;2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。2.根据权利要求1所述的方法,其特征在于,空间图注意力网络的公式为其中,和分别是第l层空间图注意力网络的输入特征和输出特征,σ(
·
)表示ReLU激活函数,是大小为的权重矩阵,和分别代表输入通道数和输出通道数,表输入通道数和输出通道数,是利用训练数据对空间图注意力网络训练得到的矩阵,是空间注意力矩阵。3.根据权利要求2所述的方法,其特征在于,得到空间注意力矩阵的方法为:将大小为的特征输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,并将一卷积结果变换成大小为B
×
N
×
C
s
T的矩阵、将另一卷积结果转换成大小为B
×
C
s
T
×
N的矩阵,B表示关节点序列的个数,C
in
表示输入的通道数,C
s
是“1*1”卷积层的输出通道数;然后将变换后的两矩阵相乘得到大小为B
×
N
×
N的矩阵并对其进行softmax操作,得到空间注意力矩阵4.根据权利要求1所述的方法,其特征在于,时间图注意力网络的公式为4.根据权利要求1所述的方法,其特征在于,时间图注意力网络的公式为其中,和分别是第l层时间图注意力网络的输入特征和输出特征,是大小为的权重矩阵,和分别代表输入通道数和输出通
道数,其中,是利用训练数据对时间图注意力网络训练得到的矩阵,是时间注意力矩阵。5.根据权利要求4所述的方法,其特征在于,得到时间注意力矩阵的方法为:将大小为的特征输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,将一卷积结果转换成大小为B
×
T
×
C
t
N的矩阵、将另一卷积结果转换成大小为B
×
C
t
N
×
T的矩阵,C
t
是“1*1”卷积层的输出通道数,B表示关节点序列的个数,C
in
表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B
×
T
×
T的矩阵并对其进行softmax操作,得到时间注意力矩阵6.根据权利要求4所述的方法,其特征在于,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B
×
C
in
×
N
×
T的特征F
(l)
分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B
×
T
×
C
t
N的矩阵、将第二卷积层的卷...

【专利技术属性】
技术研发人员:邓小明张维程坚林泽一马翠霞王宏安
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1