【技术实现步骤摘要】
一种基于时空图卷积神经网络的手势识别方法和装置
[0001]本专利技术属于计算机视觉、手势识别、人机交互领域,具体涉及到一种基于时空图卷积神经网络的手势识别方法和装置,适用于人体整体或局部(如人体、人手、人脸等)、动物、机器人等对象。
技术介绍
[0002]手势识别是计算机视觉和人机交互领域的热点问题,在虚拟现实,智能控制和终端设备上具有广泛的应用。手势识别任务主要是从一段手势动作视频中识别出动作者具体在做哪种手势。手势识别分为基于RGB视频的手势识别方法和基于人手姿态的手势识别方法。相比于基于RGB视频的手势识别方法,基于人手姿态的手势识别方法使用人手关节位置作为输入,这类方法能够更好的关注到手部的位置与运动信息,并且容易剔除背景信息的影响,是一种具有较大发展潜力的方法,可得到更准确的手势识别结果,计算效率更高。基于人手姿态的手势识别方法中,如何提取人手姿态序列中的有鉴别力的时间与空间特征是关键难点。基于手部姿态的手势识别方法主要分为以下三个阶段:首先,利用人工标注方法或手部姿态检测方法获取手部的姿态信息;然后,利用传统特征提取方法或深度学习特征提取方法提取手部姿态的特征;最后,将特征输入到分类器中进行手势分类。
[0003]基于手部姿态的手势识别方法也分为基于传统机器学习方法和基于深度学习的方法。
[0004]基于传统机器学习的方法通常利用Fisher Vector(FV)或者直方图的方法构造出手部姿态的特征,然后利用GMM或者CRF等方法提取出时序特征,最后输入到SVM等分类器中进行手势分类。S ...
【技术保护点】
【技术特征摘要】
1.一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={v
i,j
|i=1,2,...T,j=1,2,...,N},其中v
i,j
表示第i帧的第j个关节点;特征集F={f
i,j
|i=1,2,...T,j=1,2,...,N},其中f
i,j
表示节点v
i,j
的特征;特征集F为姿态流;2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。2.根据权利要求1所述的方法,其特征在于,空间图注意力网络的公式为其中,和分别是第l层空间图注意力网络的输入特征和输出特征,σ(
·
)表示ReLU激活函数,是大小为的权重矩阵,和分别代表输入通道数和输出通道数,表输入通道数和输出通道数,是利用训练数据对空间图注意力网络训练得到的矩阵,是空间注意力矩阵。3.根据权利要求2所述的方法,其特征在于,得到空间注意力矩阵的方法为:将大小为的特征输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,并将一卷积结果变换成大小为B
×
N
×
C
s
T的矩阵、将另一卷积结果转换成大小为B
×
C
s
T
×
N的矩阵,B表示关节点序列的个数,C
in
表示输入的通道数,C
s
是“1*1”卷积层的输出通道数;然后将变换后的两矩阵相乘得到大小为B
×
N
×
N的矩阵并对其进行softmax操作,得到空间注意力矩阵4.根据权利要求1所述的方法,其特征在于,时间图注意力网络的公式为4.根据权利要求1所述的方法,其特征在于,时间图注意力网络的公式为其中,和分别是第l层时间图注意力网络的输入特征和输出特征,是大小为的权重矩阵,和分别代表输入通道数和输出通
道数,其中,是利用训练数据对时间图注意力网络训练得到的矩阵,是时间注意力矩阵。5.根据权利要求4所述的方法,其特征在于,得到时间注意力矩阵的方法为:将大小为的特征输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,将一卷积结果转换成大小为B
×
T
×
C
t
N的矩阵、将另一卷积结果转换成大小为B
×
C
t
N
×
T的矩阵,C
t
是“1*1”卷积层的输出通道数,B表示关节点序列的个数,C
in
表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B
×
T
×
T的矩阵并对其进行softmax操作,得到时间注意力矩阵6.根据权利要求4所述的方法,其特征在于,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B
×
C
in
×
N
×
T的特征F
(l)
分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B
×
T
×
C
t
N的矩阵、将第二卷积层的卷...
【专利技术属性】
技术研发人员:邓小明,张维,程坚,林泽一,马翠霞,王宏安,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。