一种基于手部关键点和transformer的动态手势识别方法和系统技术方案

技术编号:34514096 阅读:14 留言:0更新日期:2022-08-13 21:00
本发明专利技术提供了一种基于手部关键点和transformer的动态手势识别方法,先获取T时间段内的手部图像序列,并获取各手部图像中的手部关键点;将T时间段内手部图像序列各手部图像中的手部关键点坐标拼接为三维矩阵,拼接后的关键点输入矩阵维度为3*T*K;将拼接得到的三维矩阵输入预训练好的神经网络模型,依次进行近距关节局部运动特征提取、特征转置、远距关节全局运动特征提取、transformer注意力分配、softmax函数激活;经神经网络模型预测后,输出T时间段上的动态手势的识别结果;本发明专利技术提供的方法,使用transformer模块,使网络在预测手势时能够聚焦特征性更强的关键点运动信息,使模型的预测结果更加准确,且拥有较少的网络参数和更快的运行速度,从而达到实时动态手势识别的效果。手势识别的效果。手势识别的效果。

【技术实现步骤摘要】
一种基于手部关键点和transformer的动态手势识别方法和系统


[0001]本专利技术涉及手势识别领域,特别是指一种基于手部关键点和transformer的动态手势识别方法和系统。

技术介绍

[0002]目前在人机交互领域,基于手势识别的交互应用被逐渐重视。用户可以通过做出不同的连贯手势向计算机发出不同的控制指令。
[0003]目前对于动态手势识别的方法主要有两大类:一类是基于传统图像处理方法与人工设定的特征和规则来进行动态手势识别。另一类是基于深度学习的方法来进行动态手势识别。
[0004]第一类方法的图像处理方式繁琐,人工设定的特征鲁棒性不强,手势识别准确率很低。
[0005]第二类基于深度学习进行动态手势识别的主要方案有直接使用3D卷积网络对视频序列进行动态手势识别和基于手部关键点序列使用图卷积进行动态手势识别。基于深度学习的方法的效果极大的优于传统方法,但直接使用3D卷积网络对视频序列进行手势识别会造成巨大的计算量和复杂的网络结构设计,导致运行速度非常慢,无法满足实时动态手势识别的要求;而基于手部关键点使用图卷积进行动态手势识别的方法涉及了大量图构造操作和矩阵乘法,同样有较大的计算量,且计算方式复杂繁琐,存在神经网络专用芯片对此类操作支持度低,算法落地困难,无法在前端设备上实时运行等弊端。

技术实现思路

[0006]本专利技术为解决上述问题,提出一种基于手部关键点和transformer的动态手势识别方法,动态手势识别网络使用2D卷积和transformer模块,使网络在预测手势时能够聚焦特征性更强的关键点运动信息,使模型的预测结果更加准确,且拥有较少的网络参数和更快的运行速度,从而达到实时动态手势识别的效果。
[0007]本专利技术采用如下技术方案:
[0008]一种基于手部关键点和transformer的动态手势识别方法,包括如下步骤:
[0009]获取T时间段内的手部图像序列,并获取各手部图像中的手部关键点,手部关键点的坐标使用(x
i
,y
i
,d
i
|i∈[1,K])表示,K为手部关键点的个数,x
i
表示手部图像中第i关键点的横坐标,y
i
表示手部图像中第i个关键点的纵坐标,d
i
表示手部图像中第i个关键点到相机平面的距离;
[0010]将T时间段内手部图像序列各手部图像中的手部关键点坐标拼接为三维矩阵,第一维度为关键点的坐标,第二维度T为时间维度,第三维度为关键点序号维度,拼接后的关键点输入矩阵维度为3*T*K;
[0011]将拼接得到的三维矩阵输入预训练好的神经网络模型,依次进行近距关节局部运
动特征提取、特征转置、远距关节全局运动特征提取、transformer注意力分配、softmax函数激活;
[0012]经神经网络模型预测后,输出T时间段上的动态手势的识别结果。
[0013]具体地,所述动态手势预训练模型具体为:
[0014]基于手部关键点的动态手势预训练模型中的卷积层均为2D卷积,输入数据输入到模型后,经m层二维卷积进行特征提取,m为整数,得到邻近关节点之间的局部特征,然后将特征层的第一维度和第三维度进行转置得到,再经过n层二维卷积组成的全局特征模块进行特征提取,n为整数,得到远距离关节点之间的全局特征,将全局特征展开为一维向量,经过transformer模块进行注意力权重再分配,最后,经过全连接层和softmax激活函数之后得到手势类别预测的概率。
[0015]具体地,所述神经网络模型训练过程具体为:
[0016]数据预处理:训练数据中,每个训练样本为时间段上的手部关键点坐标,首先对所有训练样本进行时间维度上的插值,将其缩放到同样长的时间段T;将手部关键点的横纵坐标以图像宽高进行归一化,将距离坐标相对识别的最大距离范围进行归一化;最后每个训练样本T时间段上的K个手部关键点坐标拼接为三维矩阵;
[0017]训练数据增强:数据增强的方式包括但不限于:随机截取不同时间长度的数据并缩放到统一的时间长度、随机旋转关键点坐标、随机平移关键点坐标、随机选取一段帧的关键点坐标与另一段等长帧进行替换;
[0018]模型训练:模型前向传播,将处理好的训练样本以batch的方式传入神经网络模型,经模型前向传播后,得到手势类别的预测结果,根据预测结果和真实标注计算模型预测损失;若模型预测损失满足停止条件,则停止训练,否则,进行反向传播,根据模型预测损失计算每层参数的梯度,并更新模型参数,进行下一次前向传播。
[0019]具体地,所述方法同时支持单手与双手手势识别,具体为:
[0020]若输入的关键点为单手关键点,则只需将关键点第一输入矩阵置为该手的关键点三维矩阵,关键点第二输入矩阵全部置为0;
[0021]若输入的关键点为双手关键点,则将关键点第一输入矩阵置为第一只手的关键点三维矩阵,将关键点第二输入矩阵置为第二只手的关键点三维矩阵;
[0022]将第一输入矩阵与第二输入矩阵按照三维矩阵的第一维度进行拼接;拼接后的矩阵采用组数为2的二维卷积核组成的局部特征提取模块进行特征提取,得到邻近关节点之间的局部特征,输入特征分离模块将局部特征进行分离,分离后再输入特征转置模块将特征层的第一维度和第三维度进行转置,再将转置后的特征按照第一维度进行拼接。
[0023]具体地,获取各手部图像中的手部关键点,包括但不限于:采用神经网络模型获取手部关键点、采用检测相机获取手部关键点。
[0024]具体地,手部关键点的个数为21。
[0025]本专利技术实施例另一方面提供一种基于手部关键点和transformer的动态手势识别系统,包括:
[0026]手部关键点获取单元:获取T时间段内的手部图像序列,并获取各手部图像中的手部关键点,手部关键点的坐标使用(x
i
,y
i
,d
i
|i∈[1,K])表示,K为手部关键点的个数,x
i
表示手部图像中第i关键点的横坐标,y
i
表示手部图像中第i个关键点的纵坐标,d
i
表示手部图
像中第i个关键点到相机平面的距离;
[0027]关键点拼接单元:将T时间段内手部图像序列各手部图像中的手部关键点坐标拼接为三维矩阵,第一维度为关键点的坐标,第二维度T为时间维度,第三维度为关键点序号维度,拼接后的关键点输入矩阵维度为3*T*K;
[0028]模型预测单元:将拼接得到的三维矩阵输入预训练好的神经网络模型,依次进行近距关节局部运动特征提取、特征转置、远距关节全局运动特征提取、transformer注意力分配、softmax函数激活;
[0029]结果输出单元:经神经网络模型预测后,输出T时间段上的动态手势的识别结果。
[0030]本专利技术实施例再一方面提供一种电子设备,包括:存储器,处理器及存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于手部关键点和transformer的动态手势识别方法,其特征在于,包括如下步骤:获取T时间段内的手部图像序列,并获取各手部图像中的手部关键点,手部关键点的坐标使用(x
i
,y
i
,d
i
|i∈[1,K])表示,K为手部关键点的个数,x
i
表示手部图像中第i关键点的横坐标,y
i
表示手部图像中第i个关键点的纵坐标,d
i
表示手部图像中第i个关键点到相机平面的距离;将T时间段内手部图像序列各手部图像中的手部关键点坐标拼接为三维矩阵,第一维度为关键点的坐标,第二维度T为时间维度,第三维度为关键点序号维度,拼接后的关键点输入矩阵维度为3*T*K;将拼接得到的三维矩阵输入预训练好的神经网络模型,依次进行近距关节局部运动特征提取、特征转置、远距关节全局运动特征提取、transformer注意力分配、softmax函数激活;经神经网络模型预测后,输出T时间段上的动态手势的识别结果。2.根据权利要求1所述的一种基于手部关键点和transformer的动态手势识别方法,其特征在于,所述动态手势预训练模型具体为:基于手部关键点的动态手势预训练模型中的卷积层均为2D卷积,输入数据输入到模型后,经m层二维卷积进行特征提取,m为整数,得到邻近关节点之间的局部特征,然后将特征层的第一维度和第三维度进行转置,再经过n层二维卷积组成的全局特征模块进行特征提取,n为整数,得到远距离关节点之间的全局特征,将全局特征展开为一维向量,经过transformer模块进行注意力权重再分配,最后,经过全连接层和softmax激活函数之后得到手势类别预测的概率。3.根据权利要求1所述的一种基于手部关键点和transformer的动态手势识别方法,其特征在于,所述神经网络模型训练过程具体为:数据预处理:训练数据中,每个训练样本为时间段上的手部关键点坐标,首先对所有训练样本进行时间维度上的插值,将其缩放到同样长的时间段T;将手部关键点的横纵坐标以图像宽高进行归一化,将距离坐标相对识别的最大距离范围进行归一化;最后每个训练样本T时间段上的K个手部关键点坐标拼接为三维矩阵;训练数据增强:数据增强的方式包括但不限于:随机截取不同时间长度的数据并缩放到统一的时间长度、随机旋转关键点坐标、随机平移关键点坐标、随机选取一段帧的关键点坐标与另一段等长帧进行替换;模型训练:模型前向传播,将处理好的训练样本以batch的方式传入神经网络模型,经模型前向传播后,得到手势类别的预测结果,根据预测结果和真实标注计算模型预测损失;若模型预测损失满足停止条件,则停止训练,否则,进行反向传播,根据模型预测损失计算每层参数的梯度,并更新模型参数,进行下一次前向传播。...

【专利技术属性】
技术研发人员:徐绍凯王汉超贾宝芝何一凡
申请(专利权)人:厦门瑞为信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1