肢体骨架和头手部件轮廓融合的手势识别方法技术

技术编号:26971442 阅读:33 留言:0更新日期:2021-01-06 00:02
肢体骨架和头手部件轮廓融合的手势识别方法属于计算机视觉领域。本发明专利技术提出了使用人体骨架姿态特征结合手势部件轮廓特征描述人体手势。本发明专利技术使用轮廓检测网络识别出的手势部件类别表征人体局部信息,使得人体模型结构更加完整。本发明专利技术剪裁CPM网络构造人体骨架关键节点识别网络KEN,使其具有足够的实时性,在实际测试中可以达到每秒15帧的识别速度,同时具有较高的识别精度,本发明专利技术设计并实现了人体动态手势识别机GRSCTFF,使其可以在多种复杂场景下较为准确的识别人体动态手势的类别,解决了基于计算机视觉的人体手势识别方法易受光照、背景和手势动态变化影响等问题;具有参数量较少,运算速度快,识别精度高的特点。

【技术实现步骤摘要】
肢体骨架和头手部件轮廓融合的手势识别方法
本专利技术中设计肢体骨架和头手部件轮廓融合的手势识别方法,属于电子信息领域,是一种基于计算机视觉、可应用于人机交互的人体手势识别方法。
技术介绍
手势是人与人之间非语言交流的最重要方式。由于手势具有自然、形式多样等特征,其识别是人机交互研究的一个重要领域。依据手势识别设备是否与身体接触,其识别方法可分为接触式手势识别和基于视觉的手势识别。其中,接触式手势识别使用的设备(如数据手套)复杂、价格高,需用户熟悉相应设备后才能进行手势识别,限制了手势的自然表达,不利于自然交互。基于视觉的手势识别无需高昂的设备,且具有操作方便、自然等优点,更符合自然人机交互的大趋势,有广泛的应用前景。基于计算机视觉的方法易于实现,但其识别准确率易受背景、光照或人体手势运动变化等因素影响。近年来深度学习算法在图像识别、自然语言处理等领域应用取得优异效果,为人体手势识别提供了新的实现方法。针对基于计算机视觉的人体手势识别中存在的问题,本专利技术引入基于深度学习的卷积姿势机(ConvolutionalPoseMachines,本文档来自技高网...

【技术保护点】
1.肢体骨架和头手部件轮廓融合的手势识别方法,其特征在于:/n(1)在分析人体手势空间上下文特征的基础上,建立基于人体骨架和部件轮廓特征的动态手势模型;/n在采用手势交互时,建立融合人体骨架、手和头部件轮廓特征的通用手势模型;/n(2)采用卷积姿势机和单发多框检测器技术构造深度神经网络进行人体手势骨架和部件轮廓特征提取,并将其组合为人体空间上下文特征;/n手势空间上下文信息由手势骨架构型及手势部件轮廓构成;手势骨架构型中包括人体骨架的相对长度特征以及相对于重力加速度方向的角度特征,构造了包含3个阶段的人体骨架关键节点提取网络KEN:/n设Z为图像中人体骨架所有位置坐标(i,j)的集合;在图像中...

【技术特征摘要】
1.肢体骨架和头手部件轮廓融合的手势识别方法,其特征在于:
(1)在分析人体手势空间上下文特征的基础上,建立基于人体骨架和部件轮廓特征的动态手势模型;
在采用手势交互时,建立融合人体骨架、手和头部件轮廓特征的通用手势模型;
(2)采用卷积姿势机和单发多框检测器技术构造深度神经网络进行人体手势骨架和部件轮廓特征提取,并将其组合为人体空间上下文特征;
手势空间上下文信息由手势骨架构型及手势部件轮廓构成;手势骨架构型中包括人体骨架的相对长度特征以及相对于重力加速度方向的角度特征,构造了包含3个阶段的人体骨架关键节点提取网络KEN:
设Z为图像中人体骨架所有位置坐标(i,j)的集合;在图像中人体骨架每个关键节点的位置用Yk表示,人体骨架总共包含14个关键节点,因此Yk∈{Y1,…,Y14};KEN由一系列多类预测器gt(·)组成,它们被训练用来预测同一图像在不同感受野下每个关键节点的位置;具体而言,gt(·)是一个分类器,下标t∈{1,…,T}表示分类的阶段,每个阶段的感受野不同,其中T为分类器最后一个阶段;gt(·)预测该感受野下图像中点z属于关键节点Yk的置信度,其中z∈Z,用b(Yk=z)表示置信度值,则bT(Yk=z)表示当前处于T阶段时z坐标点的关键节点置信度;这些gt(·)具有相同目标函数值即真实置信度;当t>1时,gt(·)是从图像位置z提取的特征值xz和每个关键节点Yk在t-1时刻置信度的预测值的拼接函数;经过T个阶段,置信度最高的位置即为关键节点位置,argmax表示关键节点Yk置信度取最大值时获取坐标点z的函数;即:
Yk=argmax(bT(Yk=z)),k∈{1…14}(1)
基于公式(1)可计算出人体骨架中的每个关键节点的位置,建立初步的人体骨架形态;
以人体头部高度为参考点,引入函数φ2(·)表示人体骨架中所含骨架段的相对可见长度的向量拼接,即公式(2);



其中,11表示人体骨架模型中总共包含11段人体肢体骨架,vi为人体手势的第i个骨架,Vhead是代表头顶至脖子中心的头部骨架矢量,‖·‖表示矢量模,即头部骨架的长度;表示向量拼接;该公式以Vhead为参考,通过每个肢体骨架模长度除以Vhead的模长度计算每个骨架相对于头部骨架的可见长度;
此外,由于重力加速度的方向始终垂直于地面,为了描述人体骨架中每个骨架段相对于地面的方向,引入了骨架与重力加速度的夹角;并使用φ3(·)表示每个骨架与重力方向夹角的向量拼接,即公式(3);



采用骨架与重力加速度方向的三角函数值来描述骨架的角度特征;公式(3)中,d表示一个单位矢量,方向与重力方向相同;计算了每个骨架矢量与重力方向夹角的cos值,计算其sin值;通过上述步骤提取了人体骨架包含的2种空间上下文特征,即骨架的相对可见长度Vl和骨架与重力方向的夹角Va;这里用bone表示人体手势骨架的形态特征,则有bone=Vl∪Va;
构建手势部件轮廓特征提取网络GPEN:
设S为GPEN从图像中识别出的部件轮廓特征值(L,C)的集合,其中L表示部件轮廓预测框的位置信息,由预测框中心点的坐标、预测框宽度和高度构成;C表示将预测框中包含的对象轮廓预测为不同部件轮廓类别的置信度集合;ci表示部件轮廓属于第i类部件轮廓的置信度,即ci∈C;
对于每个部件轮廓p有sp∈S,其位置信息为lp,类别置信度集合为Cp;假设Cp中置信度值最大的部件轮廓对应类别为m,M为手势部件轮廓类别的全集,则将p的类别设定为m,其中m∈M,则置信度值为cm,其中cm∈Cp,此时sp的特征值为(lm,cm);以此类推,对于图像中所有部件轮廓的特征值集合S为(Lm,Cm);根据预设的置信度阈值cth,置信度阈值cth设置为0.5,低于该值则不被视为部件轮廓,从S中去除掉cm低于cth的部件轮廓,同时将S中的元素按照置信度值降序排序,它们构成了最终的部件轮廓集合G;重复以下3个步骤:
1)取G中置信度值cm最高的部件,分别与G中的其他部件按照公式(4)进行计算,其中J(lm,lother)代表该部件与其他部件轮廓的重叠度,lm为该部件轮廓的位置特征,lother为其他部件轮廓的位置特征;



2)识别同一部件轮廓的重叠度阈值为Jth,设置为0.5,即重叠的覆盖率超过50%时则视为同一部件轮廓,所以当J(lm,lother)高于Jth时,将lother对应的部件特征sother从G中删除;
3)当对排序后的部件集合G完成以上操作后,将lm对应的部件特征sm从G中删除,并输出sm对应的(lm,cm)值;m所属类别确定了该部件轮廓属于左手轮廓特征Sleft(或为右手轮廓特征Sright,或为头部轮廓特征Shead);
重复上述1)-3)步,直至集合G为空,最终得到左手部件轮廓特征Sleft、右手轮廓部件特征Sright、头部轮廓部件特征Shead;在此基础上,通过公式(5)将上述手势人体骨架特征bone与左手部件轮廓特征Sleft、右手轮廓部件特征Sright、头部轮廓部件特征Shead拼接构成了手势的空间上下文特征F;即:



(3)引入长短时记忆网络提取动态人体手势中骨架、左右手和头部轮廓的时序特征,融合人体空间上下文特征,进而分类识别手势,完成GRSCTFF的搭建;
在动态手势识别中,手势类型不仅与当前手势特征有关,还与之前的手势特征有关;fcls为手势分类函数,classification表示人体手势的类别,F0表示0时刻的人体空间上下文特征,F1表示1时刻的人体空间上下文特征,Fτ,表示τ时刻的人体空间上下文特征,所以当前时间的手势类型依据公式(6)求得;
classification=fcls(F0,F1,…,Fτ)(6)


2.根据权利要求1所述的方法,其特征在于:
人体的骨架抽象为14个关键节点及其连线,这些关键节点的坐标集合为Y,Y1表示1号人体关键节点,其余序号的人体关键节点以此类推,Y=(Y1,Y2,…,Y14);V表示Y中相邻关键节点间存在的连接依赖关系集合,即人体肢体骨架,其由头部骨架Vhead、上身骨架Vupper和下身骨架Vlower3部分构成;即:



v为其中的一条关键节点连接(即v∈V),其起始关键节点和终止关键节点分别为Ya和Yb,则表示了人体骨架所含的一条骨架矢量;与关键节点分类方法类似,人体的手势部件主要包括头部和手部,其中手部包括左手和右手,通过手势部件轮廓融合人体骨架姿态完整地对人体手势模型进行描述;
(2)空间上下文特征提取模块的设计实现,其具体方式为采用卷积姿势机和单发多框检测器技术构造深度神经网络进行人体手势骨架和部件轮廓特征提取,并将其组合为人体空间上下文特征;
空间上下文特征提取模块包括两个部分,其中一个部分为人体骨架关键节点识别网络KEN的设计与实现,另外一个部分为手势部件轮廓特征提取网络GPEN的设计与实现,如下所示:
1)人体骨架关键节点识别网络KEN的设计与实现:
在监测人体活动时输出15个热点图;其中,14个热点图对应人体相应的关键节点,另外1个为背景热点图;在输出端补充了人体骨架关键节点间的关联关系;同时,为了支持手势实时识别,裁剪了CPM深度,构造了包含3个阶段...

【专利技术属性】
技术研发人员:何坚廖俊杰张丞余立
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1