一种基于机器视觉的实时手势识别方法及手势识别系统技术方案

技术编号:26377764 阅读:12 留言:0更新日期:2020-11-19 23:46
本发明专利技术公开了一种基于机器视觉的实时手势识别方法及手势识别系统,根据人体和手部的特点,提出了基于人体关节点识别实现手部定位、基于手部定位实现手部关节点识别、基于手部关节点识别实现手势识别的“人体关节点识别、手部定位、手部关节点识别、手势识别”四个步骤的手势识别思路,针对人体关节识别、手部关节识别、手势识别的任务特点设计了神经网络结构,同时在手部关节点识别实现手势识别环节中,设计了一种手势训练数据生成方式并通过迁移学习实现了手势识别,最后通过对网络的轻量化设计和系统的数据传输结构的设计使系统能够达到实时的手势和手部关节识别。

【技术实现步骤摘要】
一种基于机器视觉的实时手势识别方法及手势识别系统
本专利技术涉及人工智能与计算机图形学
,具体涉及一种基于机器视觉的实时手势识别方法及手势识别系统。
技术介绍
手势,是一种相当自然的表达方式,与需要物理接触才能实现交互的触摸相比,手势允许非接触式的交互,且可以表达丰富的语义和诸如情感和态度等语境信息。研究表明,语言和手势在脑内共享同一套系统,并且手势的产生直接与记忆相关联。由于手势是交流的自然媒介,因此非常适合进行人机交互。与传统的键盘、鼠标、触摸屏等需要使用者适应机器输入输出模式的交互方式相比,由计算机适应使用者的交互方式不仅更自然,对使用者更友好,而且还可以实现以往难以实现的操作,对三维空间及物体的操作。所以,其意义包括但不限于以下几个方面:(1)对于失语人士来说,手势识别能帮助这些失语人士和计算机进行交流;(2)控制机器人,例如控制机器人在三维空间的动作。(3)某些场景(如VR),手势是相对有效的表达方式。由于上述优点,手势识别一直是一个热门研究方向,按输入设被可以将手势识别方式分为基于接触式设备和基于机器视觉两大类,基于佩戴式设备的方法手势采集较为准确,但需要佩戴,丧失了手势识别带来的方便性,设备专业且昂贵,难以普及。基于机器视觉的方式又分为基于深度图的方式和基于二维图像的方式,其中基于深度图的方式需要特质的设备(如Kinect摄像头)对深度图像进行采集。基于二维图像的方式只需要普通摄像头作为采集设备,非常易得,但算法开发极其困难,需要克服两个问题:手部定位需要克服自身相似性和背景混淆问题,手势的识别需要克服手部结构复杂和分辨率低、自身遮挡严重的问题。
技术实现思路
本专利技术目的:本专利技术提供了一种基于机器视觉的实时手势识别方法及手势识别系统,使用基于机器学习的关节点识别提取算法解决基于二维图像的手势识别算法实现困难的问题,在获得手部位置之后,检测手部关节点,再使用手部关节点信息解决手部形态复杂、手部分辨率低导致的手势识别困难问题。技术方案:一种基于机器视觉的实时手势识别方法,包括以下步骤:S100:获取原始彩色图片Iorigin,并为其创建副本Tinput;S200:将副本Tinput输入至人体关节点提取网络,得到特征图FMbody_keypoint;S300:从特征图FMbody_keypoint上得到人体关节点坐标,利用人体关节点坐标定位手部位置,根据手部位置裁剪原始彩色图片Iorigin得到手部输入图片Thand;S400:将手部输入图片Thand输入至已训练好的手部关节点识别神经网络中,得到特征图FMhand_keypoint和特征图FMhand,从FMhand_keypoint中计算得到手部关节点坐标;并将特征图FMhand输入已训练好的手势识别网络,得到手势分类结果;S500:将手部关节点坐标、手势分类结果合并成可视化结果并返回结果。进一步的,所述S200中的人体关节点提取网络由一层卷积网络层、四层残差网络层、两层反卷积层和一层卷积层串联形成。进一步的,所述S400中的已训练好的手部关节点识别神经网络的训练步骤包括:构建手部关节点识别神经网络;输入手部图片至已构建好的手部关节点识别神经网络中,得到特征图FMhand_keypoint,从FMhand_keypoint中计算得到手部关节点坐标;对FMhand_keypoint根据损失函数计算损失值,最小化损失函数对已构建好的手部关节点识别神经网络参数进行迭代训练,得到已训练好的手部关节点识别神经网络。进一步的,所述的对特征图FMhand_keypoint根据损失函数计算损失值中的损失函数计算方式为:构建正确标注特征图;计算特征图FMhand_keypoint与正确标注特征图之间的L2正则化损失;其中,所述正确标注特征图的构建步骤为:设手部每个关节点对应坐标为(ui,vi),其中,i为关节点序号,对每个关节点生成二维特征图,第i个二维特征图上每点的值为:其中,u,v为关节点在特征图上对应坐标,σ参数控制关节点在特征图上标注的形态,G(xi,yi)为在第i张正确标注特征图上坐标为(x,y)的点的值;所述的L2正则化损失的计算方式为:其中,Yi为正确标注特征图上第i个点的目标值,f(xi)为神经网络输出的特征图上第i个点的值,S为总损失。进一步的,所述已构建好的手部关节点识别神经网络包括:由一层卷积层和四层残差神经网络层级联而成的特征提取网络;由四层反卷积层和一层卷积层构成的特征图生成网络;三个长连接层,其中,第一个长连接层将第一层残差神经网络层输出的特征图与第三层反卷积层输出的特征图合并为特征图输入第四层反卷积层;第二个长连接层将第二层残差神经网络层输出的特征图与第二层反卷积层输出的特征图合并为特征图输入第三层反卷积层;第三个长连接层将第三层残差神经网络层输出特征图与第一层反卷积层输出特征图合并为特征图输入第二层反卷积层中;所述已构建好的手部关节点识别神经网络,以手部输入图片Thand为输入,以最后一层卷积层输出的特征图FMhand_keypoint和第四层残差网络层输出的特征图FMhand为输出。进一步的,所述S400中的已训练好的手势识别网络的训练步骤包括:S410:构建手势识别网络;S420:将输入图像转换为HSV色彩空间,并从中分离得到H分量,从H分量中以皮肤颜色为参考,将H分量中分离像素值在指定范围内的区域作为前景遮罩Maskhand;S430:对前景遮罩Maskhand计算连通区域,并将非最大连通区域值全部置为0,得到新生成的遮罩值,将新生成的遮罩值取反,再次计算连通区域,将非最大连通区域值全部置为0,得到新生成的遮罩值,将新生成的遮罩值取反,得到新生成遮罩,采用该新生成遮罩替换原前景遮罩Maskhand;S440:从背景图库中随机选择一张不包含人体的背景图片,并对该背景图片缩放得到背景图Tbackground;S450:根据S430最终得到的前景遮罩,将副本Tinput中的前景区域与背景图Tbackground合成为一张图片,对合成图片进行数据增强预处理得到手部输入图片Thand;S460:将手部输入图片Thand输入至已训练好的手部关节点识别神经网络中,得到特征图FMhand_keypoint和特征图FMhand,从FMhand_keypoint中计算得到手部关节点坐标;将特征图FMhand输入已构建好的手势识别网络中,得到手势分类结果,所述手势分类结果为手部姿势为每种可能的手势的概率[x1,x2,...,xp],其中xi为手势识别分支网络预测输入为第i种手势的概率;S470:对手势分类结果根据损失函数计算损失值,并根据反向传播算法和设定学习率,最小化损失函数对已构建好的手势识别网络参数进行迭代训练,得到已训练的手势识别网络。进一步的,所述S4本文档来自技高网
...

【技术保护点】
1.一种基于机器视觉的实时手势识别方法,其特征在于:包括以下步骤:/nS100:获取原始彩色图片I

【技术特征摘要】
1.一种基于机器视觉的实时手势识别方法,其特征在于:包括以下步骤:
S100:获取原始彩色图片Iorigin,并为其创建副本Tinput;
S200:将副本Tinput输入至人体关节点提取网络,得到特征图FMbody_keypoint;
S300:从特征图FMbody_keypoint上得到人体关节点坐标,利用人体关节点坐标定位手部位置,根据手部位置裁剪原始彩色图片Iorigin得到手部输入图片Thand;
S400:将手部输入图片Thand输入至已训练好的手部关节点识别神经网络中,得到特征图FMhand_keypoint和特征图FMhand,从FMhand_keypoint中计算得到手部关节点坐标;并将特征图FMhand输入已训练好的手势识别网络,得到手势分类结果;
S500:将手部关节点坐标、手势分类结果合并成可视化结果并返回结果。


2.根据权利要求1所述的一种基于机器视觉的实时手势识别方法,其特征在于:所述S200中的人体关节点提取网络由一层卷积网络层、四层残差网络层、两层反卷积层和一层卷积层串联形成。


3.根据权利要求1所述的一种基于机器视觉的实时手势识别方法,其特征在于:所述S400中的已训练好的手部关节点识别神经网络的训练步骤包括:
构建手部关节点识别神经网络;
输入手部图片至已构建好的手部关节点识别神经网络中,得到特征图FMhand_keypoint,从FMhand_keypoint中计算得到手部关节点坐标;
对FMhand_keypoint根据损失函数计算损失值,最小化损失函数对已构建好的手部关节点识别神经网络参数进行迭代训练,得到已训练好的手部关节点识别神经网络。


4.根据权利要求3所述的一种基于机器视觉的实时手势识别方法,其特征在于:所述的对特征图FMhand_keypoint根据损失函数计算损失值中的损失函数计算方式为:
构建正确标注特征图;
计算特征图FMhand_keypoint与正确标注特征图之间的L2正则化损失;
其中,所述正确标注特征图的构建步骤为:
设手部每个关节点对应坐标为(ui,vi),其中,i为关节点序号,对每个关节点生成二维特征图,第i个二维特征图上每点的值为:



其中,u,v为关节点在特征图上对应坐标,σ参数控制关节点在特征图上标注的形态,G(xi,yi)为在第i张正确标注特征图上坐标为(x,y)的点的值;
所述的L2正则化损失的计算方式为:



其中,Yi为正确标注特征图上第i个点的目标值,f(xi)为神经网络输出的特征图上第i个点的值,S为总损失。


5.根据权利要求3所述的一种基于机器视觉的实时手势识别方法,其特征在于:所述已构建好的手部关节点识别神经网络包括:
由一层卷积层和四层残差神经网络层级联而成的特征提取网络;
由四层反卷积层和一层卷积层构成的特征图生成网络;
三个长连接层,其中,第一个长连接层将第一层残差神经网络层输出的特征图与第三层反卷积层输出的特征图合并为特征图输入第四层反卷积层;第二个长连接层将第二层残差神经网络层输出的特征图与第二层反卷积层输出的特征图合并为特征图输入第三层反卷积层;第三个长连接层将第三层残差神经网络层输出特征图与第一层反卷积层输出特征图合并为特征图输入第二层反卷积层中;
所述已构建好的手部关节点识别神经网络,以手部输入图片Thand为输入,以最后一层卷积层输出的特征图FMhand_keypoint和第四层残差网络层输出的特征图FMhand为输出。


6.根据权利要求1所述的一种基于机器视觉的实时手势识别方法,其特征在于:所述S400中的已训练好的手势识别网络的训练步骤包括:
S410:构建手势识别网络;
S420:将输入图像转换为HSV色彩...

【专利技术属性】
技术研发人员:戴建邦徐小龙肖甫孙力娟董健王林
申请(专利权)人:南京邮电大学南京优倍电气有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1