一种基于手势识别的计算机人机交互方法技术

技术编号:37207996 阅读:9 留言:0更新日期:2023-04-20 22:59
本发明专利技术一种基于手势识别的计算机人机交互方法,使用选择配置惯用手势信息;按照系统提示和自身习惯分别作出不同动作的手势,并拍摄记录每帧图像中每个手势的信息,开启计算机摄像头,获取视频流;对视频流中的每一帧图像进行亮度和对比度增强;获取增强后的图像中的手部关键点坐标;根据手部关键点坐标,对实时视频进行多尺度距离统一映射,消除因手部与摄像头的距离造成的图像中手部关键点之间的距离误差;根据多尺度距离统一映射后的手部关键点坐标对手势进行分类,每个可识别的分类手势对应人机交互的一种设定操作;根据分类结果进行相应操作。本发明专利技术具有轻量级、低门槛、多功能、高实时性的特点。高实时性的特点。高实时性的特点。

【技术实现步骤摘要】
一种基于手势识别的计算机人机交互方法


[0001]本专利技术属于人工智能
,特别涉及一种基于手势识别的计算机人机交互方法。

技术介绍

[0002]随着计算机技术的蓬勃发展,以鼠标、键盘等设备为代表的传统接触式设备交互已无法满足人们的需要。如何让机器对人体本身的行为动作直接响应,并返回相应的结果,将对未来人机交互的发展产生至关重要的意义。当前各类基于计算机视觉的非接触式人机交互系统主要依赖于深度学习算法,这些算法模型较为复杂,且对计算资源要求较高,难以在普通计算机甚至嵌入式设备上应用,不利于用户进行便捷、实时的人机交互,用户体验较差。
[0003]典型的现有技术方案例如:中国专利CN115032640A公开了一种手势识别方法和终端设备,具体步骤为:(1)终端设备控制第一ToF传感器进行检测;(2)在检测到目标对象时,终端设备控制多个ToF(飞行时间)传感器同步发射光信号;(3)终端设备通过光信号,获取目标对象在每个ToF传感器的飞行时间信息和深度信息;(4)标定信息用于表示每个ToF传感器在不同距离下的飞行时间与距离之间的映射关系;终端设备基于深度信息,进行手势识别。
[0004]专利CN109753876A公开了一种三维手势特征提取和三维系统的构建,其是通过手势识别模型得到手部关键点建立二维坐标系后使用每三个向量表示一根手指,得到各个手指的向量数据后通过手势分类算法和大量预设样本进行对比,得到当前手势最可能所属的手势从而完成手势分类。
[0005]专利CN111414837A公开了一种手势识别方法、装置、计算机设备及存储介质,其手势识别方法为通过手势识别模型得到手部关键点后,根据关键点信息得到手部倾斜角度,矫正角度后根据比较手部关节关键点的纵坐标来简单定义手指的张合状态,从而进一步进行手势分类。
[0006]在借助人体其他部位进行人机交互方面,中国专利CN208421769U公开了一种基于眼电的人机交互系统,其具体步骤包括:(1)眼睛框架通过信号采集电极实现微弱眼电信号的感应(2)眼电信号通过屏蔽线缆输入到眼电信号处理电路,放大滤波并转化为数字信号并经过主控单元转换为控制信号。(3)受控设备通过通信单元接收到该控制信号,转换为受控设备中光标移动的方位和距离和光标点击动作。
[0007]当前大部分隔空操作计算机的方法采用外接传感器或高精度的深度镜头等特定设备或辅助装置读取身体数据,再通过复杂信号转换将数据转换为计算机可识别的控制信号从而进行人机交互,这些方法大都有较高的硬件门槛。如上述专利CN115032640A,该解决方案对硬件有硬性要求,即成组的ToF传感器或独立的ToF深度摄像头,在满足硬件条件下可以有效的提高手势识别的使用场景,但在不满足硬件要求的情况下则无法有效工作;上述专利CN208421769U实现了一个操作简单的受控设备的人机交互行为,但是同样需要特定
外接设备,使用和学习成本较高,仅在虚拟操作鼠标方面表现良好,无法有效控制键盘等外设。与上述专利CN109753876A相比,其将三维手势关键点映射到二维坐标系并使用向量表示,丢失了一个维度的空间信息,会导致最终的手势分类结果会因为倾斜或手部方向等因素而不准确;且其需要经过两次机器学习模型分别识别手势信息、进行手势分类,才可计算出当前手势的具体分类,计算量较大,在硬件方面有较高的要求。与上述专利CN111414837A相比,因为其需要精确测量出手部正面的横向倾斜角度,所以需要使用者时刻手部正面对准摄像头,这增加了使用者的使用成本和使用难度,较大的限制带来了不好的使用体验。校正手部倾斜得到可识别图片后,该方法仅通过纵坐标比较来进行手指张合状态的判断,这无疑是有较大缺陷的,手部的倾斜有横向和竖向,在第一步校正竖向的倾斜后该方法并没有考虑竖向的倾斜就粗略的采用对比纵坐标的方法来判断手指张合,忽略了手势识别分类场景中无处不在的空间因素,最终导致使用起来有较大限制且识别率大打折扣。且仅对比纵坐标会对操作手势有更大的限制,无法支持复杂的手势,仅可支持其说明书中提到的少数手势,难以进行复杂的实时人机交互操作。
[0008]另有其他人机交互解决方案仅解决了基础的鼠标操作问题,难以满足人机交互时复杂工作的需求,如键盘控制、音量控制、亮度控制等等。

技术实现思路

[0009]为了克服上述现有技术的缺点,解决如上所述的现有非接触式人机交互解决方案所存在的较高硬件门槛、实时性差、较大实现及学习成本和功能较少、用户体验不佳、难以满足使用需求的问题中的至少之一,本专利技术的目的在于提供一种基于手势识别的计算机人机交互方法,并至少具有轻量级、低门槛、多功能、高实时性的特点之一。
[0010]为了实现上述目的,本专利技术采用的技术方案是:
[0011]一种基于手势识别的计算机人机交互方法,包括以下步骤:
[0012]步骤(1),首次使用选择配置惯用手势信息;
[0013]按照系统提示和自身习惯分别作出不同动作的手势,并拍摄记录每帧图像中每个手势的信息,用作后续拟合函数和手势分类;
[0014]步骤(2),开启计算机摄像头,获取视频流;
[0015]步骤(3),对所述视频流中的每一帧图像进行亮度和对比度增强;
[0016]步骤(4),获取增强后的图像中的手部关键点坐标;
[0017]步骤(5),根据所述手部关键点坐标,对实时视频进行多尺度距离统一映射,消除因手部与摄像头的距离造成的图像中手部关键点之间的距离误差;
[0018]步骤(6),根据多尺度距离统一映射后的手部关键点坐标对手势进行分类,每个可识别的分类手势对应人机交互的一种设定操作;
[0019]步骤(7),根据分类结果进行相应操作。
[0020]与上述专利CN115032640A相比,本专利技术无需使用成组的ToF传感器或独立的ToF深度摄像头,而是通过手部关键点以及设计多尺度下距离映射的算法实现了普通摄像头或普通视频下的手势识别方法,大大降低了人机交互的硬件门槛;而对比上述专利CN208421769U,本专利技术通过手势动作识别替代眼部运动进行人机交互,不需要特定眼镜框设备,降低了学习和使用成本的,同时扩展了其无法有效支持的键盘等外设控制的人机交
互功能。
[0021]与上述专利CN109753876A相比,本专利技术通过多尺度下手部关键点距离的统一映射,将手部关键点信息在三维下进行识别分类,保留了更多的深度空间信息使得结果更加准确,且只需要经过一次神经网络模型进行手部关键点识别,后续通过关键点间空间关系的运算而无需神经网络模型即可完成手势的识别与分类,大大减少了计算量从而降低对使用者的硬件要求和使用成本。
[0022]与上述专利CN111414837A相比,本专利技术对手部面向摄像头的方向没有限制,使用起来更加方便,学习成本小,并且通过三维坐标对手指张合状态进行判断,在手部有竖向或横向倾斜是仍然可以有效的对手势进行分类,且可支持识别分类的手势更多,本方法鲁棒性更强,实用性更广。
[0023]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于手势识别的计算机人机交互方法,其特征在于,包括以下步骤:步骤(1),首次使用选择配置惯用手势信息;按照系统提示和自身习惯分别作出不同动作的手势,并拍摄记录每帧图像中每个手势的信息,用作后续拟合函数和手势分类;步骤(2),开启计算机摄像头,获取视频流;步骤(3),对所述视频流中的每一帧图像进行亮度和对比度增强;步骤(4),获取增强后的图像中的手部关键点坐标;步骤(5),根据所述手部关键点坐标,对实时视频进行多尺度距离统一映射,消除因手部与摄像头的距离造成的图像中手部关键点之间的距离误差;步骤(6),根据多尺度距离统一映射后的手部关键点坐标对手势进行分类,每个可识别的分类手势对应人机交互的一种设定操作;步骤(7),根据分类结果进行相应操作。2.根据权利要求1所述基于手势识别的计算机人机交互方法,其特征在于,所述步骤(3),对所述视频流中的每一帧图像通过三通道值进行亮度检测;并针对亮度提升的需求程度设置第一阈值120和第二阈值80,若低于第一阈值120,则判定亮度较低,对图片进行γ校正以增强图像亮度;若低于第二阈值80,则判定亮度过低,采用Retinex算法进行色彩还原。3.根据权利要求1所述基于手势识别的计算机人机交互方法,其特征在于,所述步骤(4),利用MediaPipe框架获得21个手部关键点坐标,过程如下:步骤4a),通过手掌检测模型扫描全图,若存在手部,则标记手掌所处位置的矩形边界框;在实时追踪的场景中,当前帧的手部定位框从上一帧的手部关键点坐标预测中推导得到;步骤4b),将手部位置矩形边界框切割成单独的图片,并输入到手部关键点检测模型中,手部关键点检测模型为一个回归模型,首先将图片卷积为256*256的RGB图片,然后将其输入到特征提取神经网络,得到具有21个手部关键点坐标信息。4.根据权利要求1所述基于手势识别的计算机人机交互方法,其特征在于,所述步骤(5),先实时记录手部与摄像头的距离d,并根据五指根部的坐标取均值计算出手掌大致中心位置坐标s=(x,y),若d、s与上一帧比较均发生突变,则认为是误识别为非人机交互操作人的手部,放弃识别该手部并且重新扫描识别当前视频中的手部,若在150帧内在原距离与坐标附近检测到手部则认为重新识别到人机交互操作人的手部;其中d与s的突变判定为:d与上一帧比较差值大于60;s与上一帧的s

的L2范数计算结果||distance||2大于视频整体对角线长度的40%。5.根据权利要求1或4所述基于手势识别的计算机人机交互方法,其特征在于,所述步骤(5),对实时视频进行多尺度距离统一映射的过程如下:步骤5a),基于手部关键点,固定手部距摄像头一定距离,由以下公式计算摄像头焦距:其中W为手部的真实长度,P为图像中手部的像素长度,D为手部与摄像头的真实距离,F为摄像头焦距;通过得到的焦距实时计算手部与摄像头的真实距离,实现实时跟踪锁定使用者的手部;
步骤5b),配置记录一组手部距摄像头距离和图像中手部两固定点位的像素长度,基于最小二乘法进行曲线拟合,得到一元二次方程如下:最小二乘法进行曲线拟合,得到一元二次方程如下:配置惯用手势信息时记录的一组手部距摄像头距离数据表示为x0~x
n
,记录的一组图像中手部两固定点位的像素长度数据表示为y0~y
n
,n是组数,x
i
是第i个图像中手部距摄像头距离数据,y
i
是第i个图像中手部两固定点位的像素长度数据,θ0、θ1、θ2是一元二次方程中的系数;f(x
i
)是基于x
i
预测的手部图像中手部两固定点位的像素长度,即,通过x
i
对y
i
进行预测,期望预测结果f(x
i
)无限接近于y
i
,S为预测值f(x
i
)与记录的真实值y
i
的误差平方和;在实时检测分类手部姿态时,通过需要判定的两点之间的距离与所记录固定点位按比例换算后代入如下方程:其中,是配置第i个惯用手势信息时图像中手部两固定点位的多帧平均像素长度,是配置第i个惯用手势信息时手势判定两关键点位的多帧平均像素长度;根据当前测量距离的结合配置信息计算出可能出现的偏差k
i
,并计算出可判定为操作手势的阈值threshold
i
:threshold
i
=(θ0+θ1*d+θ2*d2+k
i
)*ratio
i
其中,d为当前帧手部距摄像头的距离,x
j
为满足d*0.9<x
i
<d*1.1的配置信息中的手部距摄像头距离,y
j
是x
j
对应的手部两固定点位的像素长度,m是满足条件的x
j
的数量;当本帧的手势判定两关键点位距离d
i
小于阈值threshold
i
时,判定为进行操作。6.根据权利要求5所述基于手势识别的计算机人机交互方法,其特征在于,所述步骤(6),过程如下:步骤6a),根据手部关键点坐标信息,判定手指的张合状态,以此组合分类;步骤6b),若判定大拇指张开、食指张开且其余三指闭合,则计算食指指尖与大拇指指尖的距离d

,若满足:则判定手势为预设定手势(1),即单击预备;其中distance
hand
为手部与摄像头间距离;f()为所述拟合的函数曲线;d
click
为配置中
的设定手势(2)数据;d
standard
为配置中的标尺距离,取值为设定配置时多组手势的食指指根与中指指根的距离均值;ρ

为防止误差的调整参数;如果无提前配置信息,则若d

>20,判定手势为预设定手势(1);步骤6c),在手势(1)的基础上,当d

变化至满足:则判定手势为预设定手势(2),即单击;若并无提前配置信息,则...

【专利技术属性】
技术研发人员:李宇楠张义豪苗启广马卓奇赵博程卢子祥宋建锋刘向增
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1