In the present invention, a real time 3D gesture estimation method based on a single RGB frame is proposed. The main contents include the 2D joint estimation and the 2D joint to the 3D position. The process is that the color image is used as the input, then the hand detector is used to locate the hand and produce a likelihood estimation value and the coordinate of the hand boundary frame. The operation pretraining network is used to estimate the two-dimensional position of the hand joint and produce a hot map of the position of the hand 2D joint. Finally, the nonlinear square minimization is used to fit the 3D model of the hand to the estimated 2D joint position and restore the gesture of the 3D hand. The invention solves the effect of fast movement, self occlusion, or occlusion from other objects in the process of operation, and does not need initialization, realizes high quality detection rate, and can also be extended to other human 3D posture detection applications.
【技术实现步骤摘要】
一种基于单一RGB帧的实时三维手势估计方法
本专利技术涉及手势估计领域,尤其是涉及了一种基于单一RGB帧的实时三维手势估计方法。
技术介绍
人手作为人体的重要部位之一,对人们在现实生活、工作和学习等各个方面都很重要。人手不仅仅在执行方面能够灵活地完成操作任务,在人际交流方面也起着辅助作用,如挥手、敬礼、邀请、牵手等动作,还可以作为感官来达到认知目的。基于自然人手的交互界面摒弃传统的键盘、鼠标等交互设备,转而利用摄像头、数据手套等设备作为交互工具,用自由灵活的人手进行控制,达到了以人为中心的现代人机交互的要求。手势的识别和估计作为虚拟现实中人与计算机互动的主要辅助手段,可以帮助人们在购物中完成试衣、下单、购买等任务;在智能家居领域,人们可以通过在摄像头前做出手势即可控制家具,也可以控制视频的快进、快退、暂停和播放;在游戏领域,根据手势完成各种动作,将大大提高用户的体验效果。除此之外,提高手势的识别和估计效率,将有利于手语识别的发展,使正常人与聋哑人的沟通更加便捷准确。然而,传统的手势估计方法容易受到手部快速移动、自遮挡的影响或在操作过程中受到来自其他物体遮挡的影响,检测敏感性和准确性都不高。本专利技术提出了一种基于单一RGB帧的实时三维手势估计方法,先以彩色图像作为输入,然后使用手部检测器定位手部并产生一个似然估计值和手部边界框的坐标,接着运行预训练网络来估计手关节的二维位置,并产生手部2D关节位置的热点图,最后非线性平方最小化将手部的3D模型拟合到估计的2D关节位置,恢复3D手部姿态。本专利技术解决了手部快速移动、自遮挡或在操作过程中受到来自其他物体遮挡的 ...
【技术保护点】
一种基于单一RGB帧的实时三维手势估计方法,其特征在于,主要包括2D关节估计(一);从2D关节到3D姿势(二)。
【技术特征摘要】
1.一种基于单一RGB帧的实时三维手势估计方法,其特征在于,主要包括2D关节估计(一);从2D关节到3D姿势(二)。2.基于权利要求书1所述的实时三维手势估计方法,其特征在于,首先以彩色图像作为输入,使用最先进的探测器来定位手部;对于输入图像中的每一只手,手部检测器产生一个似然估计值和手部边界框的坐标,运行OpenPose(肢体语言识别系统)的预训练网络来估计手关节的二维位置,产生手部2D关节位置的热点图;最后,非线性平方最小化将手部的3D模型拟合到估计的2D关节位置,恢复3D手部姿态。3.基于权利要求书2所述的手部检测器,其特征在于,检测器原形是完全卷积结构,包含19个卷积层,并且最大的合并操作将288×288的输入图像缩小为7×7的分数图;通过使用批量标准化来加快和稳定训练过程,接着改进原检测器,除了双手之外,关于身体部位的额外信息可以作为区分左手和右手的简单方法,并为观察到的手部所进行的任务提供线索;同时创建一个数据集来训练检测器。4.基于权利要求书3所述的数据集,其特征在于,数据集包含12个不同室内环境的项目,使用OpenPose自动注释帧;在训练网络之前,将数据集分成约12000帧的训练集和约1000帧的验证集;网络训练了20000次迭代;重新训练的网络在验证集上的检测率为92.8%,误报率为1.7%;给定一个输入图像,最终的检测器可以在恒定的时间内检测两个指定的类以及边界框。5.基于权利要求书1所述的2D关节估计(一),其特征在于,根据检测到的边界框裁剪图像,将其馈送到2D关键点检测器;由于关键点检测器仅在左手进行训练,通过沿着Y轴镜像图像来处理右手;检测器的输出是21个热点图,对应于20个手关键点(每个手指四个)和一个手腕点的估计值。6.基于权利要求书1所述的从2D关节到3D姿势(二),其特征在于,包括手部模型、单相机视图和立体声或多路摄像机输入。7.基于权利要求书6所述的手部模型,其特征在于,手部模型具有26个自由度,由27个参数表示;手的全局平移和旋转需要6个自由度(DoF),由7个值编码,因为采用了四元数表示三维旋转;每个手指根部的关节使用两个DoFs建模,其余的手指关节各需要一个DoF;手指关节受到真实关节限制的约束;确定模型骨架上与2D联合检测器估计的关节位置相对应的关键点。8.基于权...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。