一种基于三维人体姿态估计方法及装置制造方法及图纸

技术编号:19480859 阅读:20 留言:0更新日期:2018-11-17 10:37
本发明专利技术公开了一种基于三维人体姿态估计方法及装置,其中,该方法包括S1:运用单目相机采集人体不同角度的深度图像和RGB彩色图像;S2:基于RGB彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;S3:构造手部关节节点2D‑3D映射网络;S4:标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;S5:基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;S6:合并步骤S3和步骤S5的输出,实现对三维人体姿态估计的精细化估计。

【技术实现步骤摘要】
一种基于三维人体姿态估计方法及装置
本专利技术属于计算机视觉、图像处理、计算机图形学及深度学习应用领域,尤其涉及一种基于三维人体姿态估计方法及装置。
技术介绍
所谓人体姿态估计是指将抽象层次特征与人体模型进行匹配,从而得到不同时刻目标所处的姿态。人体姿态估计是人体运动捕捉的核心问题。人体的姿态表达包括两个方面,一是整个人体在世界坐标的位置和方向;二是身体各部分关节的角度及受关节角影响的皮肤变形。人体运动姿态估计的主要应用领域可以分为三大方向:监控、控制和分析:(1)在监控应用方面,一些传统的应用包括在机场或地铁中自动检测并定位行人、人数统计或人群流动、拥塞分析等。随着安全意识的提高,近年来出现了一些新型的应用——个人或人群的行为和动作的分析。比如在排队和购物中,检测不正常的行为或进行身份识别等。(2)在控制应用方面,人们利用运动估计结果或姿态参数来对目标进行控制。这在人机交互方面的应用最多。在娱乐产业如电影和游戏动画等,应用也越来越广。人们可以利用捕捉到的人的形状、外表和动作,来制作3D电影或重建游戏中的人的三维模型。(3)在分析应用方面,包括对外科病人的自动诊断、对运动员动作的分析和改进等。在视觉媒体方面,有基于内容的视频检索、视频压缩等应用。此外,在汽车产业方面也得到了相关的应用,比如安全气囊的自动控制、睡眠检测和行人检测等。目前市场上比较成熟的人体运动捕捉系统有基于电动机械的,电磁的和特殊光学标志等类型。磁性或者光学的标记被附在人的肢体上,它们的三维轨迹被用来描述目标运动,这些系统是自动的,但是其存在的缺点是:设备非常笨重,且价格昂贵,无法得到广泛的应用。因此,基于计算机视觉人体运动捕捉技术已经成为研究热点。它利用计算机视觉的基本原理,从视频中直接提取三维人体运动序列。这种方法不需要在人体关节上附加任何传感器,保证了人体运动不受限制,而且造价低,效率高。当前流行的方法大多采用基于人体模型的匹配技术。这种方法的目标是在状态空间中找到一组姿态参数,使得对应这个参数的人体姿态与从观测图像中提取的底层特征最为符合。在基于计算机视觉的运动跟踪这一领域,一般采用的研究方法是:在跟踪的开始,确定图像序列中首帧的人体位置,后续序列中人体目标的确定依赖于人体运动的连续性和运动学约束条件。其中,确定首帧人体位置有两种方法:一是人为规定目标的首个姿态或者将人体模型设定为首帧的近似姿态,这不利于人体跟踪的自动化。二是去除人体以外的背景后,使用部位检测方法确定身体的各个部位,这种方法可部分实现自动化,但需要人景分割的严格保证。在后续人体跟踪和三维姿态估计中,有基于模型和无模型的方法。其中:(1)基于模型的一般方法是事先建立人体的3D模型,将模型与运动序列的首帧匹配,在后续跟踪中,利用运动参数限制等条件,采用梯度下降或随机采样等优化方法进一步估计每一帧的模型参数,从而得出模型运动序列。这种方法的缺点是:后续帧的跟踪存在累积误差,长时间跟踪容易出错。(2)无模型方法不需要建立人体模型,而是根据人体运动呈现的几何、纹理、色彩等信息,采用学习或基于样本的方法来估计人体运动姿态。这种方法的缺点在于:人体运动姿态难以用有限个状态描述,依赖于先验知识,且只能跟踪特定的动作集。基于模型和无模型的这两种跟踪方法都可采用单目摄像机或多目摄像机实现。由于不具有深度信息的普通图像在重建中存在从三维到二维映射的歧义性,且对于复杂运动姿态估计非常困难,因此在过去十多年的研究中,大多数人体运动跟踪技术的都是基于多目摄像机条件下实现的,以此获得深度信息。但是,使用多目摄像机的条件是:需要定标且不方便在普通家庭中布置,不利于运动捕捉技术的应用普及到千家万户中。综上所述,针对现有技术中多目摄像机使用条件的限制以及为了快速便捷地识别出深度图像,亟需一种有效的解决方案。
技术实现思路
为了解决现有技术的不足,本专利技术的第一目的是提供一种基于三维人体姿态估计方法,其能够精确地识别出深度图像中的三维人体姿态。本专利技术的一种基于三维人体姿态估计方法的技术方案为:一种基于三维人体姿态估计方法,包括:S1:运用单目相机采集人体不同角度的深度图像和RGB彩色图像;S2:基于RGB彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;S3:基于对应的RGB彩色图像和关键点标注图像,构造手部关节节点2D-3D映射网络;S4:标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;S5:基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;S6:合并步骤S3和步骤S5的输出,实现对三维人体姿态估计的精细化估计。在所述步骤1中,单目相机可以采用Kinect相机来实现。Kinect比一般的摄像头更为智能。首先,它能够发射红外线,从而对整个房间进行立体定位。摄像头则可以借助红外线来识别人体的运动。除此之外,配合着Xbox360上的一些高端软件,便可以对人体的48个部位进行实时追踪。需要说明的是,单目相机除了Kinect相机之外,也可以采用其他现有单目相机来实现。进一步的,所述步骤S2中基于RGB彩色图像构造出人体骨骼关键点检测神经网络,具体包括:标注RGB彩色图像中的人体骨骼关键点,构建出数据集;将构建的数据集划分为训练集和测试集,并将训练集输入至预设人体骨骼关键点检测神经网络中进行训练;利用测试集来测试训练后的人体骨骼关键点检测神经网络,直至达到预设要求。在所述步骤S2中,通过对获取的RGB彩色图像标注人体骨骼关键点形成训练人体骨骼关键点检测神经网络的数据集,这样能够快速准确地得到预设要求的人体骨骼关键点检测神经网络。其中,预设要求为人体骨骼关键点检测神经网络输出的人体骨骼关键点的精度在预先设定精度范围内。其中,人体骨骼关键点检测神经网络可以由VGG-19网络后接有T(T为大于或等于1的正整数)个阶段,每个阶段有2个全卷积网络的结构构成。其中,VGG(VisualGeometryGroup)属于牛津大学科学工程系,其发布了一些列以VGG开头的卷积网络模型。需要说明的是,人体骨骼关键点检测神经网络也可以为其他现有的神经网络模型。进一步的,在所述步骤S3中,构造的手部关节节点2D-3D映射网络输出手部分割图像,手部关节节点2D-3D映射网络的结构为:(卷积层+ReLu激活层)+最大池化层+双线性上采样。上述手部关节节点2D-3D映射网络的损失函数采用softmax和交叉熵损失函数。在本专利技术中,将2D手部检测问题转化为分割问题消除不同人手的大小尺寸不同对网络精确性影响。需要说明的是,手部关节节点2D-3D映射网络除了上述结构之外,还可以采用其他现有神经网络结构来实现。进一步的,在所述步骤S4中,得到着色深度图像的步骤具体包括:利用棋盘法来标定人体相同角度的深度图像与关键点标注图像;匹配人体相同角度的关键点标注图像与深度图像;调整匹配后的深度图像大小并进行三维着色点云。本专利技术利用棋盘法来标定人体相同角度的深度图像与关键点标注图像,能够准确获取图像中关键点的坐标信息。进一步的,在所述步骤S5中,预设学习网络为U型强化学习网络。其中,U型强化学习网络是学习从环境状态到行为的映射,使得智能体选择本文档来自技高网
...

【技术保护点】
1.一种基于三维人体姿态估计方法,其特征在于,包括:S1:运用单目相机采集人体不同角度的深度图像和RGB彩色图像;S2:基于RGB彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;S3:基于对应的RGB彩色图像和关键点标注图像,构造手部关节节点2D‑3D映射网络;S4:标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;S5:基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;S6:合并步骤S3和步骤S5的输出,实现对三维人体姿态估计的精细化估计。

【技术特征摘要】
1.一种基于三维人体姿态估计方法,其特征在于,包括:S1:运用单目相机采集人体不同角度的深度图像和RGB彩色图像;S2:基于RGB彩色图像构造出人体骨骼关键点检测神经网络,得到关键点标注图像;S3:基于对应的RGB彩色图像和关键点标注图像,构造手部关节节点2D-3D映射网络;S4:标定人体相同角度的深度图像与关键点标注图像,进而对相应深度图像进行三维点云着色转换,得到着色深度图像;S5:基于关键点标注图像和着色深度图像,利用预设学习网络来预测标注的人体骨骼关键点在深度图像中对应的位置;S6:合并步骤S3和步骤S5的输出,实现对三维人体姿态估计的精细化估计。2.如权利要求1所述的一种基于三维人体姿态估计方法,其特征在于,所述步骤S2中基于RGB彩色图像构造出人体骨骼关键点检测神经网络,具体包括:标注RGB彩色图像中的人体骨骼关键点,构建出数据集;将构建的数据集划分为训练集和测试集,并将训练集输入至预设人体骨骼关键点检测神经网络中进行训练;利用测试集来测试训练后的人体骨骼关键点检测神经网络,直至达到预设要求。3.如权利要求1所述的一种基于三维人体姿态估计方法,其特征在于,在所述步骤S3中,构造的手部关节节点2D-3D映射网络输出手部分割图像,手部关节节点2D-3D映射网络的结构为:(卷积层+ReLu激活层)+最大池化层+双线性上采样。4.如权利要求1所述的一种基于三维人体姿态估计方法,其特征在于,在所述步骤S4中,得到着色深度图像的步骤具体包括:利用棋盘法来标定人体相同角度的深度图像与关键点标注图像;匹配人体相同角度的关键点标注图像与深度图像;调整匹配后的深度图像大小并进行三维着色点云。5.如权利要求1所述的一种基于三维人体姿态估计方法,其特征在于,在所述步骤S5中,预设学习网络为U型强化学习网络。6.一种基于三维人体姿态估计装置,其特征在于,包括:图像采集单元,其运用单目相机采集人体不同角度的深度图...

【专利技术属性】
技术研发人员:吕蕾张凯张桂娟刘弘
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1