人体三维动作自动提取方法技术

技术编号:22330667 阅读:203 留言:0更新日期:2019-10-19 12:22
本发明专利技术涉及计算机视觉领域,特别涉及一种对人体姿态检测和运动分析的人体三维动作自动提取方法,该方法包括:采集多视角图片;获得多视角图片中的二维人体关键点;计算出三维人体关键点;构建人体骨骼点层级树。本发明专利技术对于人体动作检测准确,尤其是手部检测十分稳健,更为精准;整个检测过程均为自动化,无需额外人工。

Automatic extraction of three-dimensional human motion

【技术实现步骤摘要】
人体三维动作自动提取方法
本专利技术涉及计算机视觉领域,特别涉及一种对人体姿态检测和运动分析的人体三维动作自动提取方法。
技术介绍
随着社会的发展、人口的增多,暴力事件、恐怖袭击事件越来越多。如何让计算机理解人类的行为,来预防犯罪,正在成为一项崇高而亟待解决的问题。人类具有社会属性,任何人的社交行为都可以通过他(她)的动作(身体动作,手势,表情)来表现出来。因此有很多研究者,将让计算机理解人类行为转变为理解人体三维动作。而这第一步,则是对人体三维动作的正确检测。除了在安防方面的作用,人体动作检测在健身(如运动评估),娱乐(如电影特效制作),医疗(如康复训练)等领域也有着十分重要的作用。因其显著的学术、商业与社会价值,人体三维动作检测正成为越来越重要的研究方向。现有的方法中,准确率最高的当属商业动作捕捉设备(如OptiTrack)。它需要用户穿戴特定的带标记的服装,在特定的环境中进行动作采集。这种方法广泛应用于有后期制作的电影行业。但在日常生活中,人们衣着多样,生活场景也各式各样,因而很难用这种方法来分析人们的日常动作。另一些不用标记和特定环境的方法,如用深度(RGBD)相机组或者多RGB相机系统,往往会遇到动作抖动/缺失/不准确的问题;同时对于手部这样自由度高且特征少的部位常出现很大的检测误差。为了能准确检测出人们的日常动作,需要一种方便有效的自动提取人体三维动作的方法。
技术实现思路
本专利技术为解决现有的问题,旨在提供一种人体三维动作自动提取方法。为了达到上述目的,本专利技术采用的技术方案包括:步骤一,构建多目相机系统,标定并采集多视角图片;步骤二,获得多视角图片中的二维人体关键点;步骤三,根据相机位置、关键点计算出三维人体关键点;步骤四,根据三维人体关键点构建人体骨骼点层级树。步骤二中,利用神经网络系统openpose或alphapose获得二维人体关键点。步骤二中,openpose网络可检测到的每个关键点p,得到表示第i个关键点在视角v图片上的位置,表示网络对于该点的置信度;p∈T,||T||=n其中n表示关键点的个数;v∈V,||V||=m,其中m表示所用相机的数目。步骤三中,在BA优化中加入置信度则得到第i个三维点的表达式:X表示由三角测量计算出的三维点,Pv(X)为X在视角v上的二维投影;优化出的三维点x在各个视角V上的投影与网络检测出来的二维点加权距离最小。步骤三中,进行滤除离群点:对于每个骨骼点随机选取三个视角,将其作为集合si,并将三个视角的二维点三角化后得到三维骨骼点计算所有视角里的二维点与的加权重投影误差:将的视角作为内围点加入到Si中;令λ=0.1*(h+w)/2,其中h为该视角图片的长,w为宽;再将更新后的全部内围点的Si代入公式(1),并替换V,可得到:优化得到新的三维骨骼点计算所有Si视角里的二维点与的总投影误差重复以上过程,选出总投影误差最小的及其对应的此即为所需要的三维点。步骤三中,利用人体解剖学对手部进行进一步的优化:其中,α为可根据搭建的场景调整参数;而用于惩罚不可能的动作,γ为所有的指关节,表示指关节的弯曲夹角;Xi表示当前待优化的指关节三维点,Xip为Xi的父节点,Xic为Xi的子节点;和分别表示当前指关节的最小、最大人体解剖学夹角。和现有技术相比,本专利技术所采用的的多目相机系统搭建简单方便,能够适用于日常环境;用户可穿着任意服装,无需穿戴特定装置,降低了使用要求;本方法对于人体动作检测准确,尤其是手部检测十分稳健,更为精准;整个检测过程均为自动化,无需额外人工。附图说明图1a至图1i为多视角图片的示意图;图2a为三维结果的示意图;图2b为三维结果的示意图;图3a为身体层级关系示意图;图3b为身体层级关系示意图;图4a为手部层级关系示意图;图4b为手部层级关系示意图。具体实施方式现结合附图对本专利技术作进一步地说明。参见图1a至图3b,图1a至图3b所展示的是本专利技术的一个实施例,本实施例通过多相机系统,首先利用神经网络识别出各个视角图片上的身体、手、面部的二维关键点,然后用三角测量(triangulation)、光束法平差算法(bundleadjustment,BA)、随机抽样一致算法(RANdomSAmpleConsensus,RANSAC)以及人体解剖约束,优化出最终的三维关键点。这些三维关键点因携带位置语义信息,可构建出骨骼点层级树,自然地能表达人体的动作信息。本实施例在具体实施中,首先进行多相机系统的搭建:本实施例对于相机型号无特殊要求,仅需四个以上能实现同步拍摄的相机组。相机的同步工作可由专门的同步器控制(如继电器控制开关)。因后面需要用到神经网络提取二维关键点,为了得到准确的关键点位置,每个相机应尽量能看到整个人体。如果大部分视角都只能获取部分人体,则应增加相机个数,以增加系统的稳健性。多相机系统的标定。标定,即是计算出相机的内部参数(intrinsicparameters)和外部参数(extrinsicparameters)。对于动作检测,并不一定需要三维骨骼点跟真实世界一样的尺度,因此在标定时,可用一些常见的运动估计(structure-from-motion)开源库(如colmap)。若想得到真实尺度的运动骨骼,则需在标定时加入特定的棋盘格。数据采集:系统搭建完成后,采集对象在相机组中心自由活动,相机组同步记录动态视频,后序将对此动态视频逐帧处理。其次,对二维关键点进行检测。因神经网络在二维骨骼关键点检测上的高效性和准确性,本专利用其来获取从前述步骤中采集的多视角图片上的二维关键点。现有很多开源的人体关键点检测网络(如openpose,alphapose),都有较高的正确率,操作中可按需选择。本实施例以openpose为例。对于每一张包含完整人体的图片,openpose网络可检测到137个关键点(身体为25个关键点,每只手21个,面部70个),每个关键点p(p∈T,||T||=n其中n表示关键点的个数)得到表示第i个关键点在视角v(v∈V,||V||=m,其中m表示所用相机的数目)图片上的位置,表示网络对于该点的置信度(confidence)。不同网络结构获得关键点和置信度的方法不同,本实施例是预测每一个关键点在图片中每个像素的概率,选取概率最大的像素作为该关键点的最终预测位置,同时此概率作为置信度。置信度常为0-1的浮点数,置信度越高,说明网络对于检测结果越肯定。每组监测点的索引i,都表示了它们对应身体的位置语义信息(如身体上的索引为0的点表示鼻子)。再次,进行三维关键点的获取。要从多视角的二维点中获得三维点,一般需要用到计算机视觉里的三角测量得到一个初始三维点X,为了得到较好的结果,常用BA对X进行优化。参见图2a、图2b,在本实施例中,不同于常规的BA优化(常规BA优化将所有视角视为同等重要),不同的视角对同一个二维关键点有好坏之分,希望优化出来的三维点的重投影应该更接近那些好的二维点。因此在做BA时,不同视角应该有不同的重要性,优化时应该是最小化加权重投影误差和。在上一步中,我们得到了每个关键点在不同视角的置信度这正是我们需要的视角重要性的衡量标准,将其加入常规BA公式中,可得到优化第i个三维点的表达式:X表示由三角测量计算出的三维点,Pv本文档来自技高网...

【技术保护点】
1.一种人体三维动作自动提取方法,其特征在于包括:步骤一,构建多目相机系统,标定并采集多视角图片;步骤二,获得多视角图片中的二维人体关键点;步骤三,根据相机位置、关键点计算出三维人体关键点;步骤四,根据三维人体关键点构建人体骨骼点层级树。

【技术特征摘要】
1.一种人体三维动作自动提取方法,其特征在于包括:步骤一,构建多目相机系统,标定并采集多视角图片;步骤二,获得多视角图片中的二维人体关键点;步骤三,根据相机位置、关键点计算出三维人体关键点;步骤四,根据三维人体关键点构建人体骨骼点层级树。2.根据权利要求1所述的人体三维动作自动提取方法,其特征在于:步骤二中,利用神经网络系统openpose或alphapose获得二维人体关键点。3.根据权利要求2所述的人体三维动作自动提取方法,其特征在于:步骤二中,openpose网络检测到的每个关键点p,得到表示第i个关键点在视角v图片上的位置,表示网络对于该点的置信度;其中,p∈T,||T||=n其中n表示关键点的个数;v∈V,||V||=m,其中m表示所用相机的数目。4.根据权利要求1所述的人体三维动作自动提取方法,其特征在于:步骤三中,在BA优化中加入置信度则得到第i个三维点的表达式:X表示由三角测量计算出的三维点,Pv(X)为X在视角v上的二维投影;使得优化出的三维点X在各个视角V上的投影与...

【专利技术属性】
技术研发人员:罗曦李玉玮张迎梁
申请(专利权)人:叠境数字科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1