一种3D人体姿态估计数据标注方式和对应的模型构建方法技术

技术编号:35005288 阅读:28 留言:0更新日期:2022-09-21 14:55
本发明专利技术公开了一种3D人体姿态估计数据标注方式和对应的模型构建方法,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;对任一两个相邻点之间进行深度差值计算,神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量;最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。全连接层进行最终的3D坐标值预测。全连接层进行最终的3D坐标值预测。

【技术实现步骤摘要】
一种3D人体姿态估计数据标注方式和对应的模型构建方法


[0001]本专利技术涉及计算机深度学习算法
,尤其涉及一种新型的3D人体姿态估计数据标注方式和对应的模型构建方法。

技术介绍

[0002]3D人体姿态估计,可通过人体图像推断出3D关键节点的位置,然后根据节点的相对位置和关节角度变化去估计人体的真实动作姿态。它是深度学习可落地算法中的一个重要算法应用技术,广泛被应用在行为分析、步态分析、危险行为检测、人机交互、虚拟游戏等领域。3D人体姿态估计按照输入数据类型,可进一步被分为基于RGB图像的姿态估计算法、基于视频的姿态估计算法以及基于深度图的姿态估计算法,本专利技术涉及到的技术可适配任意数据类型。
[0003]从算法上来分,姿态估计任务可分为两种:一种是端到端的单阶段方式,由深度学习模型直接从图像或视频推断出人体3D关键点的坐标信息(x,y,z),由于原始视频或图像中场景环境的复杂性、人物动作的多样性和不同衣物纹理的差异性,因此要想通过该方法得到通用能力较强的模型,必须要有大量的差异性明显的图片或视频,然而现有的人体数据集场景、动作比较单一,不能满足需要,同时3D人体数据标注成本很高,难以获取,因此该方法适配能力非常有限;第二种是两阶段方法,先通过2D人体姿态估计算法从图像或视频推断出人体2D关键点坐标信息(x,y),再由2D点坐标通过3D网络模型进行人体3D关键点坐标预测,由于2D人体标注简易且2D人体姿态估计算法相对来说比较成熟,因此第一阶段得到的2D点坐标较为精准,再通过第二阶段进行3D点坐标预测的时候,规避掉了场景环境、动作、衣服等因素的影响,该方法得到的模型跟第一种方法相比,通用性更强,但第二阶段自身也有明显的局限性,主要原因在于它抛弃了图像中人体动作不同肢体之间的前后深度差,只凭借2D人体姿态坐标去进行推断,而一个2D人体姿态对应多个3D人体姿态,即使利用了视频的前后多个帧的坐标综合进行判断,关键点的深度信息也经常预测错误。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。本专利技术在现有3D人体数据集基础上,提出了一种新型的数据标注方式,主要是通过相机坐标系下每相邻两个肢体关键点之间的深度差异,去推断出人体所有关键节点的深度分布,以这种相对深度作为标签值可以让每个点在进行预测和评估的时候只需要考虑相邻的位置变化,而不会去考虑整体的动作变化,任务难度大幅度降低。针对这种新型的数据标签格式,还需要一个与之对应的模型搭建相匹配,该模型的输入不再只是单一的2D人体姿态算法得到的人体2D关键点坐标,还需要额外的图像特征作为模型加强分支的输入,以这种方式预测的3D关键点坐标没有抛弃图像中人体肢体间的前后深度差,最终得到的3D点的精度大幅度提升。
[0005]为此,本专利技术公开了一种3D人体姿态估计数据标注方式和对应的模型构建方法,如图1所示,所述方法包括如下步骤:
[0006]步骤1,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;
[0007]步骤2,将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;
[0008]步骤3,对任一两个相邻点之间进行深度差值计算,初始化起始参照点自身的相对深度差,并跟其余所述预定数量减1个点计算得到的深度差组成数组,并将所述数组作为新的标签,然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代,得到最终的预定数量的相对3D坐标值;
[0009]步骤4,构建神经网络,采用二阶段姿态估计算法的训练,神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量,第二分支将人体2D坐标输入原有的2D转3D的映射网络;
[0010]步骤5,最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。
[0011]更进一步地,所述步骤1进一步包括:拿到原始的HM3.6M人体3D骨骼数据,该数据下每个人体有32个关键节点,其中有一半的节点是不可运动的,将其去掉,我们只需要可运动的17个关键节点:头顶,鼻子,颈部,左肩,左手肘,左手腕,右肩,右手肘,右手腕,胸部脊椎中心,髋关节,左髋,左膝,左脚腕,右髋,右膝,右脚腕,其中,所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。
[0012]更进一步地,所述步骤2进一步包括:所述预定数量为17,不同拍摄人的相机外参和所属的相机内参不同,按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标,其中,用C1,C2,C3...C17来表示所述相机坐标系下的3D坐标,和图像坐标系下的2D坐标。
[0013]更进一步地,所述步骤3进一步包括:选定起始参照点,将颈部C3作为起始参照点,根据最近距离去定义,它的相邻点有4个,分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10,用距离符号
‑‑
>表示两点相邻,可以简写成C3
‑‑
>C2、C3
‑‑
>C4、C3
‑‑
>C7、C3
‑‑
>C10,那么剩余的相邻点可表示为C2
‑‑
>C1,C4
‑‑
>C5,C5
‑‑
>C6,C7
‑‑
>C8,C8
‑‑
>C9,C10
‑‑
>C11,C11
‑‑
>C12,C12
‑‑
>C13,C13
‑‑
>C14,C11
‑‑
>C15,C15
‑‑
>C16,C16
‑‑
>C17;C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标,同理可得所有16点的相对相邻点的深度差;起始参照点C3自身的相对深度差记为0,跟剩余16点计算得到的深度差组成一个数组,数组长度为17,将这个数组作为新的标签,以这种方式进行数据标注之后,HM3.6M数据集每张图片,都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差,将每个点的3D坐标值的z轴坐标用相对深度差取代,得到最终的17个点的相对3D坐标值。
[0014]更进一步地,神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像进一步包括:所述预先裁剪的方式为按照所述关键节点进行裁剪。
[0015]更进一步地,所述预先裁剪的方式为按照所述关键节点进行裁剪进一步包括:在对人体图像进行特征提取之前,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述方法包括如下步骤:步骤1,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;步骤2,将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;步骤3,对任一两个相邻点之间进行深度差值计算,初始化起始参照点自身的相对深度差,并跟其余所述预定数量减1个点计算得到的深度差组成数组,并将所述数组作为新的标签,然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代,得到最终的预定数量的相对3D坐标值;步骤4,构建神经网络,采用二阶段姿态估计算法的训练,神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量,第二分支将人体2D坐标输入原有的2D转3D的映射网络;步骤5,最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。2.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤1进一步包括:拿到原始的HM3.6M人体3D骨骼数据,该数据下每个人体有32个关键节点,其中有一半的节点是不可运动的,将其去掉,我们只需要可运动的17个关键节点:头顶,鼻子,颈部,左肩,左手肘,左手腕,右肩,右手肘,右手腕,胸部脊椎中心,髋关节,左髋,左膝,左脚腕,右髋,右膝,右脚腕,其中,所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。3.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤2进一步包括:所述预定数量为17,不同拍摄人的相机外参和所属的相机内参不同,按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标,其中,用C1,C2,C3...C17来表示所述相机坐标系下的3D坐标,和图像坐标系下的2D坐标。4.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤3进一步包括:选定起始参照点,将颈部C3作为起始参照点,根据最近距离去定义,它的相邻点有4个,分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10,用距离符号
‑‑
>表示两点相邻,可以简写成C3
‑‑
>C2、C3
‑‑
>C4、C3
‑‑
>C7、C3
‑‑
>C10,那么剩余的相邻点可表示为C2
‑‑
>C1,C4
‑‑
>C5,C5
‑‑
&a...

【专利技术属性】
技术研发人员:张磊顾友良李观喜赵乾
申请(专利权)人:广州紫为云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1