【技术实现步骤摘要】
一种3D人体姿态估计数据标注方式和对应的模型构建方法
[0001]本专利技术涉及计算机深度学习算法
,尤其涉及一种新型的3D人体姿态估计数据标注方式和对应的模型构建方法。
技术介绍
[0002]3D人体姿态估计,可通过人体图像推断出3D关键节点的位置,然后根据节点的相对位置和关节角度变化去估计人体的真实动作姿态。它是深度学习可落地算法中的一个重要算法应用技术,广泛被应用在行为分析、步态分析、危险行为检测、人机交互、虚拟游戏等领域。3D人体姿态估计按照输入数据类型,可进一步被分为基于RGB图像的姿态估计算法、基于视频的姿态估计算法以及基于深度图的姿态估计算法,本专利技术涉及到的技术可适配任意数据类型。
[0003]从算法上来分,姿态估计任务可分为两种:一种是端到端的单阶段方式,由深度学习模型直接从图像或视频推断出人体3D关键点的坐标信息(x,y,z),由于原始视频或图像中场景环境的复杂性、人物动作的多样性和不同衣物纹理的差异性,因此要想通过该方法得到通用能力较强的模型,必须要有大量的差异性明显的图片或视频,然而现有的人体数据集场景、动作比较单一,不能满足需要,同时3D人体数据标注成本很高,难以获取,因此该方法适配能力非常有限;第二种是两阶段方法,先通过2D人体姿态估计算法从图像或视频推断出人体2D关键点坐标信息(x,y),再由2D点坐标通过3D网络模型进行人体3D关键点坐标预测,由于2D人体标注简易且2D人体姿态估计算法相对来说比较成熟,因此第一阶段得到的2D点坐标较为精准,再通过第二阶段进行3D点坐标预 ...
【技术保护点】
【技术特征摘要】
1.一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述方法包括如下步骤:步骤1,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;步骤2,将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;步骤3,对任一两个相邻点之间进行深度差值计算,初始化起始参照点自身的相对深度差,并跟其余所述预定数量减1个点计算得到的深度差组成数组,并将所述数组作为新的标签,然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代,得到最终的预定数量的相对3D坐标值;步骤4,构建神经网络,采用二阶段姿态估计算法的训练,神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量,第二分支将人体2D坐标输入原有的2D转3D的映射网络;步骤5,最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。2.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤1进一步包括:拿到原始的HM3.6M人体3D骨骼数据,该数据下每个人体有32个关键节点,其中有一半的节点是不可运动的,将其去掉,我们只需要可运动的17个关键节点:头顶,鼻子,颈部,左肩,左手肘,左手腕,右肩,右手肘,右手腕,胸部脊椎中心,髋关节,左髋,左膝,左脚腕,右髋,右膝,右脚腕,其中,所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。3.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤2进一步包括:所述预定数量为17,不同拍摄人的相机外参和所属的相机内参不同,按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标,其中,用C1,C2,C3...C17来表示所述相机坐标系下的3D坐标,和图像坐标系下的2D坐标。4.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤3进一步包括:选定起始参照点,将颈部C3作为起始参照点,根据最近距离去定义,它的相邻点有4个,分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10,用距离符号
‑‑
>表示两点相邻,可以简写成C3
‑‑
>C2、C3
‑‑
>C4、C3
‑‑
>C7、C3
‑‑
>C10,那么剩余的相邻点可表示为C2
‑‑
>C1,C4
‑‑
>C5,C5
‑‑
&a...
【专利技术属性】
技术研发人员:张磊,顾友良,李观喜,赵乾,
申请(专利权)人:广州紫为云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。