【技术实现步骤摘要】
一种多人人体姿态估计方法
本专利技术的技术方案涉及用于识别图形的记录载体的处理,具体地说是一种多人人体姿态估计方法。
技术介绍
人体姿态估计技术对于描述人体运动轨迹、预测人体行为至关重要,该技术用于定位描述人体关节位置的关键点运动轨迹并记录其运动数据,实现3D动画模拟人体运动来制作电影电视,并通过记录的人体运动轨迹和数据对人体运动进行分析,应用于人体动作分类,人体异常行为的检测,以及自动驾驶领域。现有的人体姿态估计方法按照特征定义方法的不同分为机器学习方法和深度学习方法。人体姿态估计方法中的机器学习方法是将人体关键点的运动轨迹估计表述为树状结构模型或图形模型,并基于手工制作的特征预测这些人体关键点的位置,即人体关键点在图像中的二维坐标。然而由于人体运动的灵活性、服装的多变性以及环境的复杂性,很难定义一个与人体运动匹配的具体模板;同时在利用机器学习方法完成人体姿态估计的过程中,需要从原始输入图像中提取大量的特征,同样由于人体姿态的高复杂性,提取的特征分辨率相对较高,导致计算复杂度很高,因此机器学习方法主要应用于 ...
【技术保护点】
1.一种多人人体姿态估计方法,其特征在于:是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出人体姿态估计结果具体步骤如下:/nA过程.深度特征人体关键点检测模型的建立和训练:/n第一步,图像数据预处理:/n第(1.1)步,图像归一化:/n获取多人人体姿态估计MScoco图像数据集,该数据集是人体姿态估计领域公 ...
【技术特征摘要】
1.一种多人人体姿态估计方法,其特征在于:是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出人体姿态估计结果具体步骤如下:
A过程.深度特征人体关键点检测模型的建立和训练:
第一步,图像数据预处理:
第(1.1)步,图像归一化:
获取多人人体姿态估计MScoco图像数据集,该数据集是人体姿态估计领域公共数据集,分为标签文件和图像文件,其中标签文件保存每张图像已经标注好的十七个人体关键点位置信息,对所获取的多人人体姿态估计MScoco图像数据集中的多人人体姿态估图像进行预处理,即将图像调整为384×288像素尺寸,然后根据期望与标准差的三种组合:(0.485,0.229),(0.456,0.244),(0.406,0.255),分别对图像的三个通道的像素值进行标准化,进而按照Mscoco数据集的划分方法将标准化处理后的图像文件分为原始图像训练集和原始图像测试集,由此完成图像归一化;
第(1.2)步,生成标注人体关键点置信度热图与二值掩码:
根据上述第(1.1)步中图像归一化得到的多人人体姿态估计图像以及每张图像已经标注好的十七个人体关键点位置信息,生成对应的十七个通道的人体关键点置信度热图,其中每个通道的人体关键点置信度热图的大小为96×72像素,同时生成对应的十七个通道的二值掩码,其大小与人体关键点置信度热图相同,人体关键点置信度热图生成的具体方法如下:
根据上述(1.1)步中所获取的多人人体姿态估计MScoco图像数据集中的每张图像已经标注好的十七个人体关键点位置信息,得出在图像中位置的具体的人体关键点置信度热图如下公式(1)所示,
公式(1)中,n为图像中人体目标的标号,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,为图像中第n个人对应的第k类别人体关键点真值坐标,为图像中像素坐标,其中p与xk,n的距离越近,对应人体关键点置信度热图中的置信度越高,σ为控制峰值的扩散,
将图像中所有人的置信度热图通过max运算将相同类别人体关键点热图聚合到同一置信通道Hk(p),如下公式(2)所示,
在生成人体关键点置信度热图的基础上,生成十七个人体关键点通道的人体关键点二值掩码W(z),其大小与人体关键点置信度热图相同,z为十七个人体关键点通道的人体关键点二值掩码中的坐标位置,当坐标位置z的人体关键点不可见时,W(z)=0,否则W(z)=1,
至此完成生成标注人体关键点置信度热图与二值掩码;
所述十七个人体关键点的选定包括,鼻子、左右眼、左右耳、颈部、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的十七个通道的人体关键点置信度热图索引分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15-左踝、16-右踝;
由此完成图像数据预处理;
第二步,构建深度特征人体关键点检测模型:
所构建的深度特征人体关键点检测模型分为主体网络与微调网络两部分:
第(2.1)步,构建主体网络部分:
主体网络部分以HRNet网络模型为基础,通过该模型结构中不同分辨率的深度特征输出层,构建得到的主体网络部分具有四个并行的深度特征提取子网络,其结构如下公式(3)所示,
公式(3)中,Nij为HRNet网络的基本处理单元,其中横向为分支,包括四个分支,分支数j=1,2,3,4,纵向为阶段,包括四个阶段,阶段数为i=1,2,3,4,
该四个并行的深度特征提取子网的四个分支为:第一个分支为N11→N21→N31→N41,第二个分支为N22→N32→N42,第三个分支为N33→N43,第四个分支为N44,四个分支在四个并行深度特征提取子网络中引入交换单元进行多尺度融合,即引入的交换单元负责将各个处理单元输出的特征分辨率转换为下一处理单元处理的特征分辨率并融合,使每个深度特征提取子网络重复接收来自其他并行深度特征提取子网络的深度特征信息;
该四个并行的深度特征提取子网的四个阶段为:第一个阶段为N11,第二个阶段为N21和N22,第三个阶段为N31、N32和N33,第四个阶段为N41、N42、N43和N44,每一个阶段包含特征提取与多尺度融合两种功能,如下所示:
第一个阶段N11的输入为第一步预处理后的图像数据,经过特征提取生成C111,经过交换单元的多尺度融合后生成C211和C221,如下公式(4)所示,
公式(4)中,C111代表第一个阶段中N11提取的深度特征,C211和C221分别代表第一个阶段N11中交换单元多尺度融合后的深度特征,C211=C111,C221为C111的下采样,并且C211和C221分别为N21和N22的输入,
第二个阶段N21和N22分别以C211和C221为输入,经过特征提取生成C212和C222,经过交换单元的多尺度融合后生成C312、C322和C332,如下公式(5)所示,
公式(5)中,C212代表第二个阶段中N21提取的深度特征,C222代表第二个阶段N22提取的深度特征,C12=C212,C22与C32为C212的下采样且分辨率不同,C52=C222,C42为C222的上采样,C62为C22的下采样,C312、C322和C332分别代表第二个阶段中交换单元多尺度融合后的深度特征,并且C312、C322和C332分别为N31、N32和N33的输入,
第三个阶段N31、N32和N33分别以C312、C322和C332为输入,经过特征提取生成C313、C323和C333,经过交换单元的多尺度融合后生成C413、C423、C433和C443,如下公式(6)所示,
公式(6)中,C313、C323和C333分别代表第三个阶段中N31、N32和N33提取的深度特征,C13=C313,C23、C33和C43为C313的下采样且分辨率不同,C63=C323,C53为C323的上采样,C73和C83为C323的下采样且分辨率不同,C113=C333,C93和C103为C333的上采样且分辨率不同,C123为C333的下采样,C413、C423、C433和C443分别代表第三个阶段中交换单元多尺度融合后的深度特征,并且C413、C423、C433和C443分别为N41、N42、N43和N44的输入,
第四个阶段N41、N42、N43和N44分别以C413、C423、C433和C443为输入,经过特征提取生成C414、C424、C434和C444,C414、C424、C434和C444分别为第四个阶段中N41、N42、N43和N44提取的深度特征,从最后一个交换单元输出的高分辨率深度特征中回归人体关键点置信度热图H,如下公式(7)所示,
H=C14+C24+C34+C44(7),
公式(7)中,C14=C414,C24、C34和C44分别为C424、C434和C444的上采样且与C14分辨率相同,H为人体关键点置信度热图,
由此完成构建主体网络部分,
将四个并行的深度特征提取子网中的第i个阶段的输入记为C={C1,C2,…,Ci},第i阶段的输出记为C’={C1’,C2’,…,Ci+1’...
【专利技术属性】
技术研发人员:于明,金宇,于洋,郭迎春,阎刚,郝小可,师硕,朱叶,刘依,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。