一种人体图像关键点姿态估计方法技术

技术编号:24170385 阅读:17 留言:0更新日期:2020-05-16 02:45
本发明专利技术公开一种人体图像关键点姿态估计方法,包括以下步骤:首先将图像送入基于空洞卷积的特征金字塔网络DetectionNet进行图像检测,只输出人体用边界框标记的人体图像;然后裁剪成预定格式大小,并进行数据增强处理,形成训练数据;然后利用训练数据,训练融合空洞卷积Dilated conv的神经网络的人体图像关键点姿态估计模型,得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:并用该模型进行人体姿态的估计。本发明专利技术可以将含有人体的输入图像进行关键点生成,并且生成估计处理后的图像中生成的人体关键点具有较高精度较好保持了人体的骨架几何信息。

A pose estimation method of key points in human body image

【技术实现步骤摘要】
一种人体图像关键点姿态估计方法
本专利技术涉及图像处理
,特别是涉及一种人体图像关键点姿态估计方法。
技术介绍
人体图像关键点姿态估计是指从一张含有人体的图像中对人体骨架上的关键点进行建模估计,人体关键点一般定义为:踝关节,左膝关节,左臀部,右臀部,左膝关节,左踝关节,右踝关节,上颈部,头顶,右手腕,左肘,左肩,右肩,右肘,左手腕,最后通过训练好的姿态估计模型,对输入图像进行姿态估计,输出为含有人体骨架关键点的图像。由于人体具有相当柔性,会出现各种姿态和形状,人体任何一个部位的微小变化都会产生一种新的姿态,同时其关键点的可见性受穿着、姿态、视角等影响非常大,而且还面临着遮挡、光照、雾等环境的影响,除此之外,2D人体关键点和3D人体关键点在视觉上会有明显的差异,身体不同部位都会有视觉上缩短的效果(foreshortening),使得人体骨骼关键点检测成为计算机视觉领域中一个极具挑战性的问题。现有解决人体图像关键点姿态估计的人体骨骼关键点检测算法基本上是在几何先验的基础上基于模版匹配的思路来进行,核心就在于如何去用模版表示整个人体结构,包括关键点的表示,肢体结构的表示以及不同肢体结构之间的关系的表示。一个好的模版匹配的思路,可模拟更多的姿态范围,以至于能够更好的匹配并检测出对应的人体姿态。也有人提出了基于深度学习的方法,比如G-RMI,PAF,RMPE,MaskR-CNN。普遍使用卷积神经网络来构建人体关键点姿态估计网络结构,现在通过行人检测网络识别出人体,但是现有的检测网络通常都是基于分类网络演变而来运用现有的分类网络框架进行修改,并且采用在imagenet上预训练好的模型进行fine-tuning,本专利技术针对检测这一具体任务提出一个专门的行人检测网络结构,随后将含有人体图像输入到该网络结构中,进行一系列非线性处理(用来拟合一个复杂的映射函数)得到生成的人体骨架关键点姿态图像,将生成的人体骨架关键点姿态图像与真实的标注的人体固件关键点图像作为损失函数的输入并计算该损失函数的值,求梯度来最小化这个值,并利用反向传播函数将求得的梯度反向传播并更新网络权重的参数,多次迭代直到该损失函数不变为止。由于技术的进一步的专利技术以及高质量高精确度的人体骨架关键点图像对用户的体验和市场的竞争都具有重要的意义。而现有的人体图像关键点姿态估计生成质量不能满足要求,且不确定性比较大。因此,对人体图像关键点姿态估计方法进行一步改进,是很有必要的。
技术实现思路
本专利技术的目的是针对现有技术中存在的技术缺陷,首先提出一种检测网络DetectionNet进而提供一种融合空洞卷积(Dilatedconv)的级联金字塔的深度神经网络的人体图像关键点姿态估计方法,以提高人体图像关键点姿态估计生成质量,降低不确定性。为实现本专利技术的目的所采用的技术方案是:一种人体图像关键点姿态估计方法,包括以下步骤:S1.图像数据预处理:首先将原始图像送入训练好的基于空洞卷积的特征金字塔网络DetectionNet检测,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪成预定格式大小,然后进行数据增强处理;S2.利用训练输入数据,训练融合空洞卷积Dilatedconv的神经网络的人体图像关键点姿态估计模型,得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:利用步骤S1中已裁剪完的人体图像作为网络的输入,以训练集中的用x、y轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;其中,通过全局网络的ResNet101网络对输入人体图像处理,得到不同尺寸的特征图输出,采用自底向上的U-Shape结构,将每一层特征图进行自底向上做采样后进行加和后进行预测操作;其中,用与GroudTruth进行L2损失函数计算以进行损失约束;通过预测操作进行预定卷积步骤处理后,生成不同关键点的热力图,从而得到初始人体关键点;将全局网络中每一层加和的特征图,通过DilatedBottleneck后分别进行上采样,然后进行concat操作后通过Bottleneck,并采用基于难检测关键点的L2*损失约束,随后通过卷积进行热力图生成,修正初始的人体关键点,得到最终的人体关键点;模型迭代多次稳定后,完成模型训练;S3.使用训练好的深度神经网络模型,对测试数据集中的包含人体的图像进行姿态估计处理。本专利技术使用全局网络和矫正网络分别定位关键点和对关键点修正,并采用L2损失函数,提高了生成关键点的进度和减小了不确定性,使用的以DilatedBottleneck的矫正网络结构可以提高模型的感受野。本专利技术全局网络通过使用残差网络ResNet101结构作为骨干网络,提高了模型容量和加快训练速度。本专利技术针对性质解决了检测中存在的运算性能和检测性能矛盾的问题,通过保持特征图的空间分辨率和运用空洞卷积来扩大感受野来提升检测性能,并且融合空洞卷积(Dilatedconv)的人体图像关键点姿态估计模型,可以生成在感知上效果非常好的人体骨架关键点图像。借助提出的融合空洞卷积(Dilatedconv)的深度神经网络的人体图像关键点姿态估计模型,使用残差网络作为构建模型的基础,结合了级联金字塔结构,特别是DilatedBottleneck,使得模型的感受野更大,效果更好,并且泛化能力更强。附图说明图1是本专利技术在测试数据集中的一张人体图像上的测试结果,左边是输入人体图像,中间是GroundTruth,右边是模型生成的人体骨架关键点图像。图2是本专利技术中融合空洞卷积的神经网络的人体图像关键点姿态估计方法流程图。图3是本专利技术中专有的一中检测网络DetectionNet方法结构框图。图4是设计的3中不同类型的bottleneck结构图。图5是p4,p5,p6之间的运算连接方式的示意图。图6所示为ResNet50网络的处理过程图。图7所示为全局网络结构图。图8所示为检测网络、全局网络中加和操作的局部示意图。图9为本专利技术的整体网络结构图。图10-11所示分别为DilatedBottleneck与Bottleneck结构图。图12为本专利技术的加入矫正网络后的整体结构图。图13为本专利技术的空洞卷积(Dilatedconv)的卷积示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术的人体图像关键点姿态估计方法,包括以下几个步骤:步骤S1,先对图像训练集数据做特定数据增强,首先定义可以应用于图像的所有可能的数据增强,如下表(参数均对应于TensorFlow相应函数参数):本专利技术采用如下特定操作:本专利技术中,本文档来自技高网
...

【技术保护点】
1.人体图像关键点姿态估计方法,其特征在于,包括步骤:/nS1.图像数据预处理:/n首先将原始图像送入训练好的基于空洞卷积的特征金字塔网络DetectionNet检测,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪成预定格式大小,然后进行数据增强处理;/nS2.利用训练输入数据,训练融合空洞卷积Dilated conv的神经网络的人体图像关键点姿态估计模型,得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:/n利用步骤S1中已裁剪完的人体图像作为网络的输入,以训练集中的用x、y轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;/n其中,通过全局网络的ResNet101网络对输入人体图像处理,得到不同尺寸的特征图输出,采用自底向上的U-Shape结构,将每一层特征图进行自底向上做采样后进行加和后进行预测操作;其中,用与GroudTruth进行L

【技术特征摘要】
1.人体图像关键点姿态估计方法,其特征在于,包括步骤:
S1.图像数据预处理:
首先将原始图像送入训练好的基于空洞卷积的特征金字塔网络DetectionNet检测,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪成预定格式大小,然后进行数据增强处理;
S2.利用训练输入数据,训练融合空洞卷积Dilatedconv的神经网络的人体图像关键点姿态估计模型,得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:
利用步骤S1中已裁剪完的人体图像作为网络的输入,以训练集中的用x、y轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;
其中,通过全局网络的ResNet101网络对输入人体图像处理,得到不同尺寸的特征图输出,采用自底向上的U-Shape结构,将每一层特征图进行自底向上做采样后进行加和后进行预测操作;其中,用与GroudTruth进行L2损失函数计算以进行损失约束;通过预测操作进行预定卷积步骤处理后,生成不同关键点的热力图,从而得到初始人体关键点;
将全局网络中每一层加和的特征图,通过DilatedBottleneck后分别进行上采样,然后进行concat操作后通过Bottleneck,并采用基于难检测关键点的L2*损失约束,随后通过卷积进行热力图生成,修正初始的人体关键点,得到最终的人体关键点;模型迭代多次稳定后,完成模型训练;
S3.使用训练好的深度神经网络模型,对测试数据集中的包含人体的图像进行姿态估计处理。


2.根据权利要求1所述人体图像关键点姿态估计方法,其特征在于,所述特征金字塔网络采用预定数据增强方法处理图片,并对特征金字塔网络的后两个阶段进行修改以针对于目标检测,并将检测后人体图像裁剪后输入;具体为:
采用Resnet50为骨干网络进行特征提取,使用标准高斯分布随机初始化ResNet50网络;
根据Resnet50提取的特征,保留阶段1-4的4个尺度特征图P2,P3,P4,P5,并通过连接卷积核大小为1*1的卷积核,增加阶段5,特征图为P6的特征图;
阶段4以后保持特征图空间分辨率不变,即其中代表空间分辨率,i为原始图尺寸,x∈[i,2,3,4,5,6],在P4P5P6,之间通过连接卷积核大小为1*1的卷积核,以保持通道数一致;
最后将阶段4-6特征图按照金字塔架构加和形成特征金字塔,并采用FastRCNN方法进行目标检测,并通过回归损失和分类损失约束;分类损失和回归损失融合、分类损失采用logloss,回归的loss和R-CNN一致;总损失函数如下:



检测网络最后的全连接层...

【专利技术属性】
技术研发人员:孙哲南赫然侯峦轩马鑫
申请(专利权)人:天津中科智能识别产业技术研究院有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1