一种基于神经网络的人体关键点快速提取方法技术

技术编号:24757639 阅读:91 留言:0更新日期:2020-07-04 09:29
本发明专利技术公开了一种基于神经网络的人体关键点快速提取方法,包括步骤:1)构建训练数据集;2)人体关键点神经网络模型的设计;3)使用数据增强方法对原始输入图像进行数据增强;4)对设计的模型进行多次迭代训练;5)使用已有的行人检测方法以及训练好的人体关键点神经网络模型对图像中的行人进行关键点提取,其中,对于实际应用过程中容易产生的关键点噪声,使用左右翻转的方法来抵抗噪声,实现对关键点提取过程中的有效降噪。本发明专利技术可使人体关键点提取在满足检测精确度前提下大大提高检测速度,实现从上到下的人体关键点提取中单人关键点提取的功能。

A fast extraction method of human key points based on Neural Network

【技术实现步骤摘要】
一种基于神经网络的人体关键点快速提取方法
本专利技术涉及图像处理和计算机视觉的
,尤其是指一种基于神经网络的人体关键点快速提取方法。
技术介绍
人体关键点提取在计算机视觉领域中是指对图像中行人的关键点进行检测,定位并返回人体各个部位关键点的位置坐标,由坐标即可得到行人的当前姿态。由于图片中行人的大小不一,行人的姿态各异,以及行人之间的互相遮挡等因素的影响,人体关键点提取是十分具有挑战性的难题。人体关键点提取具有极其重大的意义,它可以在智能视频监控,病人监护系统,人机交互,虚拟现实,人体动画,智能家居,智能安防,运动员辅助训练和人体行为分析等应用中被广泛使用。因为智能视频监控,游戏娱乐产业等领域越来越被重视,对人体关键点提取的需求也逐步提升,人体关键点提取技术越来越受到学术界和工业界的重视。目前实现行人检测方法有很多种,其中主要包含传统方法和基于神经网络的深度学习方法。传统方法一般的思路是在几何先验的基础上再进行模版匹配,传统方法的缺陷是几何先验需要人为设定,然而现实场景中的行人往往姿态各异,因此很难寻找几何先验知识,另外特定的几何先验知识往往并不适用于所有场景。因此,近年来深度学习的方法被广泛应用到人体关键点提取中,有一系列算法应运而生,如openpose、alphapose、CPN等。然而这些算法固然定位精准,但由于网络结构过于冗余、计算量过大等原因导致前向推理速度较慢,因此难以落地到实际应用。基于深度学习的人体关键点提取方法主要分为两种:从上到下和从下到上。其中从上到下的人体关键点提取方法主要包含两个部分,行人检测和单人关键点提取,而从下到上的方法也包含两个部分,关键点检测和关键点聚类。由于从下到上的方法在关键点分配的时候会存在二义性,导致关键点连接错误,同时从下到上的方法中关键点聚类是NP完全问题,计算复杂度较高,因此现在绝大部分基于深度学习的人体关键点提取方法是从上到下的。综合以上论述,专利技术一种兼顾实时性和准确度的基于神经网络的人体关键点提取方法具有较高的科学研究和实际应用价值。
技术实现思路
本专利技术的目的在于克服现有传统方法中需要人工提取先验知识的不足,以及改进现有绝大多数深度学习方法中网络结构过于复杂,前向推理速度慢的缺陷,提出了一种基于神经网络的人体关键点快速提取方法,该方法采用基于组合卷积模块和反卷积模块的神经网络,并使用神经网络输出的热力图的smooth-L1损失进行训练,使人体关键点提取在满足检测精确度前提下大大提高检测速度,实现从上到下的人体关键点提取中单人关键点提取的功能。为实现上述目的,本专利技术所提供的技术方案为:一种基于神经网络的人体关键点快速提取方法,包括以下步骤:1)通过对coco数据集的图片单人裁剪和归一化操作,同时对标注信息进行同样变换,构建训练数据集;2)根据训练数据集和实际应用场景的特点,设计合适的人体关键点神经网络模型;3)为增大网络模型训练数据量及适用性,需要使用数据增强方法对原始输入图像进行数据增强;4)对设计的人体关键点神经网络模型设定训练参数进行多次迭代训练,并保存训练的神经网络模型参数,并根据指标选择最优模型;5)将待进行人体关键点提取的图像首先使用已有的行人检测方法将图像中的行人检测出来,然后将行人裁剪出来并归一化到固定长宽,并输入到训练好的人体关键点神经网络模型中进行前向推理,得到热力响应图,即特征图,将热力响应图最大的位置映射回原图,即完成人体关键点提取的功能;其中,对于实际应用过程中容易产生的关键点噪声,使用左右翻转的方法来抵抗噪声,实现对关键点提取过程中的有效降噪。在步骤1)中,对coco公开数据集注释文件中的关键点进行操作,coco数据集中关键点的注释属性为:关键点坐标、关键是否可见、关键点数量及骨架;关键点在图片中的横纵坐标分别用x,y表示;关键点是否可见使用v来表示,其中定义v=0表示该关键点未被标记,v=1表示该关键点被标记但是不可见,而v=2表示该关键点被标记且可见;骨架信息表示不同关键点之间的连线;首先,对可见关键点进行求取外接矩形框的操作,然后矩形框的中心保持不变,将矩形的宽高扩大1.2倍,如果超过图片边界,那么就以图片的边界为界限,这样能够确保外接矩形框包含了该行人的整个身体。在步骤2)中,综合考虑数据集图片以及应用场景的特点,设计合适的人体关键点神经网络模型,包括以下步骤:2.1)搭建关键点提取网络根据实时性和高精度要求构建关键点提取网络,其结构如下:第一层为组合卷积模块A,它由一个步长为2的卷积层、一个批归一化层、一个relu非线性激活层组成;第二层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第三层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第四层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第五层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第六层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第七层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第八层到第十二层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第十三层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第十四层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;第十五层为反卷积模块D,它由一个步长为2的pixelshuffle上采样层,一个Relu非线性激活层组成;第十六层为反卷积模块D,它由一个步长为2的pixelshuffle上采样层,一个Relu非线性激活层组成;第十七层为反卷积模块D,它由一个步长为2的pixelshuffle上采样层,一个Relu非线性激活层组成;第十八层为卷积模块E,它由一个步长为1的卷积层组成;2.2)设置损失函数设置损失函数为smooth-L1损失函数,公式如下:式中,ynij为神经网络模型输出的第n个关键点的特征图在位置(i,j)上的响应,而表示真实标签的第n个关键点的特征图在位置(i,j)的响应;其中,真实标签的制作为:以变换后的coco数据集标注的每个关键点为中心生成一个高斯分布,高斯核大小为9×9,在高斯分布以外的区域标注为0;总的损失函数为各个关键点的smooth-L1损失的求和,即在步骤3)中,为增大网络模型训练数据量及适用性,本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的人体关键点快速提取方法,其特征在于,包括以下步骤:/n1)通过对coco数据集的图片单人裁剪和归一化操作,同时对标注信息进行同样变换,构建训练数据集;/n2)根据训练数据集和实际应用场景的特点,设计合适的人体关键点神经网络模型;/n3)为增大网络模型训练数据量及适用性,需要使用数据增强方法对原始输入图像进行数据增强;/n4)对设计的人体关键点神经网络模型设定训练参数进行多次迭代训练,并保存训练的神经网络模型参数,并根据指标选择最优模型;/n5)将待进行人体关键点提取的图像首先使用已有的行人检测方法将图像中的行人检测出来,然后将行人裁剪出来并归一化到固定长宽,并输入到训练好的人体关键点神经网络模型中进行前向推理,得到热力响应图,即特征图,将特征图最大的位置映射回原图,即完成人体关键点提取的功能;其中,对于实际应用过程中容易产生的关键点噪声,使用左右翻转的方法来抵抗噪声,实现对关键点提取过程中的有效降噪。/n

【技术特征摘要】
1.一种基于神经网络的人体关键点快速提取方法,其特征在于,包括以下步骤:
1)通过对coco数据集的图片单人裁剪和归一化操作,同时对标注信息进行同样变换,构建训练数据集;
2)根据训练数据集和实际应用场景的特点,设计合适的人体关键点神经网络模型;
3)为增大网络模型训练数据量及适用性,需要使用数据增强方法对原始输入图像进行数据增强;
4)对设计的人体关键点神经网络模型设定训练参数进行多次迭代训练,并保存训练的神经网络模型参数,并根据指标选择最优模型;
5)将待进行人体关键点提取的图像首先使用已有的行人检测方法将图像中的行人检测出来,然后将行人裁剪出来并归一化到固定长宽,并输入到训练好的人体关键点神经网络模型中进行前向推理,得到热力响应图,即特征图,将特征图最大的位置映射回原图,即完成人体关键点提取的功能;其中,对于实际应用过程中容易产生的关键点噪声,使用左右翻转的方法来抵抗噪声,实现对关键点提取过程中的有效降噪。


2.根据权利要求1所述的一种基于神经网络的人体关键点快速提取方法,其特征在于:在步骤1)中,对coco公开数据集注释文件中的关键点进行操作,coco数据集中关键点的注释属性为:关键点坐标、关键是否可见、关键点数量及骨架;关键点在图片中的横纵坐标分别用x,y表示;关键点是否可见使用v来表示,其中定义v=0表示该关键点未被标记,v=1表示该关键点被标记但是不可见,而v=2表示该关键点被标记且可见;骨架信息表示不同关键点之间的连线;首先,对可见关键点进行求取外接矩形框的操作,然后矩形框的中心保持不变,将矩形的宽高扩大1.2倍,如果超过图片边界,那么就以图片的边界为界限,这样能够确保外接矩形框包含了该行人的整个身体。


3.根据权利要求1所述的一种基于神经网络的人体关键点快速提取方法,其特征在于,在步骤2)中,综合考虑数据集图片以及应用场景的特点,设计合适的人体关键点神经网络模型,包括以下步骤:
2.1)搭建关键点提取网络
根据实时性和高精度要求构建关键点提取网络,其结构如下:
第一层为组合卷积模块A,它由一个步长为2的卷积层、一个批归一化层、一个relu非线性激活层组成;
第二层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第三层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第四层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第五层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第六层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第七层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第八层到第十二层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第十三层为组合卷积模块C,它由一个步长为2的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第十四层为组合卷积模块B,它由一个步长为1的深度卷积层、一个点卷积层、两个批归一化层、两个Relu非线性激活层组成;
第十五层为反卷积...

【专利技术属性】
技术研发人员:杜启亮黄理广田联房钟立泰张大明李淼
申请(专利权)人:华南理工大学日立电梯广州自动扶梯有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1