基于多级预测特征增强卷积神经网络的单人姿态估计方法技术

技术编号:24458055 阅读:49 留言:0更新日期:2020-06-10 16:09
本发明专利技术提出了一种基于多级预测特征增强卷积神经网络的单人姿态估计方法,实现步骤为:获取训练集和测试集;对人体骨架点进行等级划分;构建多级预测特征增强卷积神经网络;对多级预测特征增强卷积神经网络进行训练;基于训练好的多级预测特征增强卷积神经网络获取单人姿态估计结果。本发明专利技术采用多级预测特征增强卷积神经网络,区分人体姿态骨架点预测的难易程度并采用无参数的特征增强模块,使得提取的骨架点特征更加精细,同时极大减少了模型的参数量,有效提高了单人姿态估计的准确率和速度。

Single person attitude estimation method based on multi-level predictive feature enhanced convolutional neural network

【技术实现步骤摘要】
基于多级预测特征增强卷积神经网络的单人姿态估计方法
本专利技术属于计算机视觉
,涉及一种单人姿态估计方法,具体涉及一种基于多级预测特征增强神经网络的单人姿态估计方法,可用于人体行为分析技术的各项领域。
技术介绍
随着现代信息技术的飞速发展,利用人体行为分析技术对大数据中的人体行为进行快速准确的分析有着非常广泛的应用,如安防监控、运动分析和人机交互等。准确的人体姿态骨架点的获取是人体行为分析技术的基础,相较于利用Kinect深度相机获取人体姿态信息,人体姿态估计算法可以直接从RGB相机所得的图像中获取人体骨架点,经济实用且应用范围更广。另外,人体行为分析的各项领域,如2D多人姿态估计、3D姿态估计、姿态跟踪以及步态分析等,均依赖于准确的单人姿态估计算法。因此,急需要一种高精度轻量级的单人姿态估计算法,对图像中的人体进行快速、准确的姿态估计。传统的单人姿态估计算法直接通过全局特征将单人姿态估计问题看作分类或者回归问题直接求解,其采取的特征一般均使用HOG、ShapeContext和SIFI等浅层特征,算法精度一般且只适用于背景干净的场景。随着深度学习的发展,单人姿态估计算法开始使用具有强大特征表达能力的卷积神经网络,其估计效果的精度有了显著的提升,并且可以适用于较复杂背景的场景。同时,深度学习对单人姿态估计中的特征提取和空间位置建模不进行独立的拆解,算法模型更容易优化,因而设计性能良好的模型变得尤为重要。目前,针对单人姿态估计方法的研究,主要集中在利用多阶段特征融合卷积神经网络来获取的人体姿态骨架点信息。其实现方案是通过不断地利用多个级联堆叠的卷积层,对每个阶段的输出结果融合输入图像的特征来修正该阶段姿态估计的结果,在模型训练过程中未区分人体姿态骨架点检测的难易程度,简易骨架点占据过多学习机会不利于困难骨架点学习,使得人体姿态骨架点特征表示不准确,导致单人姿态估计的准确率较低。另外,现有的单人姿态估计算法会通过至少六个阶段的特征融合来获取较为准确的人体姿态结果,模型参数量剧增,导致单人姿态估计的速度降低。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出一种基于多级预测特征增强神经网络的单人姿态估计方法,旨在提高单人姿态估计的准确率和速度。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)获取训练集和测试集:从单人姿态估计数据集中随机选取M个带有真实标签的图像样本组成训练集,同时选取N个带有真实标签的图像样本组成测试集,其中,每个标签所包含人体骨架点的类别数为P,每个类别的人体骨架点个数为1,M≥2000,N≥10000,P≥14;(2)对人体骨架点进行等级划分:(2a)将测试集作为多阶段特征融合单人姿态估计模型的输入,对每个图像样本的每类人体骨架点的位置进行预测,并通过预测结果和人体骨架点的标签计算每类人体骨架点的准确率PCK;(2b)设置判断阈值σ1和σ2,并将PCK≥σ1的骨架点作为简单骨架点,将σ2<PCK<σ1骨架点作为较难骨架点,将PCK≤σ2骨架点作为困难骨架点,其中,0.7≤σ1≤0.9,0.5≤σ2≤0.7;(3)构建多级预测特征增强卷积神经网络:(3a)构建包括级联堆叠的多个卷积层和多个池化层的图像特征提取网络;(3b)构建包括级联的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络的骨架点预测网络,每个子网络均包括多个级联堆叠的卷积层、concat层、特征增强模块和预测层,其中,特征增强模块包括全局均值池化函数、L2归一化函数和缩放函数,用于对特征图的表达能力进行增强;(3c)将图像特征提取网络的输出与骨架点预测网络的输入连接,得到多级预测特征增强卷积神经网络;(4)对多级预测特征增强卷积神经网络进行训练:(4a)设迭代次数为t,最大迭代次数为T,T≥62500,并令t=0;(4b)从训练集中随机选取m个带有真实标签的图像样本作为多级预测特征增强卷积神经网络的输入进行训练,得到m个预测标签,并通过m个预测标签与其对应的真实标签计算多级预测特征增强卷积神经网络的损失值L,其中,m=1,2,4,8,16;(4c)采用梯度下降法,并通过损失值L对多级预测特征增强卷积神经网络各层的参数进行更新;(4d)判断t>=T是否成立,若是,得到训练好的多级预测特征增强卷积神经网络,否则,令t=t+1,并执行步骤(4b);(5)基于训练好的多级预测特征增强卷积神经网络获取单人姿态估计结果:将与训练集中图像样本同类型的待预测图像作为多级预测特征增强卷积神经网络的输入进行检测,得到待预测图像的P个骨架点的预测结果,并将P个骨架点的预测结果按照人体骨架连接方式进行连接,得到最终的姿态估计结果。与专利技术与现有技术相比,具有如下优点:第一,本专利技术的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络实现了骨架点的多级预测,直接分等级预测骨架点,避免采用多阶段特征融合方式的同时使得提取的骨架点特征更加精细,克服了现有技术不区分人体姿态骨架点预测的难易程度,进而不能准确的表示骨架点特征,导致现有技术单人姿态估计效果差的问题;克服了现有单人姿态估计算法模型参数量过大,导致对图像中人体姿态估计速度下降的问题,有效提高了单人姿态估计的准确率和速度。第二,本专利技术构建了特征增强模块,使用无参数的计算方式增强人体骨架点特征表示,克服了现有技术中人体姿态骨架点特征表示不准确的问题,进一步提高了单人姿态估计的准确率。附图说明图1为本专利技术的实现流程图;图2为本专利技术采用的人体骨架的结构示意图。具体实施方式以下结合附图和具体实施例子,对本专利技术作进一步详细描述。参照图1,本专利技术包括如下步骤:(1)获取训练集和测试集:从单人姿态估计数据集中随机选取M个带有真实标签的图像样本组成训练集,同时选取N个带有真实标签的图像样本组成测试集,其中,每个标签所包含人体骨架点的类别数为P,每个类别的人体骨架点个数为1,M=2000,N=10000,P=14;(2)对人体骨架点进行等级划分:(2a)将测试集作为多阶段特征融合单人姿态估计模型的输入,本实施例采取现阶段准确率较高的Hourglass模型对每个图像样本的每类人体骨架点的位置进行预测,并通过预测结果和人体骨架点的标签计算每类人体骨架点的准确率PCK,其计算方式为:其中,A和A+分别表示测试集中的骨架点总个数和预测正确的骨架点个数。(2b)设置判断阈值σ1和σ2,并将PCK≥σ1的骨架点作为简单骨架点,将σ2<PCK<σ1骨架点作为较难骨架点,将PCK≤σ2骨架点作为困难骨架点,其中,σ1=0.9,σ2=0.7;(3)构建多级预测特征增强卷积神经网络:(3a)构建包括级联堆叠的七个卷积层和四个池化层的图像特征提取网络,其具体结构为:第一池化层→第一卷积层→第二池化层→第二卷积层→第三本文档来自技高网
...

【技术保护点】
1.一种基于多级预测特征增强卷积神经网络的单人姿态估计方法,其特征在于,包括如下步骤:/n(1)获取训练集和测试集:/n从单人姿态估计数据集中随机选取M个带有真实标签的图像样本组成训练集,同时选取N个带有真实标签的图像样本组成测试集,其中,每个标签所包含人体骨架点的类别数为P,每个类别的人体骨架点个数为1,M≥2000,N≥10000,P≥14;/n(2)对人体骨架点进行等级划分:/n(2a)将测试集作为多阶段特征融合单人姿态估计模型的输入,对每个图像样本的每类人体骨架点的位置进行预测,并通过预测结果和人体骨架点的标签计算每类人体骨架点的准确率PCK;/n(2b)设置判断阈值σ

【技术特征摘要】
1.一种基于多级预测特征增强卷积神经网络的单人姿态估计方法,其特征在于,包括如下步骤:
(1)获取训练集和测试集:
从单人姿态估计数据集中随机选取M个带有真实标签的图像样本组成训练集,同时选取N个带有真实标签的图像样本组成测试集,其中,每个标签所包含人体骨架点的类别数为P,每个类别的人体骨架点个数为1,M≥2000,N≥10000,P≥14;
(2)对人体骨架点进行等级划分:
(2a)将测试集作为多阶段特征融合单人姿态估计模型的输入,对每个图像样本的每类人体骨架点的位置进行预测,并通过预测结果和人体骨架点的标签计算每类人体骨架点的准确率PCK;
(2b)设置判断阈值σ1和σ2,并将PCK≥σ1的骨架点作为简单骨架点,将σ2<PCK<σ1骨架点作为较难骨架点,将PCK≤σ2骨架点作为困难骨架点,其中,0.7≤σ1≤0.9,0.5≤σ2≤0.7;
(3)构建多级预测特征增强卷积神经网络:
(3a)构建包括级联堆叠的多个卷积层和多个池化层的图像特征提取网络;
(3b)构建包括级联的简单骨架点预测子网络、较难骨架点预测子网络和困难骨架点预测子网络的骨架点预测网络,每个子网络均包括多个级联堆叠的卷积层、concat层、特征增强模块和预测层,其中,特征增强模块包括全局均值池化函数、L2归一化函数和缩放函数,用于对特征图的表达能力进行增强;
(3c)将图像特征提取网络的输出与骨架点预测网络的输入连接,得到多级预测特征增强卷积神经网络;
(4)对多级预测特征增强卷积神经网络进行训练:
(4a)设迭代次数为t,最大迭代次数为T,T≥62500,并令t=0;
(4b)从训练集中随机选取m个带有真实标签的图像样本作为多级预测特征增强卷积神经网络的输入进行训练,得到m个预测标签,并通过m个预测标签与其对应的真实标签计算多级预测特征增强卷积神经网络的损失值L,其中,m=1,2,4,8,16;
(4c)采用梯度下降法,并通过损失值L对多级预测特征增强卷积神经网络各层的参数进行更新;
(4d)判断t>=T是否成立,若是,得到训练好的多级预测特征增强卷积神经网络,否则,令t=t+1,并执行步骤(4b);
(5)基于训练好的多级预测特征增强卷积神经网络获取单人姿态估计结果:
将与训练集中图像样本同类型的待预测图像作为多级预测特征增强卷积神经网络的输入进行检测,得到待预测图像的P个骨架点的预测结果,并将P个骨架点的预测结果按照人体骨架连接方式进行连接,得到最终的姿态估计结果。


2.根据权利要求1所述的基于多级预测特征增强卷积神经网络的单人姿态估计方法,其特征在于,步骤(2a)中所述的多阶段特征融合单人姿态估计模型和人体骨架点的准确率PCK,其中,多阶段特征融合单人姿态估计模型采用Hourglass模型或CPM模型,人体骨架点的准确率PCK的计算方式为:



其中,A和A+分别表示测试集中的骨架点总个数和预测正确的骨架点个数。


3.根据权利要求1所述的基于多级预测特征增强卷积神经网络的单人姿态估计方法,其特征在于,步骤(3a)中所述的图像特征提取网络,包括七个卷积层和四个池化层,该图像特征提取子网络的具体结构为:第一池化层→第一卷积...

【专利技术属性】
技术研发人员:谢雪梅马丽华柴维路
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1