一种基于卷积神经网络的多人姿态估计方法技术

技术编号:21478666 阅读:44 留言:0更新日期:2019-06-29 05:02
本发明专利技术提出了一种基于卷积神经网络的多人姿态估计方法,将待处理图像输入到已完成训练的多人姿态估计网络得到两组数据,分别为人体关键点位置数据和人体关键点映射向量数据,然后解码数据得到图像中人体关键点和人体中心点的位置,并通过映射向量将关键点映射到可聚类的二维空间,再使用k‑means算法对映射后的关键点进行聚类间接实现原始人体关键点的分组,对分组关键点分析,最终实现多人姿态估计。本发明专利技术提出的多人姿态估计网络由特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块四部分组成,可以实现端到端的训练和预测。本发明专利技术是一种自下而上多人姿态估计方法,在速度和准确率上均有良好表现。

【技术实现步骤摘要】
一种基于卷积神经网络的多人姿态估计方法
本专利技术属于计算机视觉
,具体涉及到了一种基于卷积神经网络的多人姿态估计方法。
技术介绍
在计算机视觉任务中,人体常常是主要的研究对象,例如视频监控、运动分析和人机交互等。人的行为动作由人体关键点或称为骨骼点的运动组成,如肩部、手肘和手腕的运动组成手的运动。如果可以定位这些人体关键点,就可以为后续的人体行为分析打下基础,例如在无人监守的情况下自动识别打砸,行人跌倒等异常行为。基于计算机视觉的多人姿态估计,是指根据图像信息定位人体关键点,将人体关键点相连从而构成人体骨架模型。多人姿态估计主要面临以下难点:图像中的人体可能出现在任意位置,数量和尺寸未知;图像中的人体存在互相遮挡的情况,人体外观不完整;图像中的人体姿态复杂多变等。近年来,得益于卷积神经网络的强大图像特征提取能力,多人姿态估计取得了显著的进步,主要可以分为自上而下和自下而上两种思路。其中自上而下是指,首先检测图像中人体从而获得人体的位置、数量和尺寸信息,再对每个检出人体采用单人姿态估计方法。这种方法依赖人体检测器,测试速度慢且随图像中人体个数线性变慢。自下而上是指,首先检测图像中所有的人体关键点再建模关键点之间的关系,属于相同人体的关键点分组在一起,组成人体骨架模型,从而实现多人姿态估计。现有技术一般采用预测关键点标记或者关键点之间的连接关系,通过标记或者连接关系对关键点分组,不能很好的利用人体结构特点,可解释性较差。
技术实现思路
针对现有技术的缺陷,本专利技术提供了一种基于卷积神经网络的多人姿态估计方法,旨在解决现有技术自上而下的方法速度慢,依赖人体检测器,自下而上的方法其关键点分组可解释性较差的问题。为实现上述目的,本专利技术提供了一种基于卷积神经网络的多人姿态估计方法,包括:(1)使用完成训练的多人姿态估计网络对输入的512×512大小的图像进行计算得到两种数据,分别是人体关键点位置数据和人体关键点映射向量数据;(2)解码人体关键点位置数据得到图像中所有的16类人体关键点和人体中心,解码人体关键点映射向量数据,将每个人体关键点和人体中心映射到可聚类的二维空间得到人体关键点映射后的二维坐标;(3)使用k-means对映射后的二维坐标分组,从而间接实现原始人体关键点分组,完成多人姿态估计。优选地,步骤(1)中所述多人姿态估计网络由特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块四部分组成。其中,特征提取网络为去除池化层和全连接层的ResNet50(残差50)网络,用于提取图像特征;特征通道压缩模块由卷积层、BN(BatchNormalization,批归一化)和ReLU(Rectifiedlinearunit,修正线性单元)激活函数组成,用于压缩特征,使得特征通道数由2048缩减至512;人体关键点位置分支模块由3层卷积和激活函数组成,前两层激活函数为ReLU激活函数,最后一层激活函数为sigmoid激活函数,用于输出人体关键点位置数据;人体关键点映射向量分支模块由3层卷积和激活函数组成,前两层激活函数为ReLU激活函数,最后一层激活函数为tanh激活函数,用于输出人体关键点映射向量数据。优选地,多人姿态估计网络的训练采用的损失函数为平方损失函数,定义总体损失函数为:Loss=loc_loss+conf_loss+vec_loss其中loc_loss表示位置损失,conf_loss表示置信度损失,vec_loss表示映射向量损失,具体计算公式如下:其中为示性函数表示第i类人体关键点落在第k个网格中,为示性函数表示第i类人体关键点没有落在第k个网格中,具体为以下公式:表示第k个网格第i类人体关键点的位置输出置信度输出和映射向量输出分别表示对应的真实标签值,λxy,λconf_obj,λconf_noobj,λvec是调节位置损失、正样本置信度损失、负样本置信度损失和映射向量损失相应各部分损失的经验参数,考虑到不含关键点的网格占比大,为了平衡正负样本,经验性的将各参数取值为1、1、0.05和1。优选地,步骤(1)中所述人体关键点位置数据是S×S×51的数据块,其中S×S指图像划分成S×S大小的网格,51由16类人体关键点和1个人体中心共17组位置信息(p,x,y)组成,p表示人体关键点落在该网格的概率,x表示人体关键点相对于网格左上角的水平方向偏移,y表示人体关键点相对于网格左上角的竖直方向偏移。优选地,步骤(1)中所述人体关键点映射向量数据是S×S×32的数据块,其中S×S指图像划分成S×S大小的网格,32由16类人体关键点指向人体中心的映射向量v组成,其中v是二维向量(vx,vy)。优选地,步骤(2)中所述解码人体关键点位置数据的过程为,通过S×S网格输出概率p,使用非极大值抑制确定最大概率输出值,其对应关键点位于S×S网格的第row行,第col列,该网格输出人体关键点相对于该网格左上角的坐标(x,y),则人体关键点位置(px,py)由以下公式得到。其中W和H为输入图像的宽和高。优选地,步骤(2)中所述解码人体关键点映射向量数据具体为关键点所在网格输出映射向量(vx,vy),由以下公式得到映射后的二维坐标(x′,y′):x′=px+vxy′=py+vy优选地,步骤(3)中所述使用k-means对映射后的二维坐标分组具体为k-means算法,聚类中心个数是人体中心个数,聚类初始化中心是人体中心位置,聚类所用特征是人体关键点映射后的二维坐标(x′,y′)。附图说明图1是本专利技术提供的基于卷积神经网络的多人姿态估计方法的流程示意图;图2是本专利技术实施例提供的多人姿态估计网络的结构示意图;图3是本专利技术实施例提供的人体关键点位置数据示意图;图4是本专利技术实施例提供的人体关键点映射向量数据示意图;图5是本专利技术实施例提供的人体关键点与S×S网格关系示意图;图6是本专利技术实施例提供的人体关键点的预测结果示意图;图7是本专利技术实施例提供的人体关键点经过映射后的结果示意图;图8为本专利技术实施例提供的映射后的人体关键点聚类结果示意图;图9为本专利技术实施例提供的多人姿态估计结果示意图。具体实施方式为了充分阐述本专利技术的目的、技术方案及优点,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术的具体步骤如图1所示的流程示意图,可以分为以下步骤:(1)输入512×512大小的图像,使用完成训练的多人姿态估计网络计算得到两种数据,分别是人体关键点位置数据和人体关键点映射向量数据;(2)解码人体关键点位置数据得到图像中所有的16类人体关键点和人体中心,解码人体关键点映射向量数据,将每个人体关键点和人体中心映射到可聚类的二维空间得到人体关键点映射后的二维坐标;(3)使用k-means对映射后的人体关键点聚类分组,从而间接实现原始人体关键点分组,完成多人姿态估计。搭建多人姿态估计网络如图2所示,该网络由特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块四部分组成。具体地,特征提取网络为去除池化层和全连接层的ResNet本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的多人姿态估计方法,其特征在于,包括下述步骤:(1)使用完成训练的多人姿态估计网络对输入的图像进行计算得到人体关键点位置数据和人体关键点映射向量数据;(2)解码所述人体关键点位置数据得到所述图像中所有的m类人体关键点和人体中心,解码所述人体关键点映射向量数据,将所述每类人体关键点和人体中心映射到可聚类的二维空间得到人体关键点映射后的二维坐标;(3)对所述映射后的二维坐标分组,进行多人姿态估计。

【技术特征摘要】
1.一种基于卷积神经网络的多人姿态估计方法,其特征在于,包括下述步骤:(1)使用完成训练的多人姿态估计网络对输入的图像进行计算得到人体关键点位置数据和人体关键点映射向量数据;(2)解码所述人体关键点位置数据得到所述图像中所有的m类人体关键点和人体中心,解码所述人体关键点映射向量数据,将所述每类人体关键点和人体中心映射到可聚类的二维空间得到人体关键点映射后的二维坐标;(3)对所述映射后的二维坐标分组,进行多人姿态估计。2.如权利要求1所述的多人姿态估计方法,其特征在于,所述多人姿态估计网络包括特征提取网络、特征通道压缩模块、人体关键点位置分支模块和人体关键点映射向量分支模块;所述特征提取网络用于提取所述图像的特征;所述特征通道压缩模块用于压缩所述特征;所述人体关键点位置分支模块用于输出人体关键点位置数据;所述人体关键点映射向量分支模块用于输出人体关键点映射向量数据。3.如权利要求2所述的多人姿态估计方法,其特征在于,所述特征通道压缩模块包括卷积层、BN(BatchNormalization,批归一化)和ReLU(Rectifiedlinearunit,修正线性单元)激活函数;所述人体关键点位置分支模块包括3层卷积和激活函数,前两层激活函数为ReLU激活函数,最后一层激活函数为sigmoid激活函数;所述人体关键点映射向量分支模块包括3层卷积和激活函数,前两层激活函数为ReLU激活函数,最后一层激活函数为tanh激活函数。4.如权利要求1所述的多人姿态估计方法,其特征在于,所述多人姿态估计网络的训练采用的损失函数为平方损失函数,定义总体损失函数为:Loss=loc_loss+conf_loss+vec_loss其中loc_loss表示位置损失,conf_loss表示...

【专利技术属性】
技术研发人员:邹腊梅熊紫华李长峰李晓光陈婷张松伟俞天敏车鑫颜露新钟胜杨卫东
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1