一种人体部位关键点的定位方法及系统技术方案

技术编号:29226474 阅读:26 留言:0更新日期:2021-07-10 01:12
本发明专利技术提供一种人体部位关键点的定位方法及系统,其方法包括:S1.对包含人体部位的图像进行预处理;S2.将所述步骤S1预处理后的图像输入至卷积神经网络分支获取关键点热力图,并对所述关键点热力图进行解码获得关键点的初始坐标;通过连接层将所述卷积神经网络分支中各阶段的特征图进行卷积获得对应的各阶段的中继热力图,并将所述各阶段的中继热力图进行编码和解码生成对应的各阶段的节点特征和中继关键点坐标;将所述各阶段的节点特征和中继关键点坐标分别输入至所述图卷积神经网络分支中对应的各阶段,以获得关键点的坐标补偿;S3.根据所述关键点的初始坐标和所述关键点的坐标补偿计算获得关键点的最终坐标。该方法和系统能够提高人体部位关键点的检测精度。法和系统能够提高人体部位关键点的检测精度。法和系统能够提高人体部位关键点的检测精度。

【技术实现步骤摘要】
一种人体部位关键点的定位方法及系统


[0001]本专利技术涉及计算机数据处理
,尤其涉及一种人体部位关键点的定位方法及系统。

技术介绍

[0002]人体姿态估计的主要目标是将单张RGB图像中的所有人的骨骼关键点都定位出来并连接成一个个的人体实例。人体姿态估计是计算机视觉中的一个十分重要且基础的任务。传统算法将人体姿态估计任务视为一个树状或者网状的图论模型,基于手工设计的特征去求解。这种方法的表征能力有限,无法取得较好的效果。随着深度学习的不断突破,人体姿态估计领域也取得了飞速的进展。
[0003]当前的人体姿态估计主流算法主要分为两类:自顶向下(Top

down)和自底向上(Bottom

up)。自顶向下算法首先采用一个人体检测器输出矩形边界框(bounding box)来标定出行人位置。通常而言矩形边界框是一个四元组参量(x,y,w,h),x表示矩形边界框的左上角点的横坐标,y表示矩形边界框的左上角点的纵坐标,w表示矩形边界框的宽度,h表示矩形边界框的高度,用这样一个四元组便表示出了矩形边界框的位置和大小信息。然后将包含行人的矩形框区域扣出,对每个人体实例进行单人姿态估计。单人姿态估计的流程就是将包含单人的图片输入到设计好的卷积神经网络当中,假定人有K个骨骼关键点,则神经网络会输出K通道的热力图,每个通道表示图片中任意位置是该种类骨骼关键点的概率大小,然后对每个通道的热力图进行解码(一般是取峰值往次峰值偏移)便可得到每个骨骼关键点的二维坐标。自底向上算法首先检测出整张图片中的所有不含实例标注的人体骨骼关键点,具体而言是将包含多个人的整张图片输入到卷积神经网络当中,然后输出所有骨骼关键点的热力图,一样也是K个通道,然后对每个通道的热力图进行解码得到每一种类的骨骼关键点的二维坐标信息,接着将属于同一个人的关键点连接得到一个个的人体实例。
[0004]然而,现有技术中的各种方法/算法对于人体姿态估计并不精确。本申请专利技术人通过仔细研究发现现有技术中的各种方法/算法只注重于学习更好更精致的图像表征来生成更高质量的关键点热力图。然而在热力图上,一个像素点位置上的信息会被压缩成对应的人体关键点压缩的概率值,其会导致该像素点本身所携带的其他信息被抹杀。举个例子,热力图上的某一位置有一大片区域的响应,我们仅仅只能推测这一位置属于这一对应的关键点。然而我们无法分辨出该关键点向平面内外的旋转方向,以及与该关键点铰链的肢体的伸展方向。除此之外,服饰的多样性和严重的遮挡都会引发外貌表征学习的困难。针对这一问题,本申请人察觉到通过隐式地模拟相互铰链的骨骼关键点之间的空间表征能改善只从外貌特征学习估计人体姿态的性能。
[0005]图卷积神经网络(Graph Convolutional Network,GCN)是由Thomas N.Kipf和Max Welling在《Semi

supervised classification with graph convolutional networks》一文中提出的一种新型的神经网络。这种神经网络专门处理图形状的数据结构。一般来说,图卷积网络可分为基于频谱的和基于空间两类。前者利用傅里叶变换来实现卷积过程,后者
拓展普通卷积的空间定义来对图中的结点及其临近结点实施传统的卷积。通常来讲,基于频谱的图卷积适用于处理拓扑结构不变的图数据,而基于空间的图卷积擅长处理拓扑结构变化的图数据。
[0006]一个简单的图卷积层可被定义为如下式子:
[0007][0008]其中X代表了输入的节点特征,是邻接矩阵A正规化版本。W为可学习的参数矩阵。σ(
·
)表示激活函数,常见的有ReLU函数。然而本申请人发现简单的图卷积网络并不适用于模拟骨骼关键点内部的空间联系。原因如下:(1)可学习矩阵W对图结构中的边都是共享的,因此,图数据的内部结构并没有很好地利用起来;(2)邻接矩阵限制了简单图卷积层只能从每个节点的一阶领域里面捕获特征;(3)简单的图卷积网络只利用了空间信息如二维骨骼点坐标但忽略了基于肢体的语义特征。

技术实现思路

[0009]为解决上述问题,本专利技术提出一种人体部位关键点的定位方法及系统,其能提升关键点的检测精度。
[0010]本专利技术提出一种人体部位关键点的定位方法,包括:S1.对包含人体部位的图像进行预处理;S2.将所述步骤S1预处理后的图像输入至空间结构表征网络模块中的卷积神经网络分支获取关键点热力图,并对所述关键点热力图进行解码获得关键点的初始坐标;通过所述空间结构表征网络模块中的连接层将所述卷积神经网络分支中各阶段的特征图进行卷积获得对应的各阶段的中继热力图,并将所述各阶段的中继热力图进行编码和解码生成对应的各阶段的节点特征和中继关键点坐标;将所述各阶段的节点特征和中继关键点坐标分别输入至所述空间结构表征网络模块中的图卷积神经网络分支中对应的各阶段,以获得关键点的坐标补偿;S3.根据所述关键点的初始坐标和所述关键点的坐标补偿计算获得关键点的最终坐标。
[0011]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的人体部位关键点的定位方法。
[0012]本申请还提供一种人体部位关键点的定位系统,包括:预处理模块:用于对包含人体部位的图像进行预处理;空间结构表征网络模块,包括:卷积神经网络分支:用于输入预处理后的图像以获取关键点热力图,并对所述关键点热力图进行解码获得关键点的初始坐标;连接层:用于连接卷积神经网络分支和图卷积神经网络分支的各阶段,将所述卷积神经网络分支中各阶段的特征图进行卷积获得对应的各阶段的中继热力图,并将所述各阶段的中继热力图进行编码和解码生成对应的各阶段的节点特征和中继关键点坐标;图卷积神经网络分支:用于输入各阶段的节点特征和中继关键点坐标以获得关键点的坐标补偿;最终坐标计算模块:用于根据所述关键点的初始坐标和所述关键点的坐标补偿计算获得关键点的最终坐标。
[0013]本专利技术的有益效果:
[0014]1)传统算法中对空间结构表征采用手工设计,这种手工设计的特征泛化能力弱。本专利技术将卷积神经网络与图卷积神经网络作为两个平行且相互交汇的分枝一起共同迭代,一方面设置卷积神经网络分支,可以直接利用上当前最先进、效果最好的人体部位关键点
估计算法,另一方面采用图卷积神经网络分支来隐式地模拟出人体部位关键点之间的空间结构联系,从而克服了人体部位关键点估计的传统方法和当前主流方法的局限性,也大大提升了关键点的检测精度。
[0015]2)本专利技术的方法具备良好的灵活性和可拓展性。相适应地更换卷积神经网络分枝和图卷积神经网络分枝便针对根据不同的人体部位进行关键点估计,如:人体姿态估计,人体关键点检测,手势估计等。本申请的空间结构表征网络模块,不仅适用于单阶段的卷积网络,而且适用于多阶段网络,可扩展性强。
[0016]3)传统的卷积计算基于二维图像,使用滤波器进行遍历,占用较大的空间存储,计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体部位关键点的定位方法,其特征在于,包括S1.对包含人体部位的图像进行预处理;S2.将所述步骤S1预处理后的图像输入至空间结构表征网络模块中的卷积神经网络分支获取关键点热力图,并对所述关键点热力图进行解码获得关键点的初始坐标;通过所述空间结构表征网络模块中的连接层将所述卷积神经网络分支中各阶段的特征图进行卷积获得对应的各阶段的中继热力图,并将所述各阶段的中继热力图进行编码和解码生成对应的各阶段的节点特征和中继关键点坐标;将所述各阶段的节点特征和中继关键点坐标分别输入至所述空间结构表征网络模块中的图卷积神经网络分支中对应的各阶段,以获得关键点的坐标补偿;S3.根据所述关键点的初始坐标和所述关键点的坐标补偿计算获得关键点的最终坐标。2.如权利要求1所述的人体部位关键点的定位方法,其特征在于,所述步骤S1的预处理包括:在数据集ImageNet上完成对卷积神经网络分支的预训练;利用检测器将图像中的人体部位一一分别检测出来,并进行数据增强。3.如权利要求1所述的人体部位关键点的定位方法,其特征在于,所述卷积神经网络分支包括HRNet或SimpleBaseline

152。4.如权利要求3所述的人体部位关键点的定位方法,其特征在于,所述HRNet包括4个阶段,且按照空间分辨率大小分为四层,从上到下四层的空间分别率大小依次为原图尺寸大小的1/4,1/8,1/16,1/32。5.如权利要求1所述的人体部位关键点的定位方法,其特征在于,所述图卷积神经网络分支包括SemGCN。6.如权利要求1所述的人体部位关键点的定位方法,其特征在于,所述图卷积神经网络分支中图卷积层的输出为:J
out
=σ(fc1(σ((A
kw

A)J
in
W))+fc2(J
in
))其中,fc1与fc2是相互间不共享的全连接层;A为邻接矩阵;W为学习参数矩阵;J
in
为输入的关键点空间坐标信息;A
kw
为一个关键点可感知的导向矩阵,且A
kw

【专利技术属性】
技术研发人员:王好谦蔡元昊
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1