基于强化特征复现融合的人体姿态估计方法技术

技术编号:39841036 阅读:11 留言:0更新日期:2023-12-29 16:28
本发明专利技术公开一种基于强化特征复现融合的人体姿态估计方法。选择DEKR作为本发明专利技术的主干网络。由于此网络部分特征信息应用不充分,浅层特征表达易丢失,在后续关键点预测时会缺乏信息连贯性,影响关键点准确度的提升。为了改进以上问题,本发明专利技术设计了基于强化特征复现融合的人体姿态估计方法。此方法可增强网络前后信息流通,扩大感受野逐步实现特征细化,使网络前后信息复现融合,因此可让网络更好地结合全局信息,从而提高模型预测关键点准确度。从而提高模型预测关键点准确度。从而提高模型预测关键点准确度。

【技术实现步骤摘要】
基于强化特征复现融合的人体姿态估计方法


[0001]本专利技术属于计算机视觉
,涉及人体姿态估计方法,尤其是指一种改进DEKR网络结构,强化特征复现融合的人体关键点检测方法。

技术介绍

[0002]人体姿态估计是计算机视觉中具有挑战性的研究领域之一,其目的是从给定的图像中确定每个人体关键点的空间位置,并将相邻关键点连接后输出结果图片。人体姿态估计是许多计算机视觉任务的前置解决方案,目前主要在行为识别、人机交互、视频影音和行人重识别方面得到了较为成熟的应用。
[0003]根据解决方法不同,可以分为自顶向下方法和自底向上方法。本专利技术选择自底向上的人体姿态估计方法。由于人体关节本身存在较高的相似性,且整体检测关键点时,人物尺度的不同增加了检测难度,关键点聚类到不同的人体实例上时也会出现匹配错误,所以目前模型的准确度还比较低。综上所述,自底向上的多人姿态估计方法研究中还有许多问题没有被很好地探讨和解决,所以自底向上的方法有很大的研究意义和价值。本专利技术着重于自底向上的人体姿态估计方法进行研究。
[0004]DEKR是目前自底向上精度最高的网络,包含一种自适应卷积,可使像素点的激活范围集中于关键点周围;网络对每个独立的关键点进行预测和回归,使每个关键点的预测更加精准。DEKR网络有以下几处可进行改进:1.人体姿态估计是注重信息连贯性的任务,每一个关键点的确定需要参考其他关键点的位置信息,从而做出估计。而卷积神经网络是同时输出关键点检测信息,但网络只是用最后一层特征图来输出估计结果,这样会忽略关键点之间的连贯性;2.由于人体姿态每个关键点的特殊性,网络若要精确输出每个关键点的准确位置,不能单凭一种特征表达方式。针对关键点的不同,使用不同的特征信息才能更加准确输出结果;3.网络中的特征融合只集中在后半部分,前后网络缺少特征交流匹配,使得浅层网络的信息不能充分利用。
[0005]因此,提出一种改进DEKR网络结构,强化特征复现融合的人体姿态估计方法。

技术实现思路

[0006]本专利技术公开一种基于强化特征复现融合的人体姿态估计方法。选择DEKR作为本专利技术的主干网络。由于网络部分特征信息应用不充分,浅层特征表达易丢失,导致后续关键点预测时会缺乏信息连贯性,影响关键点准确度的提升。为了改进以上问题,本专利技术设计了基于强化特征复现融合的人体姿态估计方法,此方法能够增强网络前后信息流通,扩大感受野逐步实现特征细化,使网络前后信息复现融合,因此可让网络更好地结合全局信息,从而提高模型预测关键点准确度。
[0007]为了实现上述目的,本专利技术提供了如下技术方案:
[0008]步骤1,数据准备与预处理,首先获取数据集,选取划分人体姿态估计所使用的训练集和验证集,并且每幅图像包括两个信息:1.人工标记的人物框;2.关键点类别和位置信
息。这两种信息可以在训练及验证过程发挥作用。由于本专利技术为自底向上的人体姿态估计,可以一次性将所有人的关键点同时识别出来,所以不需要将图片裁剪为若干个单人图片。但在输入网络前,需统一输入图片的尺寸,根据验证要求对图片进行裁剪。此处输入的图片尽可能选取高分辨率图像,图片分辨率增加会减小多尺度人物在关键点识别上的难度,从而提升网络模型精确度。
[0009]步骤2,构造Dense

DEKR特征复现融合网络,使浅层特征能够在深层网络得以复用。网络通过密集连接的方式,将任意阶段的输出特征图与后续所有阶段的输出特征图进行特征融合复现。如图1所示。Dense

DEKR特征复现融合网络使用稠密连接机制加强了DEKR浅层信息和深层信息的特征融合。
[0010]主干网络DEKR的网络结构与HRNet相似,网络中使用并联结构的特征融合方法,网络包含四种不同分辨率的特征信息。纵向观察网络,可以分为四个阶段,分别为阶段一、二、三和四。每个阶段在横向上的图片分辨率都是相同的。
[0011]本专利技术如此设计的原因为:由于网络中没有丰富的特征融合,导致网络学习特征表达能力较弱。从低分辨率上采样到高分辨率的过程中,空间全局信息损失较大,图像信息损失。网络的最终输出的特征图上有哪些特征细节,直接确定了网络信息的表征能力,且预示了网络预测性能的强弱。因此,高效率运用网络中多种细节、局部、空间信息进行特征复现融合是至关重要的。综上所述,通过这种方式改进网络可提升模型精确度。网络中,相比较于低分辨率,高分辨率的空间局部细节信息更容易捕捉,并且图像中小尺度人物信息的关键点也会识别更精确。低分辨率上的全局语义信息、大尺度人物信息识别效果更佳。
[0012]选择第一行最大分辨率进行特征融合,是因为在每个阶段的不同分辨率特征融合后再进行深层、浅层特征信息融合,会极大限度的保留不同分辨率下的特征细节(高分辨率包含图像的空间小区域信息,对尺度小的对象识别更加准确;低分辨率更加容易捕捉大尺度人体全局信息)。相较于在同分辨率下进行特征融合,本专利技术可将浅层特征利用的更加充分,且不局限于单一分辨率。
[0013]步骤3,调整网络连接后的通道数,由于密集连接方式是将特征通道进行拼接。网络中阶段二、三以及四处连接汇合的点必然会增加原有的通道数,使得通道数递增。本专利技术通过添加Transition模块解决上述问题。添加此模块后网络在特征信息整合的过程中,避免了特征图的分辨率变换,并保证了特征图特征融合时通道的一致性。
[0014]网络主干首先通过Concat特征融合,此融合的实质为通道数的增加合并,即描述图像本身特征信息增加,而每一特征下的信息是没有增加的。将阶段二融合后的结点为例,此节点不仅要接收来自阶段一的分支(通道数:256),也要保留原有网络主干阶段二的分支(通道数32)。由于每个输出通道的卷积核是独立的,可以只看单个通道的输出,输出结果可用式(1)概括为:
[0015][0016]其中两路输入的通道分别为X1,X2,...,X
c
和Y1,Y2,...,Y
c
,K为系数,*为卷积,Z
out
为Concat特征融合后的单个输出特征。
[0017]使用Transition模块可将Concat特征融合后的通道数(288)降低至原有大小(32),且保证了特征图尺寸的一致性。Transition模块采用的结构形式为:BN层+ReLU+1*
1Conv卷积。其模块结构如图所示。Transition模块后可将网络通道数恢复至原来的大小。添加BN层是为了解决随着神经网络深度的加深所带来网络训练的困难、网络收敛速度缓慢等问题。BN层能够加快网络训练和收敛的速度,同时控制梯度爆炸、预防梯度消失所引发过饱和。选择ReLU激活函数是因为此函数运算简便,同时能够避免梯度消失的问题。
[0018]关于1*1卷积的位置放置问题,由于网络强化特征复现融合的特殊性,本专利技术将其放在BN+ReLU后。卷积层的输入包括前面所有层的输出特征,由于步骤2的连接方式,使得特征信息来自不同层的输出,其数值分布差异较大,所以在Conca本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化特征复现融合的人体姿态估计方法,其特征在于包括下列步骤:步骤1,数据准备与预处理,首先获取数据集COCO2017和Crowdpose,选取划分人体姿态估计所使用的训练集和验证集;由于Crowdpose的图片量较少,其训练集和验证集是一样的,每幅图像包括两个信息:1.人工标记的人物框;2.关键点类别和位置信息,这两种信息可以在训练及验证过程发挥作用;步骤2,构造Dense

DEKR特征复现融合网络,使浅层特征能够在深层网络得以复用;网络通过密集连接的方式,将任意阶段的输出特征图与后续所有阶段的输出特征图进行特征融合复现,如图1所示,Dense

DEKR特征复现融合网络使用稠密连接机制加深了DEKR浅层特征和深层特征的传递融合方式;主干网络DEKR的网络结构与HRNet相似,网络中使用并联结构的特征融合方法,网络包含四种不同分辨率的特征信息;纵向观察网络,可以分为四个阶段,分别为阶段一、二、三和四,每个阶段在横向上的图片分辨率都是相同的;从低分辨率上采样到高分辨率的过程中,空间全局信息损失较大,图像信息损失,因此,高效率运用网络中多种细节、局部、空间信息进行特征复现融合是至关重要的;选择第一行最大分辨率进行特征融合,是因为在每个阶段的不同分辨率特征融合后再进行深层、浅层特征信息融合,会极大限度的保留不同分辨率下的特征细节(高分辨率包含图像的空间小区域信息,对尺度小的对象识别更加准确;低分辨率更加容易捕捉大尺度人体全局信息),相较于在同分辨率下进行特征融合,本发明可将浅层特征利用的更加充分,且不局限于单一分辨率;步骤3,调整网络连接后的通道数,由于密集连接方式是将特征通道进行拼接;网络中阶段二、三以及四处连接汇合的点必然会增加...

【专利技术属性】
技术研发人员:王宇徐镜滢
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1