基于两级加权均方损失函数的人体姿态估计方法技术

技术编号:34960336 阅读:12 留言:0更新日期:2022-09-17 12:39
本发明专利技术公开一种基于两级加权均方损失函数的人体姿态估计方法。本发明专利技术采用HRNet作为主干网络。针对关键点热图前景和背景像素不均衡的问题,使用加权的方式对损失函数进行优化,使得网络学习的参数更加准确。针对HRNet网络层数深,且浅层网络的参数学习也比较重要,本发明专利技术设计了两级加权损失函数进行网络监督和参数学习,有效加强了对浅层网络的监督力度。最后本发明专利技术在COCO人体关键点数据集上验证了该损失函数的有效性。了该损失函数的有效性。

【技术实现步骤摘要】
基于两级加权均方损失函数的人体姿态估计方法


[0001]本专利技术属于计算机视觉
,涉及人体姿态估计方法,尤其是指一种利用改进HRNet网络损失函数检测人体关键点的方法。

技术介绍

[0002]随着深度学习技术的快速发展,针对人体姿态估计的研究也受到了广泛的关注,成为了一个热门研究方向,人体姿态估计是指在给定的图像或者视频中检测出人体的关键部位或主要关节并将其连接,最终输出人体的骨骼框架的过程。关键点检测在计算机视觉领域属于基础性质研究,它有非常广泛的应用,比如运动动作分析、人机交互、智能监控以及其他计算机视觉相关领域。
[0003]实现人体姿态估计主要有自上而下和自下而上两种方法。自上而下的方法分为两个阶段,第一阶段是目标检测,第二阶段是单人人体关键点检测。目标检测部分采用经典的目标检测算法,从输入图像中检测到单个人体,将检测到的结果裁剪到统一大小的尺度,输入人体姿态估计网络检测人体关键点。此方法对图像中的目标尺度不敏感,且关键点检测的准确率高,对小目标也有很好的估计效果,但图像中出现的目标越多检测时间越长,并且如果在第一阶端检测人物目标时出现错误那么后续阶端无法补救。
[0004]自下而上的方法也分为两个阶段,第一阶段是关键点检测,第二阶段是关键点聚类。关键点检测和单人关键点检测方法是相同的,区别在于自下而上的方法需要对输入图像的所有类别的所有关键点全部检测出来。通过聚类处理,将关键点进行聚类组合成不同的人体。此方法的检测速度与图像中出现的人体数量无关,因为是端到端的检测算法检测速度要快于自上而下方法,但对目标尺度敏感,对小目标的关键点检测是一个难点。检测准确率低于自上而下方法。
[0005]上述深度学习的算法全部都是网络层数深且参数量巨大的卷积神经网络,而目前关键点热图中的前景和背景像素分布不均衡导致卷积神经网络无法学习到最合适的参数,并且随着姿态估计网络越来越深,损失函数对网络的监督力度却没有随着网络的加深而增加,这导致浅层网络的学习效果不好,进而导致人体姿态估计的准确率较低。针对上述问题,本专利技术在人体姿态估计网络HRNet上对损失函数进行了改进,改善了关键点热图前景背景像素不均衡问题,并且增加了对浅层网络的监督,最后将改进的结构在COCO人体关键点数据集上验证了该算法的有效性。

技术实现思路

[0006]本专利技术提出了一种基于两级加权均方损失函数的人体姿态估计方法。本专利技术采用目前人体姿态估计精度较好的HRNet作为主干网络。由于该网络是一个具有很多需要学习参数的深层网络,若只在HRNet网络最终预测输出的关键点热图使用单级损失函数,容易造成浅层网络参数学习效果不够理想,并且关键点热图前景背景像素不均衡导致关节点估计准确率难以继续提高,针对以上问题本专利技术通过改进网络的损失函数从而使网络学习到更
好的参数,提高了关节点估计的准确率。
[0007]本专利技术采取的技术方案包括下列步骤:
[0008]步骤1,数据准备,将人体姿态相关数据集分为训练集和验证集两部分,并且所有图像都包含人工标记的人体框和每个关键点的类别和位置信息,每幅图像中标注有N个人体检测框,每个人体检测框对应两个坐标位置,分别为人体检测框左上角和右下角位置的坐标,每个人体检测框都包含M个人体关键点的标记信息,每个标记信息包括关键点类别和在图像中的坐标信息。最后将坐标信息转化为真实热图。
[0009]步骤2,构建HRNet网络结构,标准的HRNet的网络结构分为四个阶段,每个阶段包含了不同分辨率的特征。本专利技术将HRNet网络第三阶段和第四阶段网络相加融合后的第一分支引出,输入至损失函数进行计算,如图1所示。
[0010]四个阶段分辨率特征分别是指:第一阶段包含1/4分辨率的特征,第二阶段包含1/4、1/8分辨率的特征,第三阶段包含1/4、1/8、1/16分辨率的特征,第四阶段包含1/4、1/8、1/16、1/32分辨率的特征。每个阶段内包含的不同特征通transition进行融合,保证了网络中的高分辨率信息。
[0011]所有分支相加融合是指由于HRNet是多分辨率并行网络,在每一阶段同时有多个分辨率图像存在,所以在各个阶段过渡时会将多个分支的分辨率统一经过上采样或下采样调整到统一分辨率,并且使用1*1卷积调整各个分支的通道数,最终会统一到传入分支要求的通道数和分辨率,最后将统一的各分支的特征图相加传入下一阶段。
[0012]使用第三阶段各分支融合后的特征图输出是因为融合后的特征图包含了整个第三阶段所有的特征信息。使用此作为姿态估计结果进行损失函数的计算,可以高效准确的调整第一、二、三阶段浅层网络的学习参数,使网络的关键点估计准确率更高。只使用阶段三的第一分支输出特征图是考虑到高分辨率的语义信息对关键点估计的准确性有着至关重要的影响,而第一分支有着整个网络最高的分辨率信息,即包含了最丰富的语义信息,这对网络参数的准确学习有着至关重要的作用。
[0013]步骤3,进行两级加权损失函数计算,如图2所示。将步骤2得到的特征图1和特征图2输入至1*1*M卷积调整热图通道数至与关键点数目一致,得到热图1和热图2。分别对热图1和热图2与步骤1得到的真实热图进行损失函数计算得到Loss1和Loss2。网络总损失函数由式1计算得到loss
all
,以此进行反向传播学习网络参数。
[0014]特征图1和特征图2的尺寸是F
i
∈R
H/4
×
W/4
×
C
,经过1*1*M卷积后热图1与热图2的尺寸相同均为F
o
∈R
H/4
×
W/4
×
M
,其中H是输入图像的高,W是输入图像的宽,C是选择的HRNet的通道数,M是步骤1的人体关键点数量。
[0015]总损失函数loss
all
定义如式(1)所示:
[0016]loss
all
=α1Loss1+α2Loss2(1)
[0017]式中α1和α2分别是Loss1和Loss2的权重,其中0<α1<1,0<α2<=1,因为Loss1是浅层网络输出的热图相较于深层网络含有更多噪声,故需要施以较小权重平衡掉噪声。
[0018]每张热图对应一个关键点,数据集图像中标识多少关键点,则网络需回归相应的热图数.所回归的热图中前景部分一般使用高斯函数来计算像素点值,计算式定义如式(2)所示:
[0019][0020]其中,x,y是当前坐标,σ是高斯分布方差。x0,y0是热图的中心坐标。
[0021]由上式计算产生的前景像素,只占据热图全部像素很小的一部分,背景部分占据了热图绝大部分的像素点。如果直接使用传统均方损失函数,计算如图2中的热图1和热图2与步骤1得到的真实热图之间的欧式距离,会忽略前景和背景像素点不均衡问题,导致网络更加倾向于学习背景而非前景,降低了关键点识别的准确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于两级加权均方损失函数的人体姿态估计方法,其特征在于包括下列步骤:步骤1,数据准备,将人体姿态相关数据集分为训练集和验证集两部分,并且所有图像都包含人工标记的人体框和每个关键点的类别和位置信息,每幅图像中标注有N个人体检测框,每个人体检测框对应两个坐标位置,分别为人体检测框左上角和右下角位置的坐标,每个人体检测框都包含M个人体关键点的标记信息,每个标记信息包括关键点类别和在图像中的坐标信息。最后将坐标信息转化为真实热图。步骤2,构建HRNet网络结构,标准的HRNet的网络结构分为四个阶段,每个阶段包含了不同分辨率的特征。本发明将HRNet网络第三阶段和第四阶段网络相加融合后的第一分支引出,输入至损失函数进行计算,如图1所示。四个阶段分辨率特征分别是指:第一阶段包含1/4分辨率的特征,第二阶段包含1/4、1/8分辨率的特征,第三阶段包含1/4、1/8、1/16分辨率的特征,第四阶段包含1/4、1/8、1/16、1/32分辨率的特征。每个阶段内包含的不同特征通transition进行融合,保证了网络中的高分辨率信息。所有分支相加融合是指由于HRNet是多分辨率并行网络,在每一阶段同时有多个分辨率图像存在,所以在各个阶段过渡时会将多个分支的分辨率统一经过上采样或下采样调整到统一分辨率,并且使用1*1卷积调整各个分支的通道数,最终会统一到传入分支要求的通道数和分辨率,最后将统一的各分支的特征图相加传入下一阶段。使用第三阶段各分支融合后的特征图输出是因为融合后的特征图包含了整个第三阶段所有的特征信息。使用此作为姿态估计结果进行损失函数的计算,可以高效准确的调整第一、二、三阶段浅层网络的学习参数,使网络的关键点估计准确率更高。只使用阶段三的第一分支输出特征图是考虑到高分辨率的语义信息对关键点估计的准确性有着至关重要的影响,而第一分支有着整个网络最高的分辨率信息,即包含了最丰富的语义信息,这对网络参数的准确学习有着至关重要的作用。步骤3,进行两级加权损失函数计算,如图2所示。将步骤2得到的特征图1和特征图2输入至1*1*M卷积调整热图通道数至与关键点数目一致,得到热图1和热图2。分别对热图1和热图2与步骤1得到的真实热图进行损失函数计算得到Loss1和Loss2。网络总损失函数由式1计算得到loss
all
,以此进行反向传播学习网络参数。特征图1和特征图2的尺寸是F
i
∈R
H/4
×
W/4
×
C
,经过1*1*M卷积后热图1与热图2的尺寸相同均为F
o
∈R
H/4
×
W/4
×
M
,其中H是输入图像的高,W是输入图像的宽,C是选择的HRNet的通道数,M是步骤1的人体关键点数量。总损失函数loss
all
定义如式(1)所...

【专利技术属性】
技术研发人员:王宇赵凯
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1