基于不确定性引导的人体姿态估计域自适应网络及方法技术

技术编号:37997576 阅读:9 留言:0更新日期:2023-06-30 10:11
本发明专利技术涉及一种人体姿态估计网络及方法,具体涉及一种基于不确定性引导的人体姿态估计域自适应网络及方法。解决了现有人体姿态估计方法精度低、域自适应能力差、关键点检测不准确以及计算繁杂导致效果较差的问题。本发明专利技术自适应网络包括主框架网络和子框架网络;主框架网络包括输入层、第一卷积层、第一BatchNorm层、第一激活函数层、最大值池化层、第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层、Dropout层、反卷积层、热力图模块和不确定性学习模块;每个瓶颈层均包括子框架网络;子框架网络包括第一卷积层、第一BatchNorm层、第一激活函数层、第二卷积层、第二BatchNorm层、第二激活函数层、Droupout层、第三卷积层、第三BatchNorm层、跳跃连接相加层和第三激活函数层。层。层。

【技术实现步骤摘要】
基于不确定性引导的人体姿态估计域自适应网络及方法


[0001]本专利技术涉及一种人体姿态估计域自适应网络及方法,具体涉及一种基于不确定性引导的人体姿态估计域自适应网络及方法。

技术介绍

[0002]人体姿态估计是计算机视觉领域中非常重要的一项内容,根据输入图片中人物数目的多少,我们可以将2D人体姿态估计任务分为两类,即单人姿态估计和多人姿态估计。人体姿态估计的基本任务是从输入的图像或视频中估计出人体关节点的2D或3D位置信息,进而生成整个人体的骨骼姿态或者密集网格表面。它是动作识别、人机交互和增强现实等领域的基础,在许多现实场景中有十分广泛的应用。
[0003]在人体姿态估计任务中,我们经常会遇到算法实际应用的场景与其训练样本之间有较大分布差异的情况,如室内场景与道路场景、真实场景与虚拟场景之间均存在较大的风格差异。在这些情况下,算法的性能通常会有大幅度的下降。而若要针对不同数据域来单独采集样本并标注的话,这极其费时费力,且不现实。因此,如何让在源域中训练完成的人体姿态估计算法能够在目标域上有较好的泛化性能,是一个极具挑战的难题。针对人体姿态估计领域,现在主要有基于模型的传统人体姿态估计方法和基于深度学习的人体姿态估计方法。
[0004]传统的人体姿态估计方法主要分为两类,一类是利用图结构模型的方法来建模人体的各个部位,并利用概率统计模型来进行人体姿态估计。另一类则是将人体姿态估计任务看做分类任务来进行求解,例如Rogez等人利用人工设计的特征,并通过提出的随机决策树等方法来对人体姿态进行检测。与现有的深度学习方法相比,这些传统的方法具有计算复杂度低和推理速度快等优势,同时具有更强的可解释性,但是传统方法的检测精度较低。
[0005]基于深度学习的方法主要通过学习端到端的映射函数,通过端到端训练,从输入的图像推断出图像中的人体关节点,基于深度学习的方法性能超越了传统方法,成为当前主流的体姿态估计方法。该类方法通常可分为:基于坐标回归的人体姿态估计方法和基于热图检测的人体姿态估计方法。基于坐标回归的人体姿态估计方法思想简洁,所以其网络通常拥有较小计算复杂度,因此这类方法有着明显的速度优势。然而,由于让网络直接预测关节点坐标的方式,可利用的监督信息较少,这使得网络学习映射关系的难度较大,从而导致了这类算法的效果欠佳。基于热图检测的人体姿态估计方法首先利用各个关节点的坐标来制作热图标签,即以关节点坐标位置为中心制作一个固定方差的高斯热图,从而对于每类关节点得到其对应的一层热图,然后让深度神经网络学习预测该热图。与基于坐标回归的方法相比,其通过制作热图的形式变相地增加了网络的监督信息,使网络在学习过程中更容易收敛,因此这类方法往往有着更好的性能表现。然而,由于定位热图最大响应位置的操作不可微分,因此该类方法不能进行端到端的训练。此外,为了使关节点被更精细地被定位,网络往往要输出具有较高分辨率的热图,因此该类方法计算复杂度高、推理时间慢。
[0006]随着深度神经网络的提出与快速进展,使用深度学习方法解决人体姿态估计难题
已经获得较好的成绩,例如:Rogez等人利用人工设计的特征(参见ROGEZ G,RIHAN J,RAMALINGAM S,et al.Randomized trees for human pose detection[C]//2008IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2008:1

8.),并通过提出的随机决策树等方法来对人体姿态进行检测。Toshev等人首次在人体姿态估计任务中使用深度学习方法,并提出了DeepPose算法(参见TOSHEV A,SZEGEDY C.Deeppose:Human pose estimation via deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2014:1653

1660.),在人体姿态估计中取得了优异的性能表现。
[0007]然而,现有技术中,使用深度学习方法进行人体姿态估计也存在许多不足之处,因为在人体姿态估计任务中,样本经常会出现关节点被遮挡、运动模糊、人物分辨率低等退化的情况,对于这些样本,网络的预测结果往往是不可靠的。同时,在训练过程中,网络强行拟合这些样本,训练后也将导致算法性能的下降。此外,算法应用的实际场景往往和训练数据有一定的分布差异,也会导致算法在应用场景下的效果不佳。
[0008]下面举两个典型的例子具体说明一下以上存在的不足之处:Nitesh B.Gundavarapu等人发表的论文Structured Aleatoric Uncertainty in Human Pose Estimation(参见GUNDAVARAPU N B,SRIVASTAVA D,MITRA R,et al.Structured Aleatoric Uncertainty in Human Pose Estimation[C]//CVPR Workshops.2019,2:2.)中,提出了一种在人体姿态估计任务中考虑数据不确定性的算法,该算法采用自顶向下的思路和基于回归的方法来处理多人姿态估计问题,具体是在使用ResNet骨干网络回归关节点坐标的基础上,假设该坐标服从二维高斯分布,同时在网络末端增加了两个检测头来学习分布的协方差矩阵。然后,利用回归任务的损失函数,来对协方差矩阵进行无监督学习,即当图像数据中关节点出现遮挡等退化情况时,让网络趋向学习一个大的方差来减少其带来的损失。该算法通过关节点遮挡实验发现,随着遮挡块的不断增加,可观察到网络估计的方差也不断增加,证明了网络学习到数据不确定性是正确有效的。因此,该算法通过引入域自适应迁移学习的思想,提升了人体姿态估计的鲁棒性与性能。然而,该算法虽然考虑了不确定性的学习,但该算法采用协方差矩阵来进行不确定性学习,导致人体姿态估计的域自适应能力较差,进而使得算法不稳定、准确率较差,计算负担较大。
[0009]Jiang J等人发表的论文Regressive Domain Adaptation for Unsupervised Keypoint Detection(参见JIANG J,JI Y,WANG X,et al.Regressive domain adaptation for unsupervised keypoint detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:6780

6789.)中,提出了一种针对无监督关键点检测的回归域自适应方法。该算法认为在概率意义上,模型的输出空间是稀疏的。如果能将输出空间从完整的像素空间缩小到仅有K本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不确定性引导的人体姿态估计域自适应网络,其特征在于:包括主框架网络和子框架网络;所述主框架网络包括依次连接的输入层、第一卷积层、第一BatchNorm层、第一激活函数层、最大值池化层、第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层、Dropout层、反卷积层,以及分别和反卷积层输出端连接的热力图模块和不确定性学习模块;其中,第一瓶颈层、第二瓶颈层、第三瓶颈层和第四瓶颈层的网络结构均包括子框架网络;所述子框架网络包括依次连接的第一卷积层、第一BatchNorm层、第一激活函数层、第二卷积层、第二BatchNorm层、第二激活函数层、Droupout层、第三卷积层、第三BatchNorm层、跳跃连接相加层、第三激活函数层;所述输入层用于输入多帧相邻的视频帧图像;所述热力图模块和不确定性学习模块的输出结果用于估计人体姿态的类别标签。2.根据权利要求1所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于:所述主框架网络的各层参数设置为:所述第一卷积层的输入通道数为3或5或7,输出通道数为64~256,卷积步长为2;所述第一瓶颈层的输入通道数与第一卷积层的输出通道数相同,第一瓶颈层的输出通道数为256~512,卷积步长为1;所述第二瓶颈层的输入通道数与第一瓶颈层的输出通道数相同,第二瓶颈层的输出通道数为512~1024,卷积步长为1;所述第三瓶颈层的输入通道数与第二瓶颈层的输出通道数相同,第三瓶颈层的输出通道数为1024~2048,卷积步长为1;所述第四瓶颈层的输入通道数与第三瓶颈层的输出通道数相同,第四瓶颈层的输出通道数为2048,卷积步长为1;所述不确定性学习模块的输入通道数为2048,输出通道数为3或5或7,反卷积步长为1;所述热力图模块的输入通道数为2048,输出通道数为2048,反卷积步长为1。3.根据权利要求2所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于:所述主框架网络和子框架网络中Dropout的丢弃概率均为0.1;所述主框架网络的各层参数设置为:所述第一卷积层的输入通道数为3,输出通道数为64,卷积步长为2;所述第一瓶颈层的输入通道数为64,输出通道数为256,卷积步长为1;所述第二瓶颈层的输入通道数为256,输出通道数为512,卷积步长为1;所述第三瓶颈层的输入通道数为512,输出通道数为1024,卷积步长为1;所述第四瓶颈层的输入通道数为1024,输出通道数为2048,卷积步长为1;所述不确定性学习模块的输入通道为2048,输出通道为3,反卷积步长为1;所述热力图模块的输入通道为2048,输出通道为2048,反卷积步长为1。4.根据权利要求3所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于:
所述输入层为奇数帧图像。5.一种基于不确定性引导的人体姿态估计域自适应方法,使用权利要求1

4任一所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于,包括以下步骤:步骤1)获取训练源域数据集和目标域数据样本集;所述训练源域数据集为带标签的数据集,所述目标域数据样本集为不带标签的待测试数据集;步骤2)利用训练源域数据集对权利要求1

4任一所述的自适应网络进行预训练,再将目标域数据样本集送入该自适应网络中,得到目标域数据样本集所有图像的预测标签;步骤3)获得模型不确定性和数据不确定性步骤3.1)将目标域数据样本集所有...

【专利技术属性】
技术研发人员:董伟生孙玉林毋芳芳石光明
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1