一种基于注意力机制的多分支2D人体姿态估计方法技术

技术编号：39036595 阅读：16 留言：0更新日期：2023-10-10 11:49

本发明专利技术公开了一种基于注意力机制的多分支2D人体姿态估计方法。所述方法包括以下步骤：构建2D人体姿态估计网络，包括经过改造的骨干网络HRnet、卷积层和多分支结构；选取训练数据集，对2D人体姿态估计网络进行训练；输入图片至训练完成的2D人体姿态估计网络，得到热力图和偏移量，根据热力图和偏移量推理得到人体骨架。本发明专利技术能够显著提升未见过场景的泛化能力，在不同的场景和任务中发挥出优秀的性能。能。能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的多分支2D人体姿态估计方法

[0001]本专利技术涉及计算机视觉方向中的基于深度学习的人体姿态估计领域，特别涉及一种基于注意力机制和多分支结构的2D人体姿态估计方法。

技术介绍

[0002]随着元宇宙数字人概念的兴起，虚拟主播、虚拟偶像、AI换脸等技术受到广大网友的青睐，其背后的技术更是多元且综合的，涉及动作识别、动作捕捉、三维重建、3D渲染等，2D人体姿态估计(2D Human Pose Estimation，简称2D HPE)作为这些任务的前提受到广大计算机视觉研究者的喜爱，迅速成为当今研究的热点。2D人体姿态估计的主要任务是通过摄像机或其他传感器，自动检测和估计预先定义的人体骨骼点，再按照顺序连接得到人体骨架。2D人体姿态估计在众多领域有着重要意义，它可以提高人机交互效率、提高虚拟现实体验等，在自动驾驶、运动分析、康复训练等领域有着非常广泛的应用价值。
[0003]目前国内外人体姿态估计有两种主流的方式：自上而下(top
‑
down)和自底向上(bottom
‑
up)。自上而下的方式首先进行目标检测，然后对每个检测到的人进行单人姿势估计。自底向上的方式又可以分为两种。基于热力图的方法和基于回归的方法。基于热力图的方法首先检测所有关键点，再分组属于同一个人的关键点，之后按顺序连接得到人体骨架。基于回归的方法直接回归每个人的中心点和各个关键点相对于中心点的偏移量，再结合中心点和偏移量得到人体骨架。但现有的方式都受困于姿态估计任务本身和复杂的外界环境，比...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的多分支2D人体姿态估计方法，其特征在于，包括以下步骤：S1、构建2D人体姿态估计网络，包括经过改造的骨干网络HRnet、卷积层和多分支结构；2D人体姿态估计网络中，图片输入经过改造的骨干网络HRnet得到图片特征，图片特征一方面输入卷积层，预测K个关键点热力图和一个中心点的热力图，图片特征另一方面按通道维度划分成K份，送入多分支结构，在多分支结构中，每个分支应用自适应卷积单独回归某一种类型的关键点，得到偏移量，偏移量为每个人体实例的关键点和中心点的差值，中心点为每个人体实例所有可见关键点的平均值；S2、选取训练数据集，对2D人体姿态估计网络进行训练；S3、输入图片至训练完成的2D人体姿态估计网络，得到热力图和偏移量，根据热力图和偏移量推理得到人体骨架。2.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法，其特征在于，步骤S1中，所述改造的骨干网络HRnet由将通道
‑
空间注意力模块嵌入骨干网络HRnet中得到；所述通道
‑
空间注意力模块具体如下：为了使得网络更加关注目标人物关键点所在区域，忽略背景噪声，在骨干网络HRnet中嵌入通道
‑
空间注意力模块；通道
‑
空间注意力模块由通道注意力模块和空间注意力模块串行执行，对输入的特征图进行优化，为后续热力图的预测以及偏移量的回归提供更多更有效的特征；通道注意力模块中，输入特征图沿空间维度分别进行最大池化和平均池化得到两个1
×1×
C维的向量，之后这两个向量同时经过一个共享的MLP后再相加，再经过激活函数sigmod得到一个1
×1×
C维的向量，这个向量就是通道注意力，每个通道上的值代表每个通道的权重，输出特征图由通道注意力与输入特征图相乘得到；空间注意力模块中，输入特征图沿通道维度分别进行最大池化和平均池化得到两个H
×
W
×
1维的向量，之后将这两个向量拼接在一起，再经过卷积和激活函数sigmod得到一个H
×
W
×
1维的向量，这个向量就是空间注意力，每个像素上的值代表每个像素的权重，输出特征图由空间注意力与输入特征图相乘得到。3.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法，其特征在于，步骤S1中，关键点的数量K为预先定义的。4.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法，其特征在于，步骤S1中，自适应卷积具体如下：对于输入特征图，先经过卷积得到位置偏移，位置偏移是2N维的，2代表X和Y轴，N代表通道个数，之后，在原先激活像素的基础上加上位置偏移得到目前激活的像素，再进行卷积操作，得到输出特征图；用于生成位置偏移的卷积核和用于生成输出特征图的卷积核一样，是可学习，可更新的；自适应卷积公式如式1
‑
2所示：其中，Out(q0)代表输出特征图的q0位置，In(q0+q
n
+Δq
n
)代表输入特征图的(q0+q
n
+Δq
n
)位置，Δq
n
指输入特征图经过卷积得到的位置偏移，R代表感受野大小R＝{(1，1)，(1，0)，(1，
‑
1)，(
‑
1，1)，(
‑
1，0)，(
‑
1，
‑
1)，(0，1)，(0，0)，(0，
‑
1)}，q
n
是对R中所列位置的枚举。
5.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法，其特征在于，步骤S1中，多分支结构具体如下：多分支结构为每种类型的关键点单独设计了一个分支，每个分支的参数不共享，每个分支只关注某一类型的关键点，从而进行
‘
一对一
’
的特征提取以及回归偏移量过程；若某数据集中每个人包括n个关键点，则针对该数据集，在训练时，就将经过骨干网络得到的特征图按通道维度划分为n份，每份分别送入每个分支，每个分支都...

【专利技术属性】
技术研发人员：刘琦，郭靖丰，林锦濠，
申请(专利权)人：人工智能与数字经济广东省实验室广州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人