一种基于注意力机制的多分支2D人体姿态估计方法技术

技术编号:39036595 阅读:16 留言:0更新日期:2023-10-10 11:49
本发明专利技术公开了一种基于注意力机制的多分支2D人体姿态估计方法。所述方法包括以下步骤:构建2D人体姿态估计网络,包括经过改造的骨干网络HRnet、卷积层和多分支结构;选取训练数据集,对2D人体姿态估计网络进行训练;输入图片至训练完成的2D人体姿态估计网络,得到热力图和偏移量,根据热力图和偏移量推理得到人体骨架。本发明专利技术能够显著提升未见过场景的泛化能力,在不同的场景和任务中发挥出优秀的性能。能。能。

【技术实现步骤摘要】
一种基于注意力机制的多分支2D人体姿态估计方法


[0001]本专利技术涉及计算机视觉方向中的基于深度学习的人体姿态估计领域,特别涉及一种基于注意力机制和多分支结构的2D人体姿态估计方法。

技术介绍

[0002]随着元宇宙数字人概念的兴起,虚拟主播、虚拟偶像、AI换脸等技术受到广大网友的青睐,其背后的技术更是多元且综合的,涉及动作识别、动作捕捉、三维重建、3D渲染等,2D人体姿态估计(2D Human Pose Estimation,简称2D HPE)作为这些任务的前提受到广大计算机视觉研究者的喜爱,迅速成为当今研究的热点。2D人体姿态估计的主要任务是通过摄像机或其他传感器,自动检测和估计预先定义的人体骨骼点,再按照顺序连接得到人体骨架。2D人体姿态估计在众多领域有着重要意义,它可以提高人机交互效率、提高虚拟现实体验等,在自动驾驶、运动分析、康复训练等领域有着非常广泛的应用价值。
[0003]目前国内外人体姿态估计有两种主流的方式:自上而下(top

down)和自底向上(bottom

up)。自上而下的方式首先进行目标检测,然后对每个检测到的人进行单人姿势估计。自底向上的方式又可以分为两种。基于热力图的方法和基于回归的方法。基于热力图的方法首先检测所有关键点,再分组属于同一个人的关键点,之后按顺序连接得到人体骨架。基于回归的方法直接回归每个人的中心点和各个关键点相对于中心点的偏移量,再结合中心点和偏移量得到人体骨架。但现有的方式都受困于姿态估计任务本身和复杂的外界环境,比如姿态的多样性、部位遮挡和变形、尺度变换等问题,为此,许多研究者提出各式各样的方法来提高姿态估计的准确性,如AdaptivePose提出一种两阶段的回归偏移量的方法,由中心点到人体部位相关点再到每一个关键点。PINet将人体边界框分成三个部分并分别估计每个部分,使得其对身体部位遮挡更加鲁棒。FAMI

Pose提出一个分层对齐框架,利用相邻帧的信息有效缓解快速运动场景中姿态估计不准确的问题。也有许多研究者尝试利用精细的Transformer来解决姿态估计问题,如MHFormer、PoseFormer、MixSTE等。
[0004]专利技术专利(申请号:202211045347.9)公开了一种轻量级的2D人体姿态估计网络,将HRNet模型的第1个阶段的卷积块替换为ShufflenetV2中的轻量特征提取头,将HRNet模型的第3个阶段和第4个阶段的卷积均替换为轻量动态卷积模块,在HRNet模型的第4个阶段的末尾增加动态空间关节点优化模块。这种方法将工作集中在用轻量级的模块替换原HRNet结构和对关键点的后处理上,虽然能显著降低模型参数量,加快运算速度,但没有从根本上解决姿态估计任务本身的瓶颈,即特征提取的不够纯粹。
[0005]专利技术目的
[0006]本专利技术旨在提供一种基于注意力机制的多分支2D人体姿态估计方法解决传统2D人体姿态估计模型提取的特征不具有代表性、鲁棒性差等缺点,并采用通道

空间注意力模块、自适应卷积以及多分支结构,在不增加太多计算量和内存消耗的情况下迫使模型忽略无关的背景信息,专注于提取目标人物关键点周围的特征,同时使模型更好的适应不同尺寸的目标人物以及野外场景,提高模型的鲁棒性。
[0007]本专利技术出发点在于用于回归人体关键点偏移量的特征应该集中在目标人物关键点周围,为了实现这一目标,本专利技术从网络结构方面做了三方面的努力,分别是通道和空间注意力模块、自适应卷积和多分支结构,从而迫使模型忽略无关的背景信息,专注于提取目标人物关键点周围的特征,同时,增强模型对不同尺寸人物以及复杂场景的鲁棒性,并将提取的特征用于关键点的回归,实现精准的2D人体姿态估计。
[0008]本专利技术的目的至少通过如下技术方案之一实现。
[0009]一种基于注意力机制的多分支2D人体姿态估计方法,包括以下步骤:
[0010]S1、构建2D人体姿态估计网络,包括经过改造的骨干网络HRnet、卷积层和多分支结构;
[0011]2D人体姿态估计网络中,图片输入经过改造的骨干网络HRnet得到图片特征,图片特征一方面输入卷积层,预测K个关键点热力图和一个中心点的热力图,图片特征另一方面按通道维度划分成K份,送入多分支结构,在多分支结构中,每个分支应用自适应卷积单独回归某一种类型的关键点,得到偏移量,偏移量为每个人体实例的关键点和中心点的差值,中心点为每个人体实例所有可见关键点的平均值;
[0012]S2、选取训练数据集,对2D人体姿态估计网络进行训练;
[0013]S3、输入图片至训练完成的2D人体姿态估计网络,得到热力图和偏移量,根据热力图和偏移量推理得到人体骨架。
[0014]进一步地,步骤S1中,所述改造的骨干网络HRnet由将通道

空间注意力模块嵌入骨干网络HRnet中得到;
[0015]所述通道

空间注意力模块具体如下:
[0016]为了使得网络更加关注目标人物关键点所在区域,忽略背景噪声,在骨干网络HRnet中嵌入通道

空间注意力模块;通道

空间注意力模块由通道注意力模块和空间注意力模块串行执行,对输入的特征图进行优化,为后续热力图的预测以及偏移量的回归提供更多更有效的特征;
[0017]通道注意力模块可以帮助模型自动学习通道之间的相关性和重要性,从而迫使模型更加关注目标人物关键点所在的通道;通道注意力模块中,输入特征图沿空间维度分别进行最大池化和平均池化得到两个1
×1×
C维的向量,之后这两个向量同时经过一个共享的MLP后再相加,再经过激活函数sigmod得到一个1
×1×
C维的向量,这个向量就是通道注意力,每个通道上的值代表每个通道的权重,背景通道的权重较小,目标人物关键点所在通道的权重较大,输出特征图由通道注意力与输入特征图相乘得到,经过通道注意力模块的处理,可达到抑制背景通道噪声,突出目标人物关键点所在通道的目的;
[0018]空间注意力模块可以帮助模型自动学习空间之间的相关性和重要性,从而迫使模型关注目标人物关键点所在的区域;空间注意力模块中,输入特征图沿通道维度分别进行最大池化和平均池化得到两个H
×
W
×
1维的向量,之后将这两个向量拼接在一起,再经过卷积和激活函数sigmod得到一个H
×
W
×
1维的向量,这个向量就是空间注意力,每个像素上的值代表每个像素的权重,背景空间的权重较小,目标人物关键点所在空间的权重较大,输出特征图由空间注意力与输入特征图相乘得到,经过空间注意力模块的处理,可达到抑制背景空间噪声,突出目标人物关键点所在空间的目的。
[0019]进一步地,步骤S1中,关键点的数量K为预先定义的。
[0020]进一步地,步骤S1中,自适应卷积具体如下:
[0021]自适应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的多分支2D人体姿态估计方法,其特征在于,包括以下步骤:S1、构建2D人体姿态估计网络,包括经过改造的骨干网络HRnet、卷积层和多分支结构;2D人体姿态估计网络中,图片输入经过改造的骨干网络HRnet得到图片特征,图片特征一方面输入卷积层,预测K个关键点热力图和一个中心点的热力图,图片特征另一方面按通道维度划分成K份,送入多分支结构,在多分支结构中,每个分支应用自适应卷积单独回归某一种类型的关键点,得到偏移量,偏移量为每个人体实例的关键点和中心点的差值,中心点为每个人体实例所有可见关键点的平均值;S2、选取训练数据集,对2D人体姿态估计网络进行训练;S3、输入图片至训练完成的2D人体姿态估计网络,得到热力图和偏移量,根据热力图和偏移量推理得到人体骨架。2.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法,其特征在于,步骤S1中,所述改造的骨干网络HRnet由将通道

空间注意力模块嵌入骨干网络HRnet中得到;所述通道

空间注意力模块具体如下:为了使得网络更加关注目标人物关键点所在区域,忽略背景噪声,在骨干网络HRnet中嵌入通道

空间注意力模块;通道

空间注意力模块由通道注意力模块和空间注意力模块串行执行,对输入的特征图进行优化,为后续热力图的预测以及偏移量的回归提供更多更有效的特征;通道注意力模块中,输入特征图沿空间维度分别进行最大池化和平均池化得到两个1
×1×
C维的向量,之后这两个向量同时经过一个共享的MLP后再相加,再经过激活函数sigmod得到一个1
×1×
C维的向量,这个向量就是通道注意力,每个通道上的值代表每个通道的权重,输出特征图由通道注意力与输入特征图相乘得到;空间注意力模块中,输入特征图沿通道维度分别进行最大池化和平均池化得到两个H
×
W
×
1维的向量,之后将这两个向量拼接在一起,再经过卷积和激活函数sigmod得到一个H
×
W
×
1维的向量,这个向量就是空间注意力,每个像素上的值代表每个像素的权重,输出特征图由空间注意力与输入特征图相乘得到。3.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法,其特征在于,步骤S1中,关键点的数量K为预先定义的。4.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法,其特征在于,步骤S1中,自适应卷积具体如下:对于输入特征图,先经过卷积得到位置偏移,位置偏移是2N维的,2代表X和Y轴,N代表通道个数,之后,在原先激活像素的基础上加上位置偏移得到目前激活的像素,再进行卷积操作,得到输出特征图;用于生成位置偏移的卷积核和用于生成输出特征图的卷积核一样,是可学习,可更新的;自适应卷积公式如式1

2所示:其中,Out(q0)代表输出特征图的q0位置,In(q0+q
n
+Δq
n
)代表输入特征图的(q0+q
n
+Δq
n
)位置,Δq
n
指输入特征图经过卷积得到的位置偏移,R代表感受野大小R={(1,1),(1,0),(1,

1),(

1,1),(

1,0),(

1,

1),(0,1),(0,0),(0,

1)},q
n
是对R中所列位置的枚举。
5.根据权利要求1所述的一种基于注意力机制的多分支2D人体姿态估计方法,其特征在于,步骤S1中,多分支结构具体如下:多分支结构为每种类型的关键点单独设计了一个分支,每个分支的参数不共享,每个分支只关注某一类型的关键点,从而进行

一对一

的特征提取以及回归偏移量过程;若某数据集中每个人包括n个关键点,则针对该数据集,在训练时,就将经过骨干网络得到的特征图按通道维度划分为n份,每份分别送入每个分支,每个分支都...

【专利技术属性】
技术研发人员:刘琦郭靖丰林锦濠
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1