【技术实现步骤摘要】
一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
[0001]本专利技术涉及人体姿态估计领域。尤其是一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法。
技术介绍
[0002]人体姿态估计是研究基于图像的观测数据恢复关节和躯干姿态的算法或系统,是计算机视觉领域最具挑战和研究意义的方向之一。人体姿态准确的自动识别,是人类活动识别、计算行为分析、人的再识别和人机交互等任务的基本步骤。根据人体姿态估计信息的空间维度,可以将人体姿态估计分为二维人体姿态估计和三维人体姿态估计,二维姿态估计算法通过获取二维图像上的人体关键点的位置信息以及肢体的位置和方向信息,最终得到的人体关节点坐标与骨骼信息可直接影响三维人体姿态估计的结果,所以颇具挑战。
[0003]多人人体姿态估计有两种常用范式,一种是自顶向下(top
‑
down),另一种则是自底而上(bottom
‑
up)。自顶向下是首先检测出人体边界框,然后独立估计每个框内人体的姿势。虽然自顶向下的算法的准确度比较高,但也存在着一些问题 ...
【技术保护点】
【技术特征摘要】
1.一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法,其特征在于,具体包括以下步骤:步骤(1)、在主体网络中,所述主体网络为由多个不同分辨率的并行子网构成的Lite
‑
HRNet网络;每个并行的子网中都包括多个多谱注意力条件通道权重模块和一个多分辨率特征融合模块,在跨分辨率权重计算中融入多谱注意力机制,再通过得到的权重向量计算得到所有输入通道的信息,最后生成具有高分辨率的人体图像信息的特征图作为输出;原始图像经过预处理和一系列数据增强操作后输入主体网络中,三个阶段的并行子网络模块的通道数不断增加,输出分辨率逐渐减小,分别是原始图像尺寸的1/4、1/8、1/16;主体网络最后的输出是通过重复融合不同分辨率特征信息得到的最高分辨率特征图,即原图像分辨率1/4的特征图;步骤(2)、在主体网络后面利用一个反卷积模块,包括一个转置卷积和四个用于细化特征图的轻量级残差模块,引入通道置换、逐点分组卷积和深度可分离卷积来轻量化残差模块,生成有效的更高分辨率特征图作为输出,即原图像分辨率1/2的特征图;步骤(3)、将步骤(1)主体网络生成的原图像分辨率1/4的特征图和步骤(2)反卷积模块生成的原图像分辨率1/2的特征图进行融合,然后进行热图预测,得到人体姿态估计结果。2.根据权利要求1所述的一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法,其特征在于:步骤(1)所述在跨分辨率权重计算中融入多谱注意力机制,再通过得到的权重向量计算得到所有输入通道的信息具体为:在每个子网中,用条件通道加权的按位加权运算来替代1x1卷积,具体表示为:在第s个阶段有s个分支(s=1,2,3),每个分支按位加权为Y
s
=W
s
⊙
X
s
ꢀꢀꢀꢀꢀꢀ
(1)其中W
s
是一个权重映射;融入了多谱注意力机制后,跨分辨率权重的计算如下:在第s个阶段有s个并行的分辨率子网和s个权重映射W1,W2,...,W
s
,每个权重映射对应相应的分辨率;使用一个函数M
s
(
·
),计算在不同分辨率子网中所有通道的s个权重映射:(W1,W2,...,W
s
)=M
s
(X1,X2,...,X
s
)
ꢀꢀꢀ
(2)其中{X1,X2,...,X
s
}是第s高分辨率子网的输入映射,X1是最高分辨率,X
s
是第s高分辨率;函数M
s
(
·
)的实现如下:先通过多谱通道注意力对{X1,X2,...,X
s
‑1}做预处理,得到预处理结果:X
′1=Freq(X1),X
′2=Freq(X2),...,X
′
s
‑1=Freq(X
s
‑1)
ꢀꢀꢀ
(3)然后将{X
′1,X
′2,...,X
′
s
‑1}与X
s
拼接起来执行后续操作,即公式(4),生成包含s个分支的权重映射W1′
,W
′2,...,W
s
′
,分别对应每一个分辨率:{X1′
,X
′2,...,X
′
s
‑1,X
s
}
→
Conv.
→
ReLU
→
Conv.
→
sigmoid
→
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。