一种基于Transformer的人体姿态估计方法及系统技术方案

技术编号:33619195 阅读:26 留言:0更新日期:2022-06-02 00:39
本发明专利技术涉及计算机视觉领域,具体公开了一种基于Transformer的人体姿态估计方法,包括特征提取模块,所述特征提取模块用于对输入图像实现局部特征提取,得到初级特征图像;特征交互模块,所述特征交互模块用于对输入图像实现全局特征交互,得到交互特征图像;特征恢复模块,所述特征恢复模块用于对交互特征图像进行特征恢复,得到预测特征图像;将预测特征图像作为预测热图,与真值ground_truth关节点的热图进行计算,得到训练的损失值loss,实现梯度回传,完成特征提取模块、特征交互模块和特征恢复模块的训练。为人们提供了一个新的思路去平衡人体姿态估计过程中的效率和效果,本申请能提高传统方法效果的同时降低了网络参数,提高了计算速度,更能满足实际需求。更能满足实际需求。更能满足实际需求。

【技术实现步骤摘要】
一种基于Transformer的人体姿态估计方法及系统


[0001]本专利技术涉及人体姿态估计
,具体为一种基于Transformer的人体姿态估计方法及系统。

技术介绍

[0002]体姿态估计是给定一幅图像或者一段视频,从中去恢复人体关节点的过程。利用深度学习进行姿态估计的方法大致分为两种:自上而下的方法和自下而上的方法。自上而下(top

down),即先检测出来人体,再对单个人进行姿态估计;而自下而上(down

top),则是先检测出人体关节点,再根据检测出来的关节点连成人体骨架。
[0003]自上而下的方法因为先给出人体,再对人体的关节点进行检测,所以整体精度较高,我们的方法是利用自上而下来进行检测。
[0004]对于自上而下的人体姿态估计方法来说,HRNet(Deep High

Resolution Representation Learning for Human Pose Estimation(CVPR2019))是非常经典的方法,现在也有很多方法在跟本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的人体姿态估计方法,其特征在于:包括特征提取模块,所述特征提取模块用于对输入图像实现局部特征提取,得到初级特征图像;特征交互模块,所述特征交互模块用于对输入图像实现全局特征交互,得到交互特征图像;特征恢复模块,所述特征恢复模块用于对交互特征图像进行特征恢复,得到预测特征图像;将预测特征图像作为预测热图,与真值ground_truth关节点的热图进行计算,得到训练的损失值loss,实现梯度回传,完成特征提取模块、特征交互模块和特征恢复模块的训练。2.根据权利要求1所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述特征提取模块包括残差网络、压缩卷积Con

Red以及姿态注意力机制单元SA;其中所述残差网络由多个残差Res组成,多个所述残差Res前后串联;所述残差网络对输入图像特征的宽度W、高度H、通道C进行第一次采样,实现宽度W、高度H的第一次下采样,实现通道C的第一次上采样;所述压缩卷积Con

Red由两个卷积组成,第一个卷积的卷积核大小为3
×
3,第二个卷积的卷积核大小为1
×
1,利用压缩卷积Con

Red接在所述残差网络之后,对第一次采样的图像特征进行第二次采样,实现宽度W、高度H的第二次下采样,实现通道C的第二次上采样;所述姿态注意力机制单元SA插入在所述残差网络内,对残差网络内的通道C进行关注。3.根据权利要求2所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述姿态注意力机制单元SA包括转换层、softmax激活层、sigmoid激活层和多个1
×
1的卷积;所述残差网络的每个残差Res包含多层卷积,每个残差Res内的第一层卷积C_1后均插入有所述姿态注意力机制单元SA;姿态注意力机制单元SA获取到每个残差Res内第一个卷积C_1的输出C
r
×
H
r
×
W
r
,利用两个1
×
1的卷积分别对输出的通道数C
r
下降到为1和1/2C
r
,保持特征的高度H
r
和宽度W
r
不变,得到两个并行处理的管道G_1和管道G_2,管道G_1和管道G_2输出特征分别为1
×
H
r
×
W
r
和C
r
/2
×
H
r
×
W
r
;利用转换层分别对两个并行处理的管道G_1和管道G_2进行维度转换,对其中管道G_1的特征维度保持三维,使其特征高度H
r
和宽度W
r
合成同一维度,得到特征维度为H
r
W
r
×1×
1;对另外一管道G_2的特征维度由三维转换为二维,并将特征高度和宽度合成同一维度,通道数为1/2C
r
,得到特征C
r
/2
×
H
r
W
r
;利用1
×
1的卷积对管道G_2的特征C
r
/2
×
H
r
W
r
进行计算,利用softmax激活层对另一管道G_1的特征H
r
W
r
×1×
1进行计算,将两者计算的值进行叉乘计算,并经sigmoid激活层输出,得到一个三维特征,该三维特征的通道数与残差网络内第一个卷积的输出的通道数C
r
相同,特征的高度和宽度均为1,特征为C
r
×1×
1;将所述姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出C
r
×
H
r
×
W
r
进行通道C
r
关注,实现对所述残差网络内的特征通道C
r
进行关注;提高初级特征图像的特
征通道的关注度。4.根据权利要求1

3任一所述的一种基于Transformer的人体姿态估...

【专利技术属性】
技术研发人员:刘晓平王冬谢文军蔡有城李鑫杰
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1