当前位置: 首页 > 专利查询>重庆大学专利>正文

用于人体姿态估计的特征和语义细化网络的方法技术

技术编号:36432364 阅读:9 留言:0更新日期:2023-01-20 22:44
本发明专利技术提供用于人体姿态估计的特征和语义细化网络的方法,在特征和语义两个层面对预测的人体姿态进行细化。特征层面使用多个扩展率来实现不同感受野的特征对齐,与一般的下采样和上采样操作相比,减少了特征损失;然后使用注意力机制给辅助特征加权,减少错误对齐带来的损失。语义层面使用相邻热度图之间的差信息作为辅助,对特征修正后的关键热度图进行再次修正。本方法利用了特征和语义两个层面的信息特征完成预测姿态的细化,对一般的特征对齐模块进行了改进,提高了人体姿态估计的精度。提高了人体姿态估计的精度。

【技术实现步骤摘要】
用于人体姿态估计的特征和语义细化网络的方法


[0001]本专利技术涉及机器学习
,尤其涉及用于人体姿态估计的特征和语义细化网络的方法。

技术介绍

[0002]人体姿态估计是计算机视觉中的典型学科之一,其目标是准确检测和标记图像中人体关键点(如头部和手腕)的位置。此外,它在视频监控、自动驾驶、运动分析等各个领域都有巨大的应用。通过创建大型数据集,该问题得到了改善。然而,许多高精度方法是基于静态图像设计的,当应用于视频时,它们很难具有良好的性能,并且由于视频数据中存在较多的运动模糊、视频散焦和频繁的姿态遮挡,单帧丢失了大量空间信息,导致检测结果不准确。
[0003]现有基于视频的人体姿态估计方法多是在语义级别对热度图进行修正、细化,没有考虑到特征层面的修正对精度的影响。其他领域如视频超分辨率利用特征对齐使得辅助特征向关键特征对齐,在特征层面进行修正。但其网络结构为金字塔结构,其中多次下采样和上采样带来的特征损失,减少了特征精度,影响了网络性能。
[0004]有鉴于此,提出一种特征和语义细化网络改善上述提到的问题。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的用于人体姿态估计的特征和语义细化网络的方法。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:用于人体姿态估计的特征和语义细化网络的方法,所述用于人体姿态估计的特征和语义细化网络的方法包括如下步骤:
[0007]S101,数据预处理。
[0008]本方法基于单人人体姿态估计,由于一般图像中存在多人,首先需要对图像进行预处理,将图片裁剪为若干个单人图片。然后将关键帧与关键帧的前后帧中的裁剪后的同一人的图片作为一组,并输入骨干网生成特征和粗糙的热度图。
[0009]S102,特征细化。
[0010]将上述数据预处理阶段获得的特征输入特征细化模块,在利用特征对齐和注意力机制对特征进行修正,获得修正后的当关键帧帧特征。
[0011]S103,语义细化。
[0012]将数据预处理阶段获得的前后帧热度图和特征细化阶段修正后的关键帧特征生成的热度图输入语义细化模块,利用相邻热度图之间的差作为辅助信息对关键帧热度图细化,并生成最终的热度图。
[0013]作为本专利技术的进一步改进,所述S101具体为:
[0014]给定连续的3帧I
[t

1,t,t+1],I
t
是关键帧,其他是辅助帧。使用人体探测器来检测关键帧I
t
中的人,获得定位其中人体的检测框,检测框数为I
t
中的人员实例数,并将检测框大
小放大25%。将图像I
[t

1,t,t+1]使用I
t
中放大后的检测框进行裁剪,得到若干组裁剪的视频片段。组数等于I
t
中的人员实例数,每组中为裁剪后的连续三帧视频片段C
[

1,t,t+1]。将裁剪后的视频片段C
[

1,t,t+1]输入骨干网络以生成粗略特征F
[t

1,t,t+1]和热图H
[t

1,t,t+1]。
[0015]这个过程可以由如下公式表示:
[0016][0017]其中表示具有固定参数θ的骨干网络。
[0018]作为本专利技术的进一步改进,所述S102具体为:
[0019](1)特征对齐
[0020]利用基于可变形卷积的的多膨胀率特征对齐模块将辅助特征与关键特征进行对齐。本方法中特征对齐模块结构见图2。
[0021]F
t
和F
t+1
分别是参考特征和相邻特征。该模块有三个并行分支。
[0022]可变形卷积膨胀率为1时,将F
t
和F
t+1
连接并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为1时F
t+1
与F
t
对齐后的特征
[0023]可变形卷积膨胀率为3时,将F
t
、F
t+1
和连接,并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为3时F
t+1
与F
t
对齐后的特征
[0024]可变形卷积膨胀率为5时,将F
t
、F
t+1
和连接,并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为5时F
t+1
与F
t
对齐后的特征
[0025]最后,将不同膨胀率下对齐的特征级联,并以膨胀率为1与当前的关键特征对齐。得到最终对齐后的特征
[0026](2)注意力融合
[0027]首先计算关键特征与对齐后的辅助特征的相似度,然后将计算得到的相似度作为权重给对齐后的辅助特征加权,最后使用卷积将关键特征与加权后的辅助特征进行融合,生成特征细化后的关键帧特征。
[0028]我们首先通过以下方式计算关键特征和对齐后的辅助特征的相似度:
[0029]S(F
t+1
,F
t
)=sigmoid(f
θ1
(F
t+1
)
T
*f
θ2
(F
t
))
[0030]其中f
θ1
和f
θ2
是普通的卷积层。sigmoid函数将相似系数限制为[0,1]。
[0031]然后,计算出的相似系数S(F
t+i
,F
t
)用于对辅助特征F
t+i
进行加权。具体操作如下式所示:
[0032]F

t+i
=F
t+i

S(F
t+i
,F
t
)
[0033]其中

是逐元素乘法。
[0034]最后将对齐后的辅助特征和关键特征连接起来,输入卷积层进行融合,生成融合后的关键特征。
[0035]F
final
=Conv([F

t+1
,F
t
,F

t
‑1])
[0036]其中[]是连接操作。
[0037]作为本专利技术的进一步改进,所述S103具体为:
[0038]首先使用修正后的关键热图减去辅助热图,并将结果输入3
×
3卷积块以生成差异信息D=[D
t,t+1
,D
t,t
‑1].本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于人体姿态估计的特征和语义细化网络的方法,其特征在于,所述用于人体姿态估计的特征和语义细化网络的方法包括如下步骤:S101,数据预处理,本方法基于单人人体姿态估计,由于一般图像中存在多人,首先需要对图像进行预处理,将图片裁剪为若干个单人图片,然后将关键帧与关键帧的前后帧中的裁剪后的同一人的图片作为一组,并输入骨干网生成特征和粗糙的热度图;S102,特征细化,将上述数据预处理阶段获得的特征输入特征细化模块,在利用特征对齐和注意力机制对特征进行修正,获得修正后的当关键帧帧特征;S103,语义细化,将数据预处理阶段获得的前后帧热度图和特征细化阶段修正后的关键帧特征生成的热度图输入语义细化模块,利用相邻热度图之间的差作为辅助信息对关键帧热度图细化,并生成最终的热度图。2.根据权利要求1所述的用于人体姿态估计的特征和语义细化网络的方法,其特征在于,所述S101具体包括:给定连续的3帧I
[t

1,t,t+1]
,I
t
是关键帧,其他是辅助帧,使用人体探测器来检测关键帧I
t
中的人,获得定位其中人体的检测框,检测框数为I
t
中的人员实例数,并将检测框大小放大25%,将图像I
[t

1,t,t+1]
使用I
t
中放大后的检测框进行裁剪,得到若干组裁剪的视频片段,组数等于I
t
中的人员实例数,每组中为裁剪后的连续三帧视频片段C
[

1,t,t+1]
,将裁剪后的视频片段C
[

1,t,t+1]
输入骨干网络以生成粗略特征F
[t

1,t,t+1]
和热图H
[t

1,t,t+1]
,这个过程可以由如下公式表示:其中表示具有固定参数θ的骨干网络。3.根据权利要求1所述的用于人体姿态估计的特征和语义细化网络的方法,其特征在于,所述S102具体包括:(1)特征对齐利用基于可变形卷积的的多膨胀率特征对齐模块将辅助特征与关键特征进行对齐,F
t
和F
t+1
分别是参考特征和相邻特征,该模块有三个并行分支,可变形卷积膨胀率为1时,将F
t
和F
t+1
连接并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为1时F
t+1
与F
t
对齐后的特征可变形卷积膨胀率为3时,将F
t
、F
t+1
和连接,并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为3时F
t+1...

【专利技术属性】
技术研发人员:仲元红徐乾锋伍光伟钟代笛黄灏飞黄智勇葛亮周庆
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1