【技术实现步骤摘要】
用于人体姿态估计的特征和语义细化网络的方法
[0001]本专利技术涉及机器学习
,尤其涉及用于人体姿态估计的特征和语义细化网络的方法。
技术介绍
[0002]人体姿态估计是计算机视觉中的典型学科之一,其目标是准确检测和标记图像中人体关键点(如头部和手腕)的位置。此外,它在视频监控、自动驾驶、运动分析等各个领域都有巨大的应用。通过创建大型数据集,该问题得到了改善。然而,许多高精度方法是基于静态图像设计的,当应用于视频时,它们很难具有良好的性能,并且由于视频数据中存在较多的运动模糊、视频散焦和频繁的姿态遮挡,单帧丢失了大量空间信息,导致检测结果不准确。
[0003]现有基于视频的人体姿态估计方法多是在语义级别对热度图进行修正、细化,没有考虑到特征层面的修正对精度的影响。其他领域如视频超分辨率利用特征对齐使得辅助特征向关键特征对齐,在特征层面进行修正。但其网络结构为金字塔结构,其中多次下采样和上采样带来的特征损失,减少了特征精度,影响了网络性能。
[0004]有鉴于此,提出一种特征和语义细化网络改善上述提到的问题。
技术实现思路
[0005]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的用于人体姿态估计的特征和语义细化网络的方法。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:用于人体姿态估计的特征和语义细化网络的方法,所述用于人体姿态估计的特征和语义细化网络的方法包括如下步骤:
[0007]S101,数据预处理。
[0008]本方法基于 ...
【技术保护点】
【技术特征摘要】
1.用于人体姿态估计的特征和语义细化网络的方法,其特征在于,所述用于人体姿态估计的特征和语义细化网络的方法包括如下步骤:S101,数据预处理,本方法基于单人人体姿态估计,由于一般图像中存在多人,首先需要对图像进行预处理,将图片裁剪为若干个单人图片,然后将关键帧与关键帧的前后帧中的裁剪后的同一人的图片作为一组,并输入骨干网生成特征和粗糙的热度图;S102,特征细化,将上述数据预处理阶段获得的特征输入特征细化模块,在利用特征对齐和注意力机制对特征进行修正,获得修正后的当关键帧帧特征;S103,语义细化,将数据预处理阶段获得的前后帧热度图和特征细化阶段修正后的关键帧特征生成的热度图输入语义细化模块,利用相邻热度图之间的差作为辅助信息对关键帧热度图细化,并生成最终的热度图。2.根据权利要求1所述的用于人体姿态估计的特征和语义细化网络的方法,其特征在于,所述S101具体包括:给定连续的3帧I
[t
‑
1,t,t+1]
,I
t
是关键帧,其他是辅助帧,使用人体探测器来检测关键帧I
t
中的人,获得定位其中人体的检测框,检测框数为I
t
中的人员实例数,并将检测框大小放大25%,将图像I
[t
‑
1,t,t+1]
使用I
t
中放大后的检测框进行裁剪,得到若干组裁剪的视频片段,组数等于I
t
中的人员实例数,每组中为裁剪后的连续三帧视频片段C
[
‑
1,t,t+1]
,将裁剪后的视频片段C
[
‑
1,t,t+1]
输入骨干网络以生成粗略特征F
[t
‑
1,t,t+1]
和热图H
[t
‑
1,t,t+1]
,这个过程可以由如下公式表示:其中表示具有固定参数θ的骨干网络。3.根据权利要求1所述的用于人体姿态估计的特征和语义细化网络的方法,其特征在于,所述S102具体包括:(1)特征对齐利用基于可变形卷积的的多膨胀率特征对齐模块将辅助特征与关键特征进行对齐,F
t
和F
t+1
分别是参考特征和相邻特征,该模块有三个并行分支,可变形卷积膨胀率为1时,将F
t
和F
t+1
连接并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为1时F
t+1
与F
t
对齐后的特征可变形卷积膨胀率为3时,将F
t
、F
t+1
和连接,并经过卷积得到特征将作为可变形卷积的offset和mask输入,F
t+1
作为其x输入,得到膨胀率为3时F
t+1...
【专利技术属性】
技术研发人员:仲元红,徐乾锋,伍光伟,钟代笛,黄灏飞,黄智勇,葛亮,周庆,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。