基于多级融合与判别网络的二维人体姿态估计方法技术

技术编号:40478842 阅读:27 留言:0更新日期:2024-02-26 19:13
本发明专利技术公开了一种基于多级融合与判别网络的二维人体姿态估计方法,其首先通过高分辨CNN网络来提取图像的纹理信息,接着通过融合多层次的特征来提高网络的特征表达能力,然后通过判别网络来定位粗糙的人体轮廓,随后送入到高效Transformer模块中进行处理;在Transformer的不同阶段,通过对每个Token进行置信度打分,分数大小决定了该Token相对于骨骼关键点的重要程度,将重要性较低的Token融合为一个新的Token以此来达到减小信息冗余,提高计算效率的目的。最后我们在主流的COCO和MPII数据集上进行了测试,无论是在计算复杂度还是网络精度上,本发明专利技术均要优于主流的最先进的模型。

【技术实现步骤摘要】

本专利技术属于计算机视觉及人体姿态估计,具体涉及一种基于多级融合与判别网络的二维人体姿态估计方法


技术介绍

1、transformer是一种序列到序列型的网络,可以很好的捕捉输入序列中的上下文信息,在自然语言处理(nlp)领域取得了巨大的成功,很快研究者将其引入到视觉领域,由于其内置的多头自注意力模块能够捕捉到人体姿态中的长程依赖关系,这对于准确地预测人体关节之间的关系非常重要,因此涌现出了很多经典的transformer-based的人体姿态估计网络,如下:

2、文献[li,ke,et al.pose recognition with cascade transformers.incvpr.2021,pp.1944-1953]提出了一种使用级联transformer进行姿态识别的方法,并以transformer为解码器来直接回归关键点。文献[mao,weian,et al.tfpose:direct humanpose estimation with transformers.arxiv preprint arxiv:2103.15320(本文档来自技高网...

【技术保护点】

1.一种基于多级融合与判别网络的二维人体姿态估计方法,包括如下步骤:

2.根据权利要求1所述的二维人体姿态估计方法,其特征在于:所述骨干网络只选用经ImageNet数据集预训练过的HRNet网络的前三个阶段即HRNet-s,其参数量仅为原来的25%,具体操作为:首先将输入图片裁剪成统一尺寸后送入到HRNet-s中进行特征提取,输出高中低三个不同层次的特征图,对于第i个层次的特征图,其高度Hi和宽度Wi分别为:

3.根据权利要求2所述的二维人体姿态估计方法,其特征在于:所述令牌生成器的具体操作过程如下:

4.根据权利要求3所述的二维人体姿态估计方法,其特...

【技术特征摘要】

1.一种基于多级融合与判别网络的二维人体姿态估计方法,包括如下步骤:

2.根据权利要求1所述的二维人体姿态估计方法,其特征在于:所述骨干网络只选用经imagenet数据集预训练过的hrnet网络的前三个阶段即hrnet-s,其参数量仅为原来的25%,具体操作为:首先将输入图片裁剪成统一尺寸后送入到hrnet-s中进行特征提取,输出高中低三个不同层次的特征图,对于第i个层次的特征图,其高度hi和宽度wi分别为:

3.根据权利要求2所述的二维人体姿态估计方法,其特征在于:所述令牌生成器的具体操作过程如下:

4.根据权利要求3所述的二维人体姿态估计方法,其特征在于:所述判别器网络的具体操作过程为:首先将多个层次拼接后的视觉令牌依次经过多层感知机和softmax函数,得到一个n维的权值向量,其包含了每条视觉令牌的置信度分数,最后根据权值向量将置信度分数排名后30%的视觉令牌进行裁剪,只保留前70%的视觉令牌并对其进行位置编码。

5.根据权利要求1所述的二维人体姿态估计方法,其特征在于:所述高效transformer模块由多层transformer级联组成,其输入为裁剪保留的视觉令牌以及初始化生成的关键点令牌组成,每层transformer由正则化层l1、多头自注意力机制层、正则化层l2、前馈神经网络依次连接组成,其中正则化层l2的输入为多头自注意力机制层的输出与正则化层l1的输入叠加而成,前馈神经网络的输出与正则化层l2的输入叠加后作为transformer的输出。

<...

【专利技术属性】
技术研发人员:李少华张海翔马汉杰冯杰
申请(专利权)人:浙江理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1