基于多级融合与判别网络的二维人体姿态估计方法技术

技术编号：40478842 阅读：7 留言：0更新日期：2024-02-26 19:13

本发明专利技术公开了一种基于多级融合与判别网络的二维人体姿态估计方法，其首先通过高分辨CNN网络来提取图像的纹理信息，接着通过融合多层次的特征来提高网络的特征表达能力，然后通过判别网络来定位粗糙的人体轮廓，随后送入到高效Transformer模块中进行处理；在Transformer的不同阶段，通过对每个Token进行置信度打分，分数大小决定了该Token相对于骨骼关键点的重要程度，将重要性较低的Token融合为一个新的Token以此来达到减小信息冗余，提高计算效率的目的。最后我们在主流的COCO和MPII数据集上进行了测试，无论是在计算复杂度还是网络精度上，本发明专利技术均要优于主流的最先进的模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉及人体姿态估计，具体涉及一种基于多级融合与判别网络的二维人体姿态估计方法。

技术介绍

1、transformer是一种序列到序列型的网络，可以很好的捕捉输入序列中的上下文信息，在自然语言处理(nlp)领域取得了巨大的成功，很快研究者将其引入到视觉领域，由于其内置的多头自注意力模块能够捕捉到人体姿态中的长程依赖关系，这对于准确地预测人体关节之间的关系非常重要，因此涌现出了很多经典的transformer-based的人体姿态估计网络，如下：

2、文献[li,ke,et al.pose recognition with cascade transformers.incvpr.2021,pp.1944-1953]提出了一种使用级联transformer进行姿态识别的方法，并以transformer为解码器来直接回归关键点。文献[mao,weian,et al.tfpose:direct humanpose estimation with transformers.arxiv preprint arxiv:2103.15320(2021)]将姿态估计任务转化为序列预测问题，通过transformer的编码解码结构来回归关键点。文献[yang,sen,et al.transpose:keypoint localization via transformer.in iccv.2021,pp.11802-11812]以cnn为编码器，通过transformer来捕捉关键点之间的长距离依赖关系。文献[li,y

3、虽然transformer的引入让人体姿态估计网络有了更高的上限，但与此同时也会带来更高的计算复杂度，这也是上述方法共同面临的问题，尤其是文献[xu,yufei,etal.vitpose:simple vision transformer baselines for human pose estimation.inneurips.2022,38571-38584]内存占用过大，已经失去了实际应用价值，因此一些研究者开始尝试在速度和精度之间取得一个平衡，提出一些轻量化的人体姿态估计方案，如下：

4、文献[zhang,wenqiang,et al.efficientpose:efficient human poseestimation with neural architecture search.computational visual media.2021,335-347]中通过自动化神经架构搜索，找到了一种高效的神经网络结构，用于准确地估计人体的姿势。文献[yu,changqian,et al.lite-hrnet:a lightweight high-resolutionnetwork.in cvpr.2021,pp.10440-10450]通过引入条件通道加权单元来替代hrnet中较重的shuffle块，从而实现网络的轻量化，该方法在保持高分辨率特征的同时，大大减少了网络的参数量和计算复杂度。文献[ma,haoyu,et al.ppt:token-pruned pose transformerfor monocular and multi-view human pose estimation.in eccv.2022,pp.424-442]中通过引入基于令牌修剪的姿态变换器，仅在选定的令牌内执行自注意力操作，以此来降低transformer部分的计算复杂度；此外，作者还将ppt扩展到多视角人体姿态估计，并提出了一种名为人体区域融合的新的跨视角融合策略，该策略将所有人体前景像素视为对应的候选。

5、虽然上述的方法在轻量化上做的很好，比如以修剪cnn为代表的文献[yu,changqian,et al.lite-hrnet:a lightweight high-resolution network.incvpr.2021,pp.10440-10450]，以修剪transformer为代表的文献[ma,haoyu,et al.ppt:token-pruned pose transformer for monocular and multi-view human poseestimation.in eccv.2022,pp.424-442]，但是本质上都是以牺牲精度为代价的，相比于baseline模型，精度上均有了不同程度的下降。

6、将transformer用于人体姿态估计任务是未来的一种趋势，将图像补丁作为视觉令牌，通过多头自注意力机制来建模图像中的全局依赖关系，是pose transformer的核心思想；然而全局注意力机制计算复杂度高，并且容易受到严重的背景噪声干扰，使得基于transformer的人体姿态估计网络面临着严峻的挑战。

技术实现思路

1、鉴于上述，本专利技术提供了一种基于多级融合与判别网络的二维人体姿态估计方法，其采用的算法模型madn(multi-level aggregated pose transformer withdiscriminative network)无论是在计算复杂度还是网络精度上，均要优于主流最先进的模型，能够十分出色的完成高质量的人体姿态估计任务。

2、一种基于多级融合与判别网络的二维人体姿态估计方法，包括如下步骤：

3、(1)获取大量含有人物的图片，并对图片中人物的关节点位置进行标注；

4、(2)构建madn网络模型框架，其包括骨干网络、令牌生成器、特征融合模块、判别器网络、高效transformer模块以及热图回归模块，其中：

5、所述骨干网络(backbone)用于对输入图片进行视觉特征提取；

6、所述令牌生成器(tokenizer)用于将骨干网络提取得到的不同层次的特征图切分为若干个补丁，并沿着通道维度对补丁进行拼接并拉直为一维序列的形式，最后通过线性层将该一维序列转化为所需要的视觉令牌；

7、所述特征融合模块(feature aggregation)用于将不同层次的视觉令牌进行拼接操作，以此来达到融合不同层次的视觉特征的目的；

本文档来自技高网...

【技术保护点】

1.一种基于多级融合与判别网络的二维人体姿态估计方法，包括如下步骤：

2.根据权利要求1所述的二维人体姿态估计方法，其特征在于：所述骨干网络只选用经ImageNet数据集预训练过的HRNet网络的前三个阶段即HRNet-s，其参数量仅为原来的25％，具体操作为：首先将输入图片裁剪成统一尺寸后送入到HRNet-s中进行特征提取，输出高中低三个不同层次的特征图，对于第i个层次的特征图，其高度Hi和宽度Wi分别为：

3.根据权利要求2所述的二维人体姿态估计方法，其特征在于：所述令牌生成器的具体操作过程如下：

4.根据权利要求3所述的二维人体姿态估计方法，其特征在于：所述判别器网络的具体操作过程为：首先将多个层次拼接后的视觉令牌依次经过多层感知机和Softmax函数，得到一个N维的权值向量，其包含了每条视觉令牌的置信度分数，最后根据权值向量将置信度分数排名后30％的视觉令牌进行裁剪，只保留前70％的视觉令牌并对其进行位置编码。

5.根据权利要求1所述的二维人体姿态估计方法，其特征在于：所述高效Transformer模块由多层Transfor

6.根据权利要求5所述的二维人体姿态估计方法，其特征在于：所述高效Transformer模块中部分Transformer层前设置有判别器网络，其用于对输入Transformer的Token中的视觉令牌进行置信度打分，将置信度分数较低的视觉令牌融合成一个新的视觉令牌。

7.根据权利要求5所述的二维人体姿态估计方法，其特征在于：所述多头自注意力机制层由多个Self-Attention组成，每个Self-Attention将多头自注意力机制层的输入分别与线性变换矩阵WQ、WK和WV相乘对应得到查询向量矩阵Q、键向量矩阵K、值向量矩阵V，然后通过以下公式计算出Self-Attention的输出结果，最后将多个Self-Attention的输出结果拼接后经过线性层即得到多头自注意力机制层的输出；

8.根据权利要求1所述的二维人体姿态估计方法，其特征在于：所述热图回归模块只取关键点令牌作为输出，进而通过多层感知机将其重新映射回二维的热图形式，具体地：在高效Transformer模块的最后阶段，只取关键点令牌作为输出，将其送入到多层感知机中，在多层感知机中首先将关键点令牌映射回二维生成热图P，其尺寸为M×H*×W*，H*和W*分别为输入图片高度H和宽度W的1/4，M为关键点令牌的数量；最后将热图P重塑成M个热图，且热图尺寸与原图一致，在此基础上通过在热图上找到最大响应位置来定位人体的各关节点坐标。

9.根据权利要求1所述的二维人体姿态估计方法，其特征在于：所述步骤(3)的具体实现方式如下：

...

【技术特征摘要】

1.一种基于多级融合与判别网络的二维人体姿态估计方法，包括如下步骤：

2.根据权利要求1所述的二维人体姿态估计方法，其特征在于：所述骨干网络只选用经imagenet数据集预训练过的hrnet网络的前三个阶段即hrnet-s，其参数量仅为原来的25％，具体操作为：首先将输入图片裁剪成统一尺寸后送入到hrnet-s中进行特征提取，输出高中低三个不同层次的特征图，对于第i个层次的特征图，其高度hi和宽度wi分别为：

3.根据权利要求2所述的二维人体姿态估计方法，其特征在于：所述令牌生成器的具体操作过程如下：

4.根据权利要求3所述的二维人体姿态估计方法，其特征在于：所述判别器网络的具体操作过程为：首先将多个层次拼接后的视觉令牌依次经过多层感知机和softmax函数，得到一个n维的权值向量，其包含了每条视觉令牌的置信度分数，最后根据权值向量将置信度分数排名后30％的视觉令牌进行裁剪，只保留前70％的视觉令牌并对其进行位置编码。

5.根据权利要求1所述的二维人体姿态估计方法，其特征在于：所述高效transformer模块由多层transformer级联组成，其输入为裁剪保留的视觉令牌以及初始化生成的关键点令牌组成，每层transformer由正则化层l1、多头自注意力机制层、正则化层l2、前馈神经网络依次连接组成，其中正则化层l2的输入为多头自注意力机制层的输出与正则化层l1的输入叠加而成，前馈神经网络的输出与正则化层l2的输入叠加后作为transformer的输出。

<...

【专利技术属性】
技术研发人员：李少华，张海翔，马汉杰，冯杰，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人