基于高分辨率上下文网络的拥挤人群姿态估计方法技术

技术编号：35175100 阅读：22 留言：0更新日期：2022-10-12 17:41

本发明专利技术公开了一种基于高分辨率上下文网络的拥挤人群姿态估计方法，提供了全局前馈网络GFFN和动态前馈网络DFFN，能够在始终保持图像的二维结构信息的情况下，捕获骨干网络中间特征图包含的上下文信息，并增强特征表示对被遮挡人体的动态适应性；提供一种新型人体姿态估计网络，即高分辨率上下文网络HRNeXt，该网络能够提取到具有丰富的上下文信息的高分辨率特征表示，高效地对图像中不同人体之间及不同身体部位之间的位置关系进行抽象理解，有效解决重遮挡环境下姿态识别精度下降的问题。该方法能够准确、高效地对被遮挡人体的姿态进行预测，对重遮挡环境具有较强的鲁棒性。对重遮挡环境具有较强的鲁棒性。对重遮挡环境具有较强的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于高分辨率上下文网络的拥挤人群姿态估计方法

[0001]本专利技术涉及深度学习、计算机视觉
，具体是涉及一种基于高分辨率上下文网络的拥挤人群姿态估计方法。

技术介绍

[0002]多人姿态估计是计算机视觉领域中的一项基本任务，其目的是对给定的二维图像中所有人体的关键点进行定位，从而得到人体姿态的基本表示。由于许多下游应用（如人体动作识别、人机交互、动画制作等）都需要人体姿态作为输入或者中间表示，因此近几年姿态估计任务受到越来越多的关注。尽管在前沿的深度学习技术的帮助下，关于一般的场景下的多人姿态估计的相关研究已经取得了不错的进展，但目前在重遮挡的拥挤场景下的多人姿态估计（可称为拥挤人群姿态估计）仍然是一个棘手的挑战。图像特征的高分辨率表示、图像上下文信息的提取与利用是解决该问题的两大关键点。
[0003]在目前基于深度学习的姿态估计方法中，卷积神经网络常用于提取图像特征，目前比较先进的网络及其特点为：高分辨率网络（High
‑
Resolution Network，HRNet）关注于在特征提取过程中始终维持高分辨率的表示，以避免在上下采样过程中造成细节信息损失，然而由于使用单一尺度的卷积模块，只能获取到图像中局部区域的上下文信息；高分辨率自注意力模型（High
‑
Resolution Transformer，HRFormer）在其基础上使用自注意力模块代替卷积模块，加强网络对全局信息的获取，然而直接使用自注意力机制破坏了图像的二维结构信息，因此在获取图像上下文信息方面的...

【技术保护点】

【技术特征摘要】
1.基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述方法的步骤为：步骤1、获取用于拥挤人群姿态估计的图像数据集，划分为训练集和测试集，并对数据集中所有图像进行统一的数据预处理；步骤2、构建高分辨率上下文网络HRNeXt，所述高分辨率上下文网络HRNeXt由网络起始层和网络主干组成；所述网络起始层由4层卷积层构成，实现对网络初始输入图像进行四倍下采样；所述网络主干包括高分辨率的主分支和若干不同分辨率的并行分支；网络主干的第1阶段由一个高分辨率主分支组成，在每个后续新阶段的开始，由主分支及新的并行分支堆叠构成跨分支网络构建块；在每个跨分支网络构建块内的各个分支上，由高分辨率上下文模块分别地对不同尺度下的特征进行提取与变换；在每个跨分支网络构建块的末端应用层归一化，以对不同分支特征进行统一分布表示，随后进行一次多尺度特征融合，以实现并行分支上不同尺度特征之间的信息交流；所述高分辨率上下文模块由一个3
×
3深度动态卷积、一个批归一化层、一个GFFN、一个批归一化层和一个DFFN依次堆叠构成；在其中3
×
3深度动态卷积的输出处应用GELU激活函数，随后输出的特征进行跨层跳跃连接与其上一层的输出相加；在GFFN和DFFN的输出处也都进行跨层跳跃连接，分别与其各自前一层的批归一化层的输入相加；步骤3、利用步骤1中经过预处理后的训练集数据，对步骤2所构建的HRNeXt网络进行训练；步骤4、加载步骤3训练得到的HRNeXt网络模型，在步骤1中经过预处理后的测试集数据上进行测试。2.根据权利要求1所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述网络起始层由一个步长为2的3
×
3卷积、一个步长为1的3
×
3深度卷积、一个步长为1的1
×
1卷积和一个步长为2的3
×
3深度卷积依次堆叠构成。3.根据权利要求2所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述深度动态卷积利用多卷积核动态融合方法，融合多个专家卷积核的权重参数，根据卷积层的不同输入特征动态地调整每个专家卷积核的置信度分数，以此动态地生成实...

【专利技术属性】
技术研发人员：李群，张子屹，肖甫，张锋，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人