一种基于视频的单阶段多人二维人体姿态估计方法及装置制造方法及图纸

技术编号:43605404 阅读:23 留言:0更新日期:2024-12-11 14:52
本发明专利技术公开了一种基于视频的单阶段多人二维人体姿态估计方法及装置,属于多人二维人体姿态估计领域,通过引入时序信息融合技术对视频序列中的多人人体姿态进行高效建模。首先,本发明专利技术对单个视频序列中的多人人体信息进行全面建模,构建了跨帧人体时序信息融合模块,能够有效捕捉和增强目标帧中人体的全局信息,使得在复杂场景下仍能准确识别和定位多个人体。其次,该方法深入建模人体各个关节点的信息,并设计了跨帧关节点时序信息融合模块,专门用于强化同一人在不同帧中相同关节点的信息传递与关联性。这种设计能够显著改善在视频序列中由于运动模糊、遮挡以及对焦不准等原因导致的关节点识别困难,从而使目标帧的关节点预测更加精确和稳定。

【技术实现步骤摘要】

本专利技术属于多人二维人体姿态估计领域,尤其涉及一种基于视频的单阶段多人二维人体姿态估计方法及装置


技术介绍

1、人体姿态估计是计算机视觉领域的一个基础且具有挑战的任务,人体姿态估计对于描述人体姿态、人体行为等至关重要。有许多计算机视觉任务都是以人体姿态估计任务作为基础的,包括行为识别、人机交互、行人跟踪、行人重识别等。

2、人体姿态估计主要可以分为单人姿态估计和多人姿态估计这两个子任务。单人姿态估计为任务基础,对于一张包含人的图片,我们需要找出这个人的所有关节点。在多人姿态估计中,对于一张包含多个人的图片,我们需要找出这张图中的所有人的关节点,对于这个问题,一般有自顶向下和自底向上两种方法。目前主流的解决多人姿态估计的方法大多为双阶段方法,在自顶向下方法中需要先使用人体检测器先检测出图片中的所有人,接着对检测到的每个人进行人体关键点检测,因此会导致姿态估计的性能会严重依赖人体检测器的性能,特别是在复杂场景下。其次,由于使用了两个隔离的检测器,运算量大,并且其与分割的人体实例的数量线性增加。对于自底向上的方法,在关节点关联阶段通常采用启发式的本文档来自技高网...

【技术保护点】

1.一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述包含人体片段的视频数据集基于PoseTrack17构建,包括不同人体姿态和不同背景的视频数据。

3.根据权利要求1所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述人体姿态估计网络包括ResNet-50组成的骨干网络、下采样层、Transformer编码器、姿态解码器、姿态跟踪器和关节解码器;

4.根据权利要求3所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特...

【技术特征摘要】

1.一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述包含人体片段的视频数据集基于posetrack17构建,包括不同人体姿态和不同背景的视频数据。

3.根据权利要求1所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述人体姿态估计网络包括resnet-50组成的骨干网络、下采样层、transformer编码器、姿态解码器、姿态跟踪器和关节解码器;

4.根据权利要求3所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述姿态解码器中,具体的处理流程包括:

5.根据权利要求4所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述姿态跟踪器中辅助帧人体姿态信息提取的处理包括:

6.根据权利要求4所述的一种基于视频的单阶段多人二维人体姿态估计方法,其特征在于,所述姿态跟踪器中帧间人体姿态时序信息融合的处理包括:使用两个自注意力网络和前馈神经网络进行辅助帧和目标帧中人体姿态空间信息和时序信息的融合,得到优化后的人体姿态令牌输入至多层感知机,使用多层感知机预测出融合前后各帧姿态关节点坐标的相对偏移,将相对偏移与姿态关节点坐标相加得到优...

【专利技术属性】
技术研发人员:王勋于永辉杨文武马洪亮贾杰
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1