人体姿势估计系统中使用实时姿势缓冲区校正的方法技术方案

技术编号:35013338 阅读:9 留言:0更新日期:2022-09-21 15:10
一种在实时2D/3D人体姿势估计系统中使用检测到的姿势的实时缓冲区来校正人体姿势的系统和方法。尽管许多现有的人体姿势估计系统有很高的准确度,但仍然由于问题的复杂性而无法避免错误的输出。在许多情况下,对于两个相似的图像(具有相似的姿势),系统可能会输出不同的关节定位,或者缺少关节定位。所提出的系统将检测到的置信度得分较高的姿势存储到实时姿势缓冲区中。将下一帧中检测到的姿势与姿势缓冲区进行比较以匹配姿势相似度,并将具有最高姿势置信度和关节置信度的姿势视为当前帧的候选姿势。帧的候选姿势。帧的候选姿势。

【技术实现步骤摘要】
人体姿势估计系统中使用实时姿势缓冲区校正的方法
一、
:
[0001]本专利技术一般应用于人体姿势估计系统领域,更具体地说,应用于实时2D/3D人体姿势估计系统中的姿势校正。
二、
技术介绍
:
[0002]最近深度学习方法的进步、改进的硬件能力和大量可用的数据使人体姿势估计领域得到了蓬勃发展。其广泛的应用正引起该领域许多研究人员的关注。人体姿势估计系统接收图像作为输入,并产生一组人体姿势关键点定位作为输出。根据姿势估计系统的定位器是2D还是3D,关键点定位可以投影到2D或3D 平面上。主流的姿势估计方法可分为以下两类:自顶向下方法或自底向上方法。在前一种方法中,系统首先检测图像中每个人的单独边界框,并对裁剪后的图像进行关节定位估计。而后一种方法首先检测关节定位而不考虑人,最后映射每个定位到图像中的特定人。与其他的实时人体姿势估计系统的工作方式相同,不同之处在于它接收一系列图像作为输入并返回一系列关键点关节集作为输出。很多实时姿势估计系统在理论上产生了最先进的结果,但由于某些原因,系统在应用于实时图像序列时无法获得更高的精度。
[0003]现有的许多技术克服了实时估计系统检测中的姿势异常问题。一些技术使用姿势回归器在数据集中存储的姿势空间内选择更接近检测到的姿势。而其他方法使用训练后的深度学习模型以及关节的运动学信息来改进检测到的姿势。几乎所有的技术都将计算密集型子系统级联到估计系统,因此对姿势的改善会导致实时系统的帧速率急剧下降。在实践中可以明显看出,实时估计系统与单独输入图像估计模型相比,它获得的准确度和精度较低。当系统为两个姿势相似的图像返回不同的姿势关节定位时可能会发生异常。图像序列中的后续帧是该场景的一个常见示例,系统返回具有不同定位的姿势,或返回与序列中较早检测到的姿势相同的丢失关节的姿势。
[0004]本专利技术通过使用用于存储姿势结构的集合的姿势缓冲器来最小化所讨论的姿势异常。姿势结构是在前一帧中检测到的具有较高置信度分数的姿势。
三、
技术实现思路

[0005]本专利技术说明了在任何实时2D/3D人体姿势估计系统中使用姿势缓冲器进行姿势校正的系统、方法、过程和模型。该系统作为后处理模块对姿势估计系统返回的姿势进行微调,所有图通过说明后续子模块的工作原理来演示该系统。
[0006]图1展示了整个系统的抽象表示。该系统使用通用实时2D/3D姿势人体姿势估计系统作为先验系统。人体姿势估计系统(0102)接收RGB或RGB

D图像序列(0101)作为输入并返回一组检测到的姿势关节定位 (0103)。在2D姿势估计系统中,输入是由单目相机生成的单目RGB图像序列,输出是一组2D定位向量 (每个关节一个)。而在3D姿势估计系统中,输入是RGB

D图像序列(一对RGB图像和同步深度图),输出是一组3D定位向量(每个关节一个)。参考姿势模型和相应的关节配置,如图5所示。
[0007]在许多情况下,2D/3D姿势估计系统检测到的姿势包含异常的位置向量,导致在考虑实时图像序列时难以进行准确的检测。然后将检测到的姿势输入到姿势校正器模块(0104)中,生成具有最小异常的精细姿势(0105)。校正模块是通过维护具有较高置信度分数的检测到的姿势的缓冲区来实现的。
[0008]图2展示了基本的2D/3D人体姿势估计系统的结构。系统接收图像或图像序列(0201)并将它们通过姿势估计器(0202)来生成图像中每个人的一组2D/3D关节定位(0203)。对于2D姿势估计系统,输入是单目图像序列,而在3D姿势估计系统中,对序列(单目图像,深度图)作为输入。在2D人体姿势估计系统中,对于具有K个人、N个姿势关节的序列中的所有特定图像,每个2D人体姿势关节表示为:
[0009][0010]而在3D姿势估计系统中,对于具有K个人、N个姿势关节的序列中的所有特定图像,每个3D姿势关节表示为:
[0011][0012]图3展示了姿势校正系统的结构。系统将姿势估计模块检测到的2D/3D姿势(0301)作为系统的输入。然后将姿势输入到姿势校正模块(0302)中,该模块输出精炼的姿势(0304)。姿势校正器模块通过维护在前一帧中检测到的姿势(0303)缓冲区来实现。对于具有相似姿势的相似图像,系统会返回与前一帧相同或更高的置信度得分的姿势。为此,系统将每个更高的置信度的姿势记录到姿势缓冲区中。将存储在缓冲区中的姿势与要细化的姿势进行比较以进行最终校正。
[0013]图4(A)展示姿势缓冲器(PB)的结构。缓冲区是姿势结构的线性阵列,其中每个姿势结构代表在前一帧中检测到的具有较高姿势置信度分数的姿势。使用从0开始到W

1结束的索引访问姿势缓冲区中的各个姿势结构,其中W是姿势缓冲区中存储的姿势结构数(缓冲区长度)。
[0014]图4(B)展示了单个姿势结构的配置。单个姿势结构保存单个姿势所需的所有数据,存储在姿势缓冲区中。它包含表示为O0到O20的2D/3D关节定位,其中O0表示鼻子关键点的定位。每个定位是2D关节的集合(x,y)和3D关节的集合(x,y,z)。对于每个关节,姿势估计系统返回范围从0到1的置信度分数。姿势结构将这些关节置信度分数保存为ScoreO0到ScoreO20。数量ScorePose表示存储在姿势结构中的整个姿势的置信度分数。而ScoreAcc是计算量,表示在发现两个姿势的相似性时使用的累积分数。对于特定的姿势结构,ScoreAcc计算如下:
[0015][0016]其中

为检测到的关节数,取值范围为0~20。ScoreAcc是所有关节置信度分数、姿势置信度分数和检测到的关节数的总和。
[0017]图5展示了人体模型(0500)。该模型由21个姿势关节组成,其中每个关节都是一个3D或4D向量。表示为J的2D关节是x、y定位以及0

1范围内的置信度分数的集合。用O表示的3D关节是x、y、z定位以及0

1范围内的置信度分数的集合,而N是姿势关节的数量。关节描述如表1所示。
[0018]表.1
[0019][0020][0021]图6展示了整个系统的流程图。首先,系统在单目或深度相机的帮助下捕获一帧图像(0601)。每帧图像的尺寸为w
×
h
×
d,其中w是宽度,h是高度,d是3D系统的最大深度。对于2D姿势估计系统,输入帧是RGB图像,而对于3D姿势估计系统,输入帧是一对图像(RGB图像,深度图)。然后将帧图像输入到姿势估计系统中,该系统生成姿势关节定位(0602)以及关节和姿势置信度分数。当前帧F检测到的2D 关节表示为JF,3D关节表示为OF(0603)。如果检测到的姿势的置信度分数大于阈值分数(0604),则将该姿势添加到姿势缓冲区(0605)。此后,计算姿势缓冲区的长度(0606)以检查它是否为空(0607)。如果姿势缓冲区不包含从前一帧中存储的任何姿势结构,则系统开始捕捉序列中的下一帧。而如果姿势缓冲区不为空,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在实时2D/3D人体姿势估计中使用姿势缓冲器进行姿势校正的方法,该方法包括:a.从输入设备中提取实时图像序列的输入模块。b.一个2D/3D姿势估计模块,它接收图像并为图像中的每个人生成2D/3D关节定位。c.用于维护包含具有较高置信度分数姿势的姿势缓冲区的模块。d.使用姿势缓冲区在当前帧中进行姿势校正的后处理模块。2.如权利要求1所述的方法,方法内包括:a.输入包含一个或多个人的完整/部分身体姿势的RGB+D图像序列。b.包含检测到的具有较高姿势置信度分数的姿势的实时姿势缓冲器。c.使用姿势缓冲器生成精细的2D/3D人体姿势。d.计算检测到的姿势和姿势缓冲结构之间的姿势差异。3.一种用于实时姿势估计和姿势校正的系统,该系统包括:a.一种捕获实时单目图像序列的装置。b.一种使用深度传感器捕获同步深度图的装置。c.接收包含一个或多个人的图像序列。d.非易失性存储器,用于在不执行时保存系统二进制文件。e.在处理过程中保存系统可执行文件、图像序列和深度图的主存储器。f.一种用于执行系统二进制文件以执行方法的计算机处理器,包括:i...

【专利技术属性】
技术研发人员:王全玉艾力张开翔孙玥
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1