使用注意力模型将2D表示提升到3D制造技术

技术编号:37142650 阅读:15 留言:0更新日期:2023-04-06 21:49
描述了一种处理设备(200),用于形成用于估计由多个数据集(101)表示的一个或多个关节对象的三维状态的系统,每个数据集指示对象的关节在二维空间上的投影,该处理设备包括一个或多个处理器(201),其被配置为:接收(301)数据集;使用具有多个编码器层的编码器架构(104)处理(302)数据集,每个编码器层包括各自的自注意力机制(107)和各自的前馈网络(109),每个自注意力机制实现多个注意力头;以及根据数据集训练(303)编码器层,以提高编码器架构估计由数据集表示的一个或多个对象的三维状态(106)的准确性。这可以允许通过使用小型高效模型在实时运行时外推输入数据来估计深度,将2D人体关键点提升到相对于根部(如骨盆关节)的3D。节)的3D。节)的3D。

【技术实现步骤摘要】
【国外来华专利技术】使用注意力模型将2D表示提升到3D


[0001]本专利技术涉及在处理设备处根据二维数据集估计对象的三维位置。

技术介绍

[0002]近年来,人体关节的3D位置估计已成为广泛研究的课题。对将二维数据(以x、y关键点的形式)外推(extrapolate)到3D以预测与人体骨骼相关的关节的根相对坐标的方法进行定义受到了特别关注。有17个关键点描述人体骨骼,包括头部、肩部、肘部、手腕、骨盆、膝盖和脚踝。
[0003]最初,工作主要基于具有大量约束的预先设计模型,以解决不同人体关节之间的高度依赖性。
[0004]随着卷积神经网络(Convolutional Neural Network,CNN)的发展,已经开发了姿势估计器,姿势估计器直接从RGB图像或中间2D预测端到端地重建3D姿势。这种方法已经迅速超过了以前手工估计器的准确性。
[0005]目前最先进的方法通常分为两种主要的方法。一些方法直接从单目图像端到端预测3D关键点。这通常会产生良好的结果,但需要非常大的模型。其他方法执行提升,其中使用2D预测器从图像中预测人体姿势,然后将2D关键点(相对于图像)扩大到3D。这种两步法通常使用时间卷积层(Temporal Convolution Layer)从来源于视频的姿势聚合信息。
[0006]需要开发一种将对象的关节的2D投影提升到3D的方法,该方法通过使用小型高效模型在实时运行时外推输入数据来估计深度,从而克服现有方法的局限性。

技术实现思路

[0007]根据一个方面,提供了一种处理设备,用于形成用于估计由多个数据集表示的一个或多个关节对象的三维状态的系统,每个数据集指示对象的关节在二维空间上的投影,该处理设备包括一个或多个处理器,其被配置为:接收数据集;使用具有多个编码器层的编码器架构处理数据集,每个编码器层包括各自的自注意力机制和各自的前馈网络,每个自注意力机制实现多个注意力头;以及根据数据集训练编码器层,以提高编码器架构估计由数据集表示的一个或多个对象的三维状态的准确性。
[0008]这可以允许处理设备通过使用小型高效模型在实时运行时外推输入数据来估计深度,从而形成用于将包括例如2D人体关键点(x,y坐标)的2D数据集提升到相对于根部(如骨盆关节)的3D(x,y,z坐标)的系统。
[0009]该对象或每个对象可以是人并且每个数据集可以指示人体姿势。每个数据集可以包括人体的多个关键点(每个都具有2D坐标)。通常,有17个关键点描述人体骨骼,包括头部、肩部、肘部、手腕、骨盆、膝盖和脚踝。指示人体姿势的每个数据集可以为多个关键点中的每个定义2D坐标。这可以允许估计人体关节的3D位置,这在视频游戏或虚拟现实应用中可能是有用的。
[0010]编码器架构可以实现Transformer(改变)架构。在将2D关键点提升到3D的任务中,
使用Transformer编码器模型可产生良好的准确性。
[0011]每个自注意力机制的操作可以由一组参数定义,并且该设备可以被配置为在多个自注意力机制之间共享一个或多个这样的参数。权重共享可以使模型更有效,同时保持(或在某些情况下提高)预测对象3D状态的准确性。
[0012]该设备可以被配置为响应于连续数据集,调整一自注意力机制中的一个或多个所述参数,并在调整参数后,将该参数传播到一个或多个其他自注意力机制。因此,一个或一些注意力层的参数可以与其他注意力层共享。这可以进一步提高模型的效率。
[0013]每个编码器层的操作可以由一组参数定义,该设备可以被配置为响应于连续数据集,调整一编码器层中的一个或多个这些参数,并且该设备可以被配置为不将这样的参数传播到任何其他编码器层。因此,在一些实施方式中,编码器层的参数可以不与其他编码器层共享。这可以进一步改进模型。
[0014]一个或多个处理器可以被配置为对数据集执行一维卷积以形成卷积数据并使用编码器架构处理卷积数据。这可以允许调整数据集的维度以匹配模型输入和输出的维度。
[0015]一个或多个处理器可以被配置为对连续数据集的系列执行一维卷积。这可以允许为2D输入序列估计对象的3D状态。例如,可以估计人体的3D运动序列。
[0016]数据集的系列可以是奇数个数据集的系列。这可以允许在训练期间考虑需要获得三维状态的中央数据集任一侧的数据集。
[0017]该设备可以被配置为根据数据集的系列估计数据集的系列中的中间一个数据集的三维状态。数据集的系列中的中间一个数据集可以对应于原始感受野(receptive field)的中心(用于预测一个3D姿势的姿势总数)。在训练期间,一半的感受野对应过去的姿势,另一半对应未来的姿势。感受野内的中间姿势可以是当前正在从2D提升到3D的姿势。
[0018]一个或多个处理器可以被配置为训练编码器架构以将数据集提升到三个维度。训练编码器可以允许模型更准确地预测对象的3D状态。
[0019]每个数据集可以表示人体关节相对于人体预定关节或结构的位置。该结构可以是骨盆。骨盆的位置可以作为根部。然后可以使用单独的模型确定相机到骨盆的距离。这可以允许确定每个关节相对于相机的位置。
[0020]该处理设备可以被配置为:接收多个图像,每个图像表示关节对象;以及对于每个图像,检测该图像中对象的关节位置,从而形成所述数据集之一。可以使用2D姿势估计器获得多个图像中人体的准确2D姿势。这可以允许从多个图像预测2D姿势,然后这些2D姿势可以用作输入到上述设备的数据集,以将2D数据集提升到3D。
[0021]一旦训练完成,可以使用该系统在推理阶段估计由多个这样的数据集表示的一个或多个关节对象的三维状态。
[0022]根据另一方面,提供了一种用于估计一个或多个关节对象的三维状态的系统,该系统由上述处理设备形成。
[0023]根据又一方面,提供了一种用于估计由多个数据集表示的一个或多个关节对象的三维状态的方法,每个数据集指示对象的关节在二维空间上的投影,该方法包括:接收数据集;使用具有多个编码器层的编码器架构处理数据集,每个编码器层包括各自的自注意力机制和各自的前馈网络,每个自注意力机制实现多个注意力头;以及根据数据集训练编码器层,以提高编码器架构估计由数据集表示的一个或多个对象的三维状态的准确性。
[0024]该方法还可以包括估计由多个这种数据集表示的一个或多个关节对象的三维状态。
[0025]该方法的使用可以允许通过使用小型高效模型在实时运行时外推输入数据来估计深度,将包括例如2D人体关键点(x,y坐标)的2D数据集提升到相对于根部(如骨盆关节)的3D(x,y,z)。
附图说明
[0026]现在将参考附图以示例的方式描述本专利技术。
[0027]在附图中:
[0028]图1示出了模型架构的概述,该架构将包括人体姿势的2D关键点的数据集序列作为输入,并使用对长期信息的自注意力生成3D姿势估计。
[0029]图2示出了一种处理设备,用于形成用于估计由多个数据集表示的一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理设备(200),用于形成用于估计由多个数据集(101)表示的一个或多个关节对象的三维状态的系统,每个数据集指示所述对象的关节在二维空间上的投影,所述处理设备包括一个或多个处理器(201),其被配置为:接收(301)所述数据集;使用具有多个编码器层的编码器架构(104)处理(302)所述数据集,每个编码器层包括各自的自注意力机制(107)和各自的前馈网络(109),每个自注意力机制实现多个注意力头;以及根据所述数据集训练(303)所述编码器层,以提高所述编码器架构估计由所述数据集表示的一个或多个对象的三维状态(106)的准确性。2.根据权利要求1所述的处理设备(200),其中每个对象都是人并且每个数据集指示人体姿势。3.根据权利要求1或2所述的处理设备(200),其中所述编码器架构(104)实现Transformer架构。4.根据前述权利要求任一项所述的处理设备(200),其中每个自注意力机制(107)的操作由一组参数定义,并且所述设备被配置为在多个自注意力机制之间共享一个或多个所述参数。5.根据权利要求4所述的处理设备(200),其中所述设备被配置为响应于连续数据集,调整自注意力机制(107)中的一个或多个所述参数,并在调整参数后,将所述参数传播到一个或多个其他自注意力机制。6.根据权利要求5所述的处理设备(200),其中每个编码器层的操作由一组参数定义,所述设备被配置为响应于连续数据集,调整编码器层中的一个或多个所述参数,并且所述设备被配置为不将所述参数传播到任何其他编码器层。7.根据前述权利要求任一项所述的处理设备(200),其中所述一个或多个处理器(201)被配置为:对所述数据集执行一维卷积(102)以形成卷积数据并使用所述编码器架构(104)处理所述卷积数据。8.根据权利要求7...

【专利技术属性】
技术研发人员:阿德里安
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1