使用注意力模型将2D表示提升到3D制造技术

技术编号：37142650 阅读：15 留言：0更新日期：2023-04-06 21:49

描述了一种处理设备(200)，用于形成用于估计由多个数据集(101)表示的一个或多个关节对象的三维状态的系统，每个数据集指示对象的关节在二维空间上的投影，该处理设备包括一个或多个处理器(201)，其被配置为：接收(301)数据集；使用具有多个编码器层的编码器架构(104)处理(302)数据集，每个编码器层包括各自的自注意力机制(107)和各自的前馈网络(109)，每个自注意力机制实现多个注意力头；以及根据数据集训练(303)编码器层，以提高编码器架构估计由数据集表示的一个或多个对象的三维状态(106)的准确性。这可以允许通过使用小型高效模型在实时运行时外推输入数据来估计深度，将2D人体关键点提升到相对于根部(如骨盆关节)的3D。节)的3D。节)的3D。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用注意力模型将2D表示提升到3D

[0001]本专利技术涉及在处理设备处根据二维数据集估计对象的三维位置。

技术介绍

[0002]近年来，人体关节的3D位置估计已成为广泛研究的课题。对将二维数据(以x、y关键点的形式)外推(extrapolate)到3D以预测与人体骨骼相关的关节的根相对坐标的方法进行定义受到了特别关注。有17个关键点描述人体骨骼，包括头部、肩部、肘部、手腕、骨盆、膝盖和脚踝。
[0003]最初，工作主要基于具有大量约束的预先设计模型，以解决不同人体关节之间的高度依赖性。
[0004]随着卷积神经网络(Convolutional Neural Network，CNN)的发展，已经开发了姿势估计器，姿势估计器直接从RGB图像或中间2D预测端到端地重建3D姿势。这种方法已经迅速超过了以前手工估计器的准确性。
[0005]目前最先进的方法通常分为两种主要的方法。一些方法直接从单目图像端到端预测3D关键点。这通常会产生良好的结果，但需要非常大的模型。其他方法执行提升，其中使用2D预测器从图像中预测人体姿势，然后将2D关键点(相对于图像)扩大到3D。这种两步法通常使用时间卷积层(Temporal Convolution Layer)从来源于视频的姿势聚合信息。
[0006]需要开发一种将对象的关节的2D投影提升到3D的方法，该方法通过使用小型高效模型在实时运行时外推输入数据来估计深度，从而克服现有方法的局限性。

技术实现思路

[0007]根据一个方面，提供了一种...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理设备(200)，用于形成用于估计由多个数据集(101)表示的一个或多个关节对象的三维状态的系统，每个数据集指示所述对象的关节在二维空间上的投影，所述处理设备包括一个或多个处理器(201)，其被配置为：接收(301)所述数据集；使用具有多个编码器层的编码器架构(104)处理(302)所述数据集，每个编码器层包括各自的自注意力机制(107)和各自的前馈网络(109)，每个自注意力机制实现多个注意力头；以及根据所述数据集训练(303)所述编码器层，以提高所述编码器架构估计由所述数据集表示的一个或多个对象的三维状态(106)的准确性。2.根据权利要求1所述的处理设备(200)，其中每个对象都是人并且每个数据集指示人体姿势。3.根据权利要求1或2所述的处理设备(200)，其中所述编码器架构(104)实现Transformer架构。4.根据前述权利要求任一项所述的处理设备(200)，其中每个自注意力机制(107)的操作由一组参数定义，并且所述设备被配置为在多个自注意力机制之间共享一个或多个所述参数。5.根据权利要求4所述的处理设备(200)，其中所述设备被配置为响应于连续数据集，调整自注意力机制(107)中的一个或多个所述参数，并在调整参数后，将所述参数传播到一个或多个其他自注意力机制。6.根据权利要求5所述的处理设备(200)，其中每个编码器层的操作由一组参数定义，所述设备被配置为响应于连续数据集，调整编码器层中的一个或多个所述参数，并且所述设备被配置为不将所述参数传播到任何其他编码器层。7.根据前述权利要求任一项所述的处理设备(200)，其中所述一个或多个处理器(201)被配置为：对所述数据集执行一维卷积(102)以形成卷积数据并使用所述编码器架构(104)处理所述卷积数据。8.根据权利要求7...

【专利技术属性】
技术研发人员：阿德里安，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人