基于叠层归一化流模型的单目人物重建方法技术

技术编号：39961013 阅读：9 留言：0更新日期：2024-01-09 00:02

本发明专利技术公开了一种基于叠层归一化流模型的单目人物重建方法，本发明专利技术主要的创新点在于：(1)提出一种新型的刻画人和物体三维空间位置的方式，该方式相比之前的刻画方式是信息完全的、显式的和高效的。(2)设计出提取人和物体之间空间关系的神经网络，该网络考虑到单目重建自身的歧义性问题从图片中提取出人和物体空间关系的概率分布，而不是点估计，从而更适合于单目场景下的三维重建。(3)该发明专利技术在后优化步骤中提出了人物偏移量损失，该损失相比之前的算法能够更加高效的约束人和物体之间的空间约束。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种人和物体三维网格模型的单目重建方法，属于计算机科学中的计算机视觉领域，该领域的应用非常广泛，例如在人体行为感知与理解、人机交互、增强现实、具身智能等方面存在广泛的应用，该领域是一个近年来新生领域并一直处于不断发展状态，各种新技术、新模型以及新算法层出不穷。

技术介绍

1、近些年来，人的单目重建或者物的单目重建一直被分隔开来研究而没有考虑它们之间的交互关系，最近越来越多的工作表明将人和与之交互的物体结合起来共同考虑可以产生物理上合理的结果甚至提高两者的重建精度。单目人和物体的重建要求我们从单张rgb图片中去重建出人的网格模型和物体的网格模型，人和物体之间的交互在其中起着重要作用，如何使用人和物体的交互来得到更好的重建效果，这仍然是一个没有完美解决的问题。

2、单目人和物体的三维重建中最重要的技术是如何对人和物体之间的三维空间位置进行刻画并从图片中去感知两者之间的空间位置关系。现存的刻画人物三维空间位置关系的技术可分成两类：基于接触面的刻画和基于隐式曲面方程的方法。接触面被定义为人和物体在交互过程中两者网格模型表面相接触的区域，phosa[1]根据常识人为定义了人和一些物体交互时的可能的接触区域，该方法从图片中分别重建人和物体，在后优化中使用接触区域来微调人和物体之间的相对位置，该方法简洁有效，但该方法需要人为定义接触区域(即需要针对每一个物体和每一种交互类型利用人类的先验知识构建接触面)并且不能适用于存在交互方式多样性高的物体，不能够自适应地从数据中学习这种人物交互关系先验知识。chore[2]使用隐

技术实现思路

1、本专利技术要解决的技术问题是：计算机视觉领域的方法仍然存在一些问题和不足：(1)如何对人和物体的空间关系进行刻画，即寻找一种更加合适的对人和物体三维空间关系的向量化编码；(2)如何从图片中提取这种空间关系，并应用到人和物体的单目三维重建上。

2、为了解决上述技术问题，本专利技术：(1)使用人和物体之间的锚点偏移量来表示人和物体的三维空间关系；(2)为了从图片中提取这种空间关系，本专利技术使用了层级式的normalizing flow，先从图片中得到人的姿态的概率分布，再根据人的姿态的概率分布和图片的内容得到人和物体关系的概率分布，这种方式能够稳定训练过程并加快训练速度；(3)在后优化过程中，使用了人和物体锚点偏移量损失来约束人和物体之间的空间位置，相比没有偏移量损失的单独重建人和物体的方法取得了更好的联合人和物体的重建精确度。

3、本专利技术公开的一种基于叠层归一化流模型的单目人物重建方法，其特征在于，包括以下步骤：

4、步骤1、获得训练数据集中每个人物交互实例所对应图片中人和物体之间的空间关系隐向量将空间关系隐向量被作为辅助标签训练神经网络模型，其中，将一对出现在同一张图片中的人和物体定义为人物交互实例；

5、步骤2、构建并训练提取人和物体之间空间关系的神经网络模型，该神经网络模型从输入图片预测人和物体之间空间关系的后验概率分布，其具体实现包括以下步骤：

6、步骤2-1：神经网络模型将输入图片编码成视觉特征向量c；

7、步骤2-2：使用多层感知机模型从视觉特征向量c提取摄像机的外参以及smpl模型的形状参数βinit；

8、步骤2-3：使用归一化流模型一以视觉特征向量c为条件，将从正态分布采样出的样本zθ～n(0，i)转换成人体姿态θ，从而构建人体姿态θ的概率分布pθ|i(θ|c)；

9、步骤2-4：使用归一化流模型二以视觉特征向量c和人体姿态θ为条件，将从正态分布采用出的样本zγ～n(0，i)转换到人和物体之间空间关系向量γ，从而构建出人和物体之间空间关系的概率分布pγ|i；θ(γ|c，θ)；

10、步骤2-5：从人和物体的空间关系分布中采样出具有最大概率密度的样本γ*，进一步依据x*＝vγ*+μ，从坐标偏移向量x*对应维度提取人体锚点和物体锚点之间的坐标偏移向量d＝{di,j},i＝1,...,m,j＝1,...,n，其中，v为投影矩阵，μ为x*的均值向量；

11、步骤2-6：从人体姿态θ的概率分布中选取概率密度最大的姿态使用θinit和步骤2-2得到的形状参数βinit作为人体网格模型smpl的初始化，之后优化下式以得到物体的相对旋转矩阵rinit以及相对平移坐标tinit：

12、

13、其中，lrel为偏移量损失，如下式所示：

14、

15、式中，表示smpl网格模型表面第i个锚点的三维坐标，该smpl网格模型由位姿参数θ和形状参数β决定，表示表示物体网格模型表面第j个锚点的三维坐标，该物体网格模型以旋转矩阵r和坐标平移向量t为参数；

16、步骤2-7：使用smpl模型将θinit和βinit转换成人体网格模型，将旋转矩阵rinit和平移向量tinit施加在物体的模板模型上得到物体网格模型的三维位置；

17、步骤3、使用人物偏移量损失和重投影损失对步骤2所建立的神经网络模型的结果进行后优化，在模型训练时，将计算出的损失计算梯度并回传，直到模型收敛，最终训练得到叠层归一化流模型。

18、优选地，所述步骤1进一步包括以下步骤：

19、步骤1-1：从人体网格模型smpl表面随机采样m个点构成人体锚点集asmpl，从不同物体网格模型表面随机采样n个点构成物体锚点集aobject；

20、步骤1-2：对训练数据集中每一个人和物体交互的人物交互实例，计算所有m个人体锚点和n个物体锚点之间的相对锚点坐标偏移量后得到m×n个坐标偏移量，这些坐标偏移量连接起来形成一个坐标偏移向量x；

21、步骤1-3：将所有人物交互实例的坐标偏移向量x组成坐标偏移矩阵x，提取坐标偏移矩阵x的前k个主成分向量，利用这k个主成分向量构建出投影矩阵v；

22、步骤1-4：对于任意一个人和物体交互的人物交互实例，使用投影矩阵v将其投影到隐空间中：

23、γ＝vt(x-μ)

24、式中，γ是人和物体坐标偏移量的压缩表示形式，μ是x的均值向量；

25、随后经过逆投影过程，将γ还原成坐标偏移量的近似形式，即获得空间关系隐向量

26、优选地，步骤1-2中，第i个人体锚点与第j个物体锚点之间的相对锚点坐标偏移量di,j表示为：

27、优选地，所述步骤3进一步包括以下步骤：

28、步骤3-1：从输入图片提取人体关键节点和物体的坐标对应图；

29、步本文档来自技高网...

【技术保护点】

1.一种基于叠层归一化流模型的单目人物重建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于叠层归一化流模型的单目人物重建方法，其特征在于，所述步骤1进一步包括以下步骤：

3.如权利要求1所述的一种基于叠层归一化流模型的单目人物重建方法，其特征在于，步骤1-2中，第i个人体锚点与第j个物体锚点之间的相对锚点坐标偏移量di,j表示为：

4.如权利要求1所述的一种基于叠层归一化流模型的单目人物重建方法，其特征在于，所述步骤3进一步包括以下步骤：

【技术特征摘要】

1.一种基于叠层归一化流模型的单目人物重建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于叠层归一化流模型的单目人物重建方法，其特征在于，所述步骤1进一步包括以下步骤：

3.如权利要求1所述的一种基于叠层归一...

【专利技术属性】
技术研发人员：汪婧雅，霍超凡，石野，
申请(专利权)人：上海科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人