多视角形状重建方法、系统、电子设备及存储介质技术方案

技术编号:38703992 阅读:8 留言:0更新日期:2023-09-08 14:44
本发明专利技术公开多视角形状重建方法、系统、电子设备及存储介质,方法包括:获取多张视角图像;将多张视角图像输入重建模型进行特征提取,输出与视角图像对应的多个特征信息;对多个特征信息进行特征压缩,输出特征张量;对特征张量进行形状重建,得到三维张量信息;根据预设的真值的网格的状态信息以及三维张量信息之间的差异对重建模型进行训练,得到预训练的重建模型;将多张视角图像输入预训练的重建模型进行形状重建,输出目标张量信息;将目标张量信息的元素值与预设的元素阈值进行对比,得到目标物体的体素表示。在本发明专利技术实施例中,能够根据一个物体的多张视角图生成其对应形状的体素表示。状的体素表示。状的体素表示。

【技术实现步骤摘要】
多视角形状重建方法、系统、电子设备及存储介质


[0001]本专利技术数据处理
,尤其涉及一种多视角形状重建方法、系统、电子设备及存储介质。

技术介绍

[0002]三维重建的主要目标之一是从二维图像恢复物体三维结构。近年来,随着虚拟现实、3D打印、自动驾驶、智能医疗和影视制作等产业的发展,人们对三维模型的需求出现了爆发式的增长,传统的手工建模方法已难以满足这一需求,准确高效的三维重建方法成为解决这一问题的关键。三维重建方法是利用计算机搭建神经网络,通过大量的图像数据与三维模型数据进行训练,学习图像至三维模型的映射关系,从而实现对新的图像目标进行三维重建。其中,在三维重建领域,传统的基于图像的重建算法一般利用特征匹配或模式适应等方式从图像或视频中恢复三维模型,然而由于图像二维特征的歧义性和稀疏性,这类方法往往存在较大的限制,无法适应各种场景下的重建任务,并且难以精确地生成与物体形状对应的体素表示。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。
[0004]本专利技术实施例提供了一种多视角形状重建方法、系统、电子设备及存储介质,能够实现根据一个物体的多张视角图生成其对应形状的体素表示。
[0005]第一方面,本专利技术实施例提供了一种多视角形状重建方法,所述方法包括:
[0006]获取多张视角图像,其中,所述视角图像为在不同视角下对目标物体进行图像采集得到;
[0007]将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信息;
[0008]对多个所述特征信息进行特征压缩,输出特征张量;
[0009]对所述特征张量进行形状重建,得到三维张量信息,其中,所述三维张量信息用于表征所述目标物体的每个体素点的网格处于占有状态的置信度值;
[0010]根据预设的真值的网格的状态信息以及所述三维张量信息之间的差异对所述重建模型进行训练,得到预训练的重建模型,其中,所述状态信息用于表征所述网格处于占有状态或者空闲状态;
[0011]将多张所述视角图像输入预训练的重建模型进行形状重建,输出目标张量信息;
[0012]将所述目标张量信息的元素值与预设的元素阈值进行对比,得到所述目标物体的体素表示。
[0013]本专利技术实施例提供的多视角形状重建方法,至少具有如下有益效果:首先,获取多张在不同视角下对目标物体进行图像采集得到的视角图像,再将多张视角图像输入预设的重建模型进行特征提取,提取每张视角图像的特征,输出与视角图像对应的多个特征信息,
便于后续进行目标物体的形状重建,之后,对多个特征信息进行特征压缩,将所有特征信息压缩至固定的大小,便于重建模型进行进一步处理,输出特征张量,再对特征张量进行形状重建,从而能够预测目标物体的每个体素点的网格处于占有状态的置信度值,得到三维张量信息,实现对网格状态的置信度值的精准预测,根据预设的真值的网格的状态信息以及三维张量信息之间的差异对重建模型进行训练,得到预训练的重建模型,从而提高重建模型对目标物体的三维形状重建能力,最后,将视角图像输入预训练的重建模型进行形状重建,使得重建模型根据目标物体的多张视角图像生成与其形状对应的张量信息,输出多个张量信息,从而得到目标物体形状体素表示中每个网格处于占有状态的置信度的预测值,再将所有目标张量信息的元素值与预设的元素阈值进行对比,得到目标物体的体素表示,以实现根据目标物体的多张视角图生成其对应形状的体素表示,实现对目标物体的三维形状重建。
[0014]在一些实施例中,所述重建模型包括线性映射层和Transformer块;所述将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信息,包括:
[0015]对于每张所述视角图像,将所述视角图像输入预设的重建模型,使得所述重建模型对所述视角图像进行归一化处理;
[0016]对归一化处理后的所述视角图像进行字段化,输出与所述视角图像对应多个图像token;
[0017]将所有所述图像token输入所述线性映射层进行特征嵌入,并对特征嵌入后的所述图像token进行位置编码操作,得到所述视角图像的多个编码图像token;
[0018]将所有所述编码图像token以及预设的全局token输入所述Transformer块进行特征传递,输出与所述视角图像对应的多个特征信息。
[0019]在一些实施例中,所述Transformer块包括视角内多头自注意力层、视角间多头自注意力层以及前向网络;所述将所有所述编码图像token以及预设的全局token输入所述Transformer块进行特征传递,输出与所述视角图像对应的多个特征信息,包括:
[0020]将所有所述编码图像token以及所述全局token输入所述视角内多头自注意力层,以使所述视角内多头自注意力层对所述视角图像进行特征表达,得到图像整体信息;
[0021]将所述图像整体信息存入所述全局token,得到与所述视角图像对应的第一全局token;
[0022]将所述第一全局token输入所述视角间多头自注意力层进行信息交互,输出第二全局token;
[0023]基于所述前向网络对所述第一全局token以及所述第二全局token进行全局衔接,输出多个特征信息。
[0024]在一些实施例中,所述重建模型包括多头自注意力层以及前向神经网络;所述对所述特征张量进行形状重建,得到三维张量信息,包括:
[0025]将所述特征张量输入所述多头自注意力层进行特征解码,输出重建张量;
[0026]基于预设的内容张量的键矩阵以及值矩阵对所述重建张量的状态进行调节,得到解码张量;
[0027]将所述解码张量输入所述前向神经网络进行特征重建,输出所述三维张量信息。
[0028]在一些实施例中,所述将所述解码张量输入所述前向神经网络进行特征重建,输出所述三维张量信息,包括:
[0029]将所述解码张量输入所述前向神经网络进行标志映射,输出多个特征点,其中,所述特征点与所述目标物体的体素点对应;
[0030]对所述特征点进行特征重建,得到目标特征信息;
[0031]基于预设的激活函数对所述目标特征信息的网格进行置信度预测,得到置信度值;
[0032]根据所述置信度值生成所述三维张量信息。
[0033]在一些实施例中,所述将所有所述目标张量信息的元素值与预设的元素阈值进行对比,得到所述目标物体的体素表示,包括:
[0034]将所有所述目标张量信息的元素值与预设的元素阈值进行对比,得到第一体素信息以及第二体素信息,其中,所述第一体素信息中的元素值小于所述元素阈值,所述第二体素信息中的元素值大于等于所述元素阈值;
[0035]对所述第一体素信息进行统计,确定处于空白状态的第一网格信息;
[0036]对所述第二体素信息进行统计,确定处于占有状态的第二网格信息;
[0037]根据所述第一网格信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多视角形状重建方法,其特征在于,所述方法包括:获取多张视角图像,其中,所述视角图像为在不同视角下对目标物体进行图像采集得到;将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信息;对多个所述特征信息进行特征压缩,输出特征张量;对所述特征张量进行形状重建,得到三维张量信息,其中,所述三维张量信息用于表征所述目标物体的每个体素点的网格处于占有状态的置信度值;根据预设的真值的网格的状态信息以及所述三维张量信息之间的差异对所述重建模型进行训练,得到预训练的重建模型,其中,所述状态信息用于表征所述网格处于占有状态或者空闲状态;将多张所述视角图像输入预训练的重建模型进行形状重建,输出目标张量信息;将所述目标张量信息的元素值与预设的元素阈值进行对比,得到所述目标物体的体素表示。2.根据权利要求1所述的多视角形状重建方法,其特征在于,所述重建模型包括线性映射层和Transformer块;所述将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信息,包括:对于每张所述视角图像,将所述视角图像输入预设的重建模型,使得所述重建模型对所述视角图像进行归一化处理;对归一化处理后的所述视角图像进行字段化,输出与所述视角图像对应多个图像token;将所有所述图像token输入所述线性映射层进行特征嵌入,并对特征嵌入后的所述图像token进行位置编码操作,得到所述视角图像的多个编码图像token;将所有所述编码图像token以及预设的全局token输入所述Transformer块进行特征传递,输出与所述视角图像对应的多个特征信息。3.根据权利要求2所述的多视角形状重建方法,其特征在于,所述Transformer块包括视角内多头自注意力层、视角间多头自注意力层以及前向网络;所述将所有所述编码图像token以及预设的全局token输入所述Transformer块进行特征传递,输出与所述视角图像对应的多个特征信息,包括:将所述编码图像token以及所述全局token输入所述视角内多头自注意力层,以使所述视角内多头自注意力层对所述视角图像进行特征表达,得到图像整体信息;将所述图像整体信息存入所述全局token,得到与所述视角图像对应的第一全局token;将所述第一全局token输入所述视角间多头自注意力层进行信息交互,输出第二全局token;基于所述前向网络对所述第一全局token以及所述第二全局token进行全局衔接,输出多个特征信息。4.根据权利要求1所述的多视角形状重建方法,其特征在于,所述重建模型包括多头自注意力层以及前向神经网络;所述对所述特征张量进行形状重建,得到三维张量信息,包
括:将所述特征张量输入所述多头自注意力层进行特征解码,输出重建张量;基于预设的内容张量的键矩阵以及值矩阵对所述重建张量的状态进行调节,得到解码张量;将所述解码张量输入所述前向...

【专利技术属性】
技术研发人员:郑宇华梁延研赵默君
申请(专利权)人:珠海剑心互动娱乐有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1