【技术实现步骤摘要】
多视角形状重建方法、系统、电子设备及存储介质
[0001]本专利技术数据处理
,尤其涉及一种多视角形状重建方法、系统、电子设备及存储介质。
技术介绍
[0002]三维重建的主要目标之一是从二维图像恢复物体三维结构。近年来,随着虚拟现实、3D打印、自动驾驶、智能医疗和影视制作等产业的发展,人们对三维模型的需求出现了爆发式的增长,传统的手工建模方法已难以满足这一需求,准确高效的三维重建方法成为解决这一问题的关键。三维重建方法是利用计算机搭建神经网络,通过大量的图像数据与三维模型数据进行训练,学习图像至三维模型的映射关系,从而实现对新的图像目标进行三维重建。其中,在三维重建领域,传统的基于图像的重建算法一般利用特征匹配或模式适应等方式从图像或视频中恢复三维模型,然而由于图像二维特征的歧义性和稀疏性,这类方法往往存在较大的限制,无法适应各种场景下的重建任务,并且难以精确地生成与物体形状对应的体素表示。
技术实现思路
[0003]以下是对本文详细描述的主题的概述。
[0004]本专利技术实施例提供了一种多视角形状重建方法、系统、电子设备及存储介质,能够实现根据一个物体的多张视角图生成其对应形状的体素表示。
[0005]第一方面,本专利技术实施例提供了一种多视角形状重建方法,所述方法包括:
[0006]获取多张视角图像,其中,所述视角图像为在不同视角下对目标物体进行图像采集得到;
[0007]将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信 ...
【技术保护点】
【技术特征摘要】
1.一种多视角形状重建方法,其特征在于,所述方法包括:获取多张视角图像,其中,所述视角图像为在不同视角下对目标物体进行图像采集得到;将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信息;对多个所述特征信息进行特征压缩,输出特征张量;对所述特征张量进行形状重建,得到三维张量信息,其中,所述三维张量信息用于表征所述目标物体的每个体素点的网格处于占有状态的置信度值;根据预设的真值的网格的状态信息以及所述三维张量信息之间的差异对所述重建模型进行训练,得到预训练的重建模型,其中,所述状态信息用于表征所述网格处于占有状态或者空闲状态;将多张所述视角图像输入预训练的重建模型进行形状重建,输出目标张量信息;将所述目标张量信息的元素值与预设的元素阈值进行对比,得到所述目标物体的体素表示。2.根据权利要求1所述的多视角形状重建方法,其特征在于,所述重建模型包括线性映射层和Transformer块;所述将多张所述视角图像输入预设的重建模型进行特征提取,输出与所述视角图像对应的多个特征信息,包括:对于每张所述视角图像,将所述视角图像输入预设的重建模型,使得所述重建模型对所述视角图像进行归一化处理;对归一化处理后的所述视角图像进行字段化,输出与所述视角图像对应多个图像token;将所有所述图像token输入所述线性映射层进行特征嵌入,并对特征嵌入后的所述图像token进行位置编码操作,得到所述视角图像的多个编码图像token;将所有所述编码图像token以及预设的全局token输入所述Transformer块进行特征传递,输出与所述视角图像对应的多个特征信息。3.根据权利要求2所述的多视角形状重建方法,其特征在于,所述Transformer块包括视角内多头自注意力层、视角间多头自注意力层以及前向网络;所述将所有所述编码图像token以及预设的全局token输入所述Transformer块进行特征传递,输出与所述视角图像对应的多个特征信息,包括:将所述编码图像token以及所述全局token输入所述视角内多头自注意力层,以使所述视角内多头自注意力层对所述视角图像进行特征表达,得到图像整体信息;将所述图像整体信息存入所述全局token,得到与所述视角图像对应的第一全局token;将所述第一全局token输入所述视角间多头自注意力层进行信息交互,输出第二全局token;基于所述前向网络对所述第一全局token以及所述第二全局token进行全局衔接,输出多个特征信息。4.根据权利要求1所述的多视角形状重建方法,其特征在于,所述重建模型包括多头自注意力层以及前向神经网络;所述对所述特征张量进行形状重建,得到三维张量信息,包
括:将所述特征张量输入所述多头自注意力层进行特征解码,输出重建张量;基于预设的内容张量的键矩阵以及值矩阵对所述重建张量的状态进行调节,得到解码张量;将所述解码张量输入所述前向...
【专利技术属性】
技术研发人员:郑宇华,梁延研,赵默君,
申请(专利权)人:珠海剑心互动娱乐有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。