一种基于视觉transformer的三维重建体素方法技术

技术编号:30824780 阅读:58 留言:0更新日期:2021-11-18 12:18
一种基于视觉transformer的三维重建体素方法,涉及三维重建体素领域。由于一些物体的关键信息缺失或物体表面的部分被自遮挡,图像的特征点可能无法提取,导致图像三维重建体素的失败。基于视觉transformer的三维重建体素方法包括:输入图像信息,利用基于视觉transformer模块编码层,提取不同维度的图像特征;通过三维转置卷积进行解码图像的特征,得到粗略的体素信息;设计三维视觉transformer结构重构体素,提升体素信息的精度,或利用图像信息学习对应的体素权重,并根据生成权重层的三维卷积利用网络输出层融合体素,得到重建后的体素。该三维重建体素方法能够在单视图和多视图的情况下快速的恢复出物体的体素,从而反映原物体的整体结构。从而反映原物体的整体结构。从而反映原物体的整体结构。

【技术实现步骤摘要】
一种基于视觉transformer的三维重建体素方法


[0001]一种基于视觉transformer的三维重建体素方法,涉及三维重建体素领域。

技术介绍

[0002]人们在客观世界之中接触到的物体是三维的,我们可以从立体化角度的去观察物体,这样就可以更好的分析它们的结构和性质,比如说汽车的车内空间是否足够宽阔以便于人们可以舒适的坐进去;书包是否有夹层,学生们是否可以利用多个夹层来归纳整理不同的书籍。但对于计算机视觉来说,这样的解析过程是很有难度的,因为物体在计算机中的一般表现形式是二维图像,这一表达形式相对于三维物体来说会有很多的信息损失,所以在一些应用中需要通过一定的技术手段来恢复出物体的三维结构。
[0003]现阶段许多方法利用图像序列的特征点,结合图像序列之间的联系,实现三维重构。但是,由于一些关键信息的缺失,会给重建的过程带来一些困难:如何对于不可见部分进行还原就是在三维重构过程中必须考虑的问题,这个问题的解决需要利用特定技术来对图像的三维结构进行推测;有些方法需要将相机提前标定,因此在特定场景之下并不适用;当物体表面的一部分被本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视觉transformer的三维重建体素方法,其特征在于,该方法重建的对象是单视图,该方法包括:待重建单视图作为神经网络中输入单视图图像初始值;将单视图图像初始值输入到基于视觉transformer模块的编码层,提取图像不同维度之上的特征;通过三维转置卷积将提取到的图像特征解码并得到粗略的体素信息;设计三维视觉transformer结构重构体素,将粗略的体素信息进行精度提升,得到单视图三维重建后的最终体素模型。2.根据权利要求1所述一种基于视觉transformer的三维重建体素方法,其特征在于,所述的将单视图图像初始值输入到基于视觉transformer模块的编码层,提取图像不同维度之上的特征,采用下述方法获得:将图像转换成图像块的形式;编码层的输入为x∈R
H
×
W
×
C
其中H代表输入信息的长维度;W代表输入信息的宽维度;C代表所要提取的特征维度;R代表矩阵信息。按照滑动窗口顺序提取图像块,所述滑动窗口为l
×
l每一个图像块x
p
的大小为l
×
l
×
C滑动窗口滑动的步长为s,则图像块的总数目E为(H

l/s)
×
(W

l/s)将每个图像块扁平化为x'
p
∈R
D
×1获得图像块x'的尺度为:x'∈R
E
×
D
引入自注意力机制到每个图像块:全连接层得到图像块自注意力机制中的键x
k
,查询x
q
,值x
v
:x
k
=x'W
k
,W
k
∈R
D
×
D'
,x
k
∈R
E
×
D'
x
q
=x'W
q
,W
q
∈R
D
×
D'
,x
q
∈R
E
×
D'
x
v
=x'W
v
,W
v
∈R
D
×
D'
,x
v
∈R
E
×
D'
其中D'代表新的特征维度;W
k
代表键的权重矩阵;W
q
代表查询的权重矩阵;W
v
代表值得权重矩阵;通过矩阵点乘计算查询和键之间的相似性得到权重矩阵x
w
:使用Softmax函数归一化权重矩阵:
其中,代表第i个第j列对应的元素;基于视觉transformer模块的编码层通过将权重矩阵和value值相乘学习到图像之中的特征x
att
:x
att
=x
w
·
x
v
使用神经网络的多层感知力机制,该层由多层全连接层以及dropout层来组成。3.根据权利1所述一种基于视觉transformer的三维重建体素方法,其特征在于,所述设计三维视觉transformer结构重构体素,将粗略的体素信息进行精度提升,得到单视图三维重建后的最终体素模型的过程为:编码层输入x∈R
C
×
H
×
W
×
L
,其中L代表输入信息的高维度;使用三维的滑动窗口提取体素模块,并将其在特征维度堆叠:所述滑动窗口为l
×
l
×
l,则每个提取到的体素块尺寸为x
p
∈R

【专利技术属性】
技术研发人员:石振锋郭帅君
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1