一种多视图三维重建方法及设备技术

技术编号:37143431 阅读:12 留言:0更新日期:2023-04-06 21:52
本发明专利技术公开了一种多视图三维重建方法及设备,所述方法包括:利用二维UNet网络提取输入图像的三个尺度的图片特征;利用自注意力机制对特征序列进行优化;采用单应性变换进行二维向三维转换,并构建初始代价体;将初始代价体输入到三维UNet网络执行softmax、soft

【技术实现步骤摘要】
一种多视图三维重建方法及设备


[0001]本专利技术涉及计算机视觉领域,具体涉及一种多视图三维重建方法及设备。

技术介绍

[0002]三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控等。从计算机视觉的角度,三维重建旨在根据给定图像数据集,从重叠的图像中估计稠密表示,进而恢复出对应物体的几何模型。传统三维重建方法使用手工制作的相似性度量和工程正则化(如归一化互相关和半全局匹配)来计算密集对应和恢复三维点云。虽然这些方法在理想情况下取得了很好的结果,但是依旧面临着一些局限性。例如,场景中的低纹理、遮挡、高光和相互作用区域使得密集匹配变得难以处理,从而导致重建的完整性和鲁棒性变差(参见文献“Yao Yao,ZixinLuo,Shiwei Li,Tian Fang,and Long Quan.Mvsnet:Depth inference for unstructuredmulti

view stereo.In European Conference on Computer Vision(ECCV),2018.”)。近年来,深度学习技术和计算机硬件的高速发展极大地推动了学术界在三维重建问题上的研究,并取得了令人欣喜的成果。迄今为止,基于深度卷积神经网络(CNN)的方法实现了在三维重建上最先进的精度效果。CNN通过编码器

解码器结构,编码器对图片数据进行特征提取,并利用注意力机制进行特征融合,再经过解码器的反卷积运算生成预测的三维模型。但是此类技术在捕获特征时主要依赖特征的外部信息,未能对特征之间的联系尤其是数据或特征之间的内部相关性加以挖掘。目前几种方法采用不同的卷积层获取特征,但是,对上下文信息的特征表示不够明确。三维重建对应的是源图和参考图,图像对之间在大小、照明和视野上具有多样性,采用卷积特征提取的方法受卷积核感受野的影响,产生的特征图有很多差异性,进而导致立体匹配的不一致性,影响重建精度。

技术实现思路

[0003]专利技术目的:针对现有技术的问题,本专利技术提出一种多视图三维重建方法及设备,改善重建精度。
[0004]技术方案:一种多视图三维重建方法,包括以下步骤:
[0005](1)利用二维UNet网络提取输入图像的三个尺度的图片特征,分别表示为X1、X2和 X3;
[0006](2)将得到的三种尺度的特征序列X1、X2和X3分别输入到相应的自注意力层,计算自注意力得分,并根据自注意力得分生成新的特征序列X1′
、X2′
和X3′

[0007](3)采用单应性变换分别将特征序列X1′
、X2′
和X3′
映射到参考视图的坐标系下,并构建相应的初始代价体;
[0008](4)将初始代价体输入到三维UNet网络正则化得到代价体V
k,i
,进而执行softmax 操作得到概率体P
k,i
,对概率体执行soft

argmin操作得到初始深度图D
k,i
,其中k∈{1,2,3} 表示三个阶段,其中第一阶段生成的深度图D
1,i
作为第二阶段中单应性变换的额外输入,第
二阶段生成的深度图D
2,i
作为第三阶段中单应性变换的额外输入,i表示第i个视图;
[0009](5)计算初始概率体的深度信息熵,作为像素点在不同深度的不确定度U
s
,将不确定度作为权重对初始代价体进行融合;
[0010](6)融合后的代价体经过三维UNet网络执行softmax和soft

argmin操作,生成深度图D0。
[0011]进一步地,特征序列X1、X2和X3表征的尺度分别相当于原始图像尺度的1/8、1/4 和1/2。
[0012]进一步地,所述步骤(2)包括:
[0013]以X表示X1、X2和X3中的任意一个,首先将X输入到三个不同的线性层,得到三组不同的特征序列Q、K、V,如公式(1)所示:
[0014][0015]其中,W
q
、W
k
和W
v
表示线性层的权重因子,由网络多次训练得到最优值;
[0016]然后,根据公式(2),计算自注意力得分:
[0017][0018]其中,表示特征维度,自注意力得分表示特征之间的相关性;
[0019]最后,根据自注意力得分,生成新的特征序列,如公式(3)所示:
[0020]X

=attention
×
V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0021]进一步地,所述步骤(3)中单应性变换如下所示:
[0022][0023]其中H
i
(d)表示第i个视图的特征图与假设深度d处的参考特征图之间的单应性,K
i
、 R
i
、t
i
分别表示第i个视图的相机内参、旋转、平移,n1表示参考相机的主轴参数,K1、 R1、t1分别表示参考相机内参、旋转、平移,I是单位矩阵,上标T表示转置。
[0024]进一步地,所述步骤(5)中不确定度U
s
的数学表达如下:
[0025][0026]U
s
表示像素点s在不同深度值处的不确定度,f
u
为映射函数,H
s
表示像素点s的信息熵,P
s,j
表示像素点s在对应深度为j处的概率,N
d
为深度范围。
[0027]代价体融合公式如下:
[0028][0029]其中,S
i
=log(U
i
)。
[0030]本专利技术还提供一种计算机设备,包括:
[0031]一个或多个处理器;
[0032]存储器;以及
[0033]一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的多视图三维重建方法的步骤。
[0034]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的多视图三维重建方法的步骤。
[0035]有益效果:本专利技术在三层网络架构的基础上,在特征提取部分利用自注意力机制将图片特征提取转化为序列问题。基于自注意力得分,进一步挖掘图片特征信息的内在联系,平衡特征之间的差异性,从全局的角度考虑图片特征信息的提取,提高了物体多视图三维重建的完整性。通过探索采用注意力机制拓展特征提取之间的相关性,全局搜索进而自适应学习一定程度的上下文信息,有助于捕捉图像丰富的相关性,得到各个像素点特征图的联系,改进了图像特征的表示,隐式加入场景的先验信息,最终使得重建更有目的性。在代价体构建阶段,以不确定度作为代价本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多视图三维重建方法,其特征在于,包括以下步骤:(1)利用二维UNet网络提取输入图像的三个尺度的图片特征,分别表示为X1、X2和X3;(2)将得到的三种尺度的特征序列X1、X2和X3分别输入到相应的自注意力层,计算自注意力得分,并根据自注意力得分生成新的特征序列X1′
、X2′
和X3′
;(3)采用单应性变换分别将特征序列X1′
、X2′
和X3′
映射到参考视图的坐标系下,并构建相应的初始代价体;(4)将初始代价体输入到三维UNet网络正则化得到代价体V
k,i
,进而执行softmax操作得到概率体P
k,i
,对概率体执行soft

argmin操作得到初始深度图D
k,i
,其中k∈{1,2,3}表示三个阶段,其中第一阶段生成的深度图D
1,i
作为第二阶段中单应性变换的额外输入,第二阶段生成的深度图D
2,i
作为第三阶段中单应性变换的额外输入,i表示第i个视图;(5)计算初始概率体的深度信息熵,作为像素点在不同深度的不确定度,将不确定度作为权重对初始代价体进行融合;(6)融合后的代价体经过三维UNet网络执行softmax和soft

argmin操作,生成深度图D0。2.根据权利要求1所述的多视图三维重建方法,其特征在于,特征序列X1、X2和X3表征的尺度分别相当于原始图像尺度的1/8、1/4和1/2。3.根据权利要求1所述的多视图三维重建方法,其特征在于,所述步骤(2)包括:以X表示X1、X2和X3中的任意一个,首先将X输入到三个不同的线性层,得到三组不同的特征序列Q、K、V,如公式(1)所示:其中,W
q
、W
k
和W
v
表示线性层的权重因子,由网络多次训练得到最优值;然后,根据公式(2),计算自注意力得分:其中,表示特征维度,自注意力得分表示特征之间的相关性;最后,根据自注意力得分,生成新的特征序列,如公式(3)所示:X'=attention
×
V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)。4.根据权利要求1所述的多视图三维...

【专利技术属性】
技术研发人员:怀红旗高锐沙洁韵
申请(专利权)人:南京六九零二科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1