【技术实现步骤摘要】
一种多视图三维重建方法及设备
[0001]本专利技术涉及计算机视觉领域,具体涉及一种多视图三维重建方法及设备。
技术介绍
[0002]三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控等。从计算机视觉的角度,三维重建旨在根据给定图像数据集,从重叠的图像中估计稠密表示,进而恢复出对应物体的几何模型。传统三维重建方法使用手工制作的相似性度量和工程正则化(如归一化互相关和半全局匹配)来计算密集对应和恢复三维点云。虽然这些方法在理想情况下取得了很好的结果,但是依旧面临着一些局限性。例如,场景中的低纹理、遮挡、高光和相互作用区域使得密集匹配变得难以处理,从而导致重建的完整性和鲁棒性变差(参见文献“Yao Yao,ZixinLuo,Shiwei Li,Tian Fang,and Long Quan.Mvsnet:Depth inference for unstructuredmulti
‑
view stereo.In European Conference on Computer Vision(ECCV),2018.”)。近年来,深度学习技术和计算机硬件的高速发展极大地推动了学术界在三维重建问题上的研究,并取得了令人欣喜的成果。迄今为止,基于深度卷积神经网络(CNN)的方法实现了在三维重建上最先进的精度效果。CNN通过编码器
‑
解码器结构,编码器对图片数据进行特征提取,并利用注意力机制进行特征融合,再经过解码器的反卷积运算生成预测的三维模型。但是此类 ...
【技术保护点】
【技术特征摘要】
1.一种多视图三维重建方法,其特征在于,包括以下步骤:(1)利用二维UNet网络提取输入图像的三个尺度的图片特征,分别表示为X1、X2和X3;(2)将得到的三种尺度的特征序列X1、X2和X3分别输入到相应的自注意力层,计算自注意力得分,并根据自注意力得分生成新的特征序列X1′
、X2′
和X3′
;(3)采用单应性变换分别将特征序列X1′
、X2′
和X3′
映射到参考视图的坐标系下,并构建相应的初始代价体;(4)将初始代价体输入到三维UNet网络正则化得到代价体V
k,i
,进而执行softmax操作得到概率体P
k,i
,对概率体执行soft
‑
argmin操作得到初始深度图D
k,i
,其中k∈{1,2,3}表示三个阶段,其中第一阶段生成的深度图D
1,i
作为第二阶段中单应性变换的额外输入,第二阶段生成的深度图D
2,i
作为第三阶段中单应性变换的额外输入,i表示第i个视图;(5)计算初始概率体的深度信息熵,作为像素点在不同深度的不确定度,将不确定度作为权重对初始代价体进行融合;(6)融合后的代价体经过三维UNet网络执行softmax和soft
‑
argmin操作,生成深度图D0。2.根据权利要求1所述的多视图三维重建方法,其特征在于,特征序列X1、X2和X3表征的尺度分别相当于原始图像尺度的1/8、1/4和1/2。3.根据权利要求1所述的多视图三维重建方法,其特征在于,所述步骤(2)包括:以X表示X1、X2和X3中的任意一个,首先将X输入到三个不同的线性层,得到三组不同的特征序列Q、K、V,如公式(1)所示:其中,W
q
、W
k
和W
v
表示线性层的权重因子,由网络多次训练得到最优值;然后,根据公式(2),计算自注意力得分:其中,表示特征维度,自注意力得分表示特征之间的相关性;最后,根据自注意力得分,生成新的特征序列,如公式(3)所示:X'=attention
×
V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)。4.根据权利要求1所述的多视图三维...
【专利技术属性】
技术研发人员:怀红旗,高锐,沙洁韵,
申请(专利权)人:南京六九零二科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。