【技术实现步骤摘要】
一种基于光流运动约束的自注意力视频深度估计方法
[0001]本专利技术属于3D视觉与视频处理领域,具体涉及一种基于光流运动约束的自注意力视频深度估计方法。
技术介绍
[0002]单目深度估计即从单张图像估计图片的三维空间信息,能够为众多视觉任务提供空间几何信息,比如场景重建和视点生成。目前单目深度主要通过深度神经网络对单张RGB图像进行端到端的深度图生成,卷积神经网络(Convolutional Neural Network,CNN)被广泛用于单目深度估计,在主干网络,损失函数,深度数据集等方面得到了深入的研究。CNN具有的归纳偏置特性,使深度估计模型具备一定的泛化性能,提高了单目深度估计的质量与效率。但也存在局限性,其中CNN由于其固有的局部特性,无法产生全局上下文感知的深度预测。随着ViT(Vision Transformer)技术的发展,自注意力网络Transformer的出现能够以恒定的和较高的分辨率处理特征表示,并且在网络的每个阶段都能够建立远距离像素依赖获得全局的感受野,在处理单张图像上解决了CNN获取全局感受野 ...
【技术保护点】
【技术特征摘要】
1.一种基于光流运动约束的自注意力视频深度估计方法,其特征在于:包括如下步骤:步骤1:通过预训练好的自注意力单目深度估计网络获取初始深度结果;步骤2:通过步骤1中获取的初步深度结果,进行基于光流的像素warp对齐;步骤3:通过步骤2中的对齐结果,获得遮挡掩码;步骤4:通过步骤2和步骤3获取的结果,进行联合损失函数计算,进行网络反向传播,约束移动的像素在时间上获得稳定变化的深度;步骤5:在推理阶段,不需要借助光流网络,依次输入图像进行深度网络的端到端预测,获得稳定的深度结果。2.根据权利要求1所述的一种基于光流运动约束的自注意力视频深度估计方法,其特征在于:步骤1所述获取初始深度结果,不限于特定深度估计网络,适用于一切端到端深度估计网络的时间一致性优化。3.根据权利要求1所述的一种基于光流运动约束的自注意力视频深度估计方法,其特征在于:步骤2所述的像素warp对齐,通过预训练好的光流估计网络计算两个连续帧的像素运动关系,X
i+1
∈R
H
×
W
×3运动到X
i
∈R
H
×
W
×3的光流结果表示为f
i+1
→
i
∈R
H
×
W
×2;首先施行反向扭曲warp操作,将后一帧图像X
i+1
通过光流图warp到X
i
的位置上,得到同样的将步骤1获得的初始深度图也进行D
i+1
∈R
H
×
W
×1到D
i
∈R
H
×
W
×1的warp操作,得到此时两个深度图实现了空间对齐。4.根据权利要求1所述的一种基于光流运动约束的自注意力视频深度估计方法,其特征在于:步骤3所述的获取遮挡掩码,通过步骤2的warp操作,得到的彩色图像存在由遮挡引起的差...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。