【技术实现步骤摘要】
一种基于深度学习的视频一致性深度估计方法及装置
[0001]本专利技术属于计算机视觉,人工智能领域,尤其涉及一种基于深度学习的视频一致性深度估计方法。
技术介绍
[0002]基于单目视频的深度估计是计算机视觉领域中的一个重要研究课题,在机器人技术、场景重建、三维目标检测,以及无人自动驾驶等各方面都有着极为广泛的应用。如今广泛使用的视频深度估计算法主要为传统估计算法和基于学习的深度估计算法,以往的深度估计工作都存在着一定程度的不足。大多数传统的深度估计方法都依赖于对场景进行空间或者时间观测的假设(如立体或多视角、运动结构),而且主要集中在多视角几何上。传统方法一般在计算复杂度等方面有着较高的要求且往往深度估计精确但不完整,而新兴的基于学习的深度估计方法能够从数据中学习场景先验,使得其在传统方法表现较弱或者不正确的场景部分给出相对可信的深度估计,但其训练往往需要大量的数据进行支持,且对时间尺度相距较远的帧深度估计不佳,空间尺度一致程度不足,极大的影响了基于深度信息的视觉应用的实际表现。
技术实现思路
[0003]本专利技术的目的是针对现有技术不足,基于深度学习提出一种提高视频一致性深度估计的方法。
[0004]本专利技术采用的技术方案具体如下:
[0005]一种基于深度学习的视频一致性深度估计方法,包括:
[0006]利用训练好的单图深度估计网络对视频帧序列的每一张视频帧估计初始深度图,获得初始深度图序列。
[0007]将初始深度图序列输入至训练好的一致性深度估计网络,估计 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的视频一致性深度估计方法,其特征在于,包括:利用训练好的单图深度估计网络对视频帧序列的每一张视频帧估计初始深度图,获得初始深度图序列。将初始深度图序列输入至训练好的一致性深度估计网络,估计获得具有一致性的深度图序列。其中,所述一致性深度估计网络包括卷积长短记忆ConvLSTM层,以初始深度图序列为输入,估计的具有一致性的深度图序列为输出,利用数据集通过最小化总损失函数训练获得。所述数据集包括多个样本,每个样本包括视频帧序列{I
j
}、初始深度图序列关键帧对集合S、半稠密深度图序列T表示视频帧序列的帧数。每个样本通过如下方法获取:采集视频帧序列{I
j
};利用训练好的单图深度估计网络对视频帧序列{I
j
}的每一张视频帧估计初始深度图,获得初始深度图序列分割去除视频帧序列{I
j
}的每一张视频帧中出现的运动对象,获得不包含运动对象的视频帧序列。对视频帧序列{I
j
}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S。使用COLMAP对不包含运动对象的视频帧序列中每一张视频帧估计获得相机位姿参数和半稠密深度图并基于三维空间世界坐标系与相机坐标系的几何投影关系,通过调整相机位姿参数使所述半稠密深度图与对应的初始深度图尺度匹配。所述总损失函数L
all
为:L
all
=λ
d
L
d
+λ
st
L
st
+λ
lt
L
lt
其中,L
st
为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中相邻帧之间的深度一致性损失。L
lt
为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中,归属于关键帧对集合S的关键帧对之间的深度一致性损失。L
d
为数据集的每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中,深度图O
j
与其对应的半稠密深度图之间的深度一致性损失。λ
d
,λ
st
,λ
lt
为对应的L
d
、L
st
、L
lt
损失的权重。2.根据权利要求1所述的方法,其特征在于,所述单图深度估计网络的训练方法如下:利用MannequinChallenge数据集的单一图像作为输入,估计的深度图作为输出,最小化估计的深度图与真值的损失进行监督训练。所述真值通过MVS方法估计获得。3.根据权利要求1所述的方法,其特征在于,所述一致性深度估计网络具体包括两个卷积层,残差模块,一个卷积长短记忆ConvLSTM层...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。