当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度学习的视频一致性深度估计方法及装置制造方法及图纸

技术编号:33134781 阅读:26 留言:0更新日期:2022-04-17 00:58
本发明专利技术公开了一种基于深度学习的视频一致性深度估计方法及装置,该方法结合使用目前表现最佳的MVS(COLMAP)估计得到的半稠密深度图,利用现有的单目图像深度估计网络,得到输入视频关键帧的合理但不一致的深度结果,最后本方法引入长短记忆网络ConvLSTM,利用光流估计网络得到帧之间的对应关系建立深度估计约束,最终得到具有一致性的深度估计结果。本发明专利技术适用于手持拍摄设备(如手机等)随意拍摄的视频作为输入,允许包含适度运动的人或物,具有更高的普适性;本发明专利技术能够处理视频输入得到具有一致性的深度结果,并且在一定程度上相对已有的方法有更好的效果和更快的计算速度。已有的方法有更好的效果和更快的计算速度。已有的方法有更好的效果和更快的计算速度。

【技术实现步骤摘要】
一种基于深度学习的视频一致性深度估计方法及装置


[0001]本专利技术属于计算机视觉,人工智能领域,尤其涉及一种基于深度学习的视频一致性深度估计方法。

技术介绍

[0002]基于单目视频的深度估计是计算机视觉领域中的一个重要研究课题,在机器人技术、场景重建、三维目标检测,以及无人自动驾驶等各方面都有着极为广泛的应用。如今广泛使用的视频深度估计算法主要为传统估计算法和基于学习的深度估计算法,以往的深度估计工作都存在着一定程度的不足。大多数传统的深度估计方法都依赖于对场景进行空间或者时间观测的假设(如立体或多视角、运动结构),而且主要集中在多视角几何上。传统方法一般在计算复杂度等方面有着较高的要求且往往深度估计精确但不完整,而新兴的基于学习的深度估计方法能够从数据中学习场景先验,使得其在传统方法表现较弱或者不正确的场景部分给出相对可信的深度估计,但其训练往往需要大量的数据进行支持,且对时间尺度相距较远的帧深度估计不佳,空间尺度一致程度不足,极大的影响了基于深度信息的视觉应用的实际表现。

技术实现思路

[0003]本专利技术的目的是针对现有技术不足,基于深度学习提出一种提高视频一致性深度估计的方法。
[0004]本专利技术采用的技术方案具体如下:
[0005]一种基于深度学习的视频一致性深度估计方法,包括:
[0006]利用训练好的单图深度估计网络对视频帧序列的每一张视频帧估计初始深度图,获得初始深度图序列。
[0007]将初始深度图序列输入至训练好的一致性深度估计网络,估计获得具有一致性的深度图序列。
[0008]其中,所述一致性深度估计网络包括卷积长短记忆ConvLSTM层,以初始深度图序列为输入,估计的具有一致性的深度图序列为输出,利用数据集通过最小化总损失函数训练获得。所述数据集包括多个样本,每个样本包括视频帧序列{I
j
}、初始深度图序列关键帧对集合S、半稠密深度图序列j=1,2,...,T,T表示视频帧序列的帧数。每个样本通过如下方法获取:
[0009]采集视频帧序列{I
j
};
[0010]利用训练好的单图深度估计网络对视频帧序列{I
j
}的每一张视频帧估计初始深度图,获得初始深度图序列
[0011]分割去除视频帧序列{I
j
}的每一张视频帧中出现的运动对象,获得不包含运动对象的视频帧序列。
[0012]对视频帧序列{I
j
}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S。
[0013]使用COLMAP对不包含运动对象的视频帧序列中每一张视频帧估计获得相机位姿参数和半稠密深度图并基于三维空间世界坐标系与相机坐标系的几何投影关系,通过调整相机位姿参数使所述半稠密深度图与对应的初始深度图尺度匹配。
[0014]所述总损失函数L
all
为:
[0015]L
all
=λ
d
L
d

st
L
st

lt
L
lt
[0016]其中,L
st
为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中相邻帧之间的深度一致性损失。
[0017]L
lt
为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中,归属于关键帧对集合S的关键帧对之间的深度一致性损失。
[0018]L
d
为数据集的每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中,深度图O
j
与其对应的半稠密深度图之间的深度一致性损失。
[0019]λ
d
,λ
st
,λ
lt
为对应的L
d
、L
st
、L
lt
损失的权重。
[0020]进一步地,所述单图深度估计网络的训练方法如下:
[0021]利用MannequinChallenge数据集的单一图像作为输入,估计的深度图作为输出,最小化估计的深度图与真值的损失进行监督训练。所述真值通过MVS方法估计获得。
[0022]进一步地,所述一致性深度估计网络具体包括两个卷积层,残差模块,一个卷积长短记忆ConvLSTM层和两个转置卷积层。
[0023]进一步地,对视频帧序列{I
j
}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S,具体为:
[0024]对视频帧序列{I
j
}组成的帧对进行分层采样获得帧对集合,其中每层采样的帧对的帧对距离为2
L
,L表示分层采样的层数。
[0025]对帧对集合中的每个帧对,计算光流信息进行对齐后,对其中一帧做仿射变换,计算仿射变换后的图与帧对中另一帧图的像素值差距;根据每个帧对计算获得的像素值差距滤除其中内容重叠小的帧对获得对应的关键帧对集合S,其中,所述像素值差距越大,帧对内容重叠越小。
[0026]进一步地,还包括对半稠密深度图的修正步骤:
[0027]滤除半稠密深度图中的离群深度值。
[0028]和/或滤除半稠密深度图中的错误深度值。
[0029]进一步地,所述L
st
具体为:
[0030][0031]其中,N是一个视频帧的所有像素值个数,表示第j

1张一致性深度估计网络
输出的深度图仿射变换后的第i个像素的深度值,为第j张与第j

1张一致性深度估计网络输出的深度图第i个像素的深度值的仿射误差:
[0032][0033]为第j

1张视频帧仿射变换后的第i个像素,α表示经验参数,为正数,其中,与与与之间通过计算光流进行对齐。||*||1、||*||2分别表示一范数,二范数。
[0034]进一步地,所述L
lt
具体为:
[0035][0036]其中,N是一个视频帧的所有像素值个数,下标k,k

表示归属于关键帧对集合S的关键帧对索引,是归属于关键帧对集合S的关键帧对中k图对应的一致性深度估计网络输出的深度图的第i个像素的深度值,表示归属于关键帧对集合S的关键帧对中k

图对应的一致性深度估计网络输出的深度图仿射变换后的第i个像素的深度值,为关键帧对k与k

图对应的一致性深度估计网络输出的深度图的第i个像素的深度值的仿射误差:
[0037][0038]是归属于关键帧对集合S的关键帧对中k图的第i个像素,表示归属于关键帧对集合S的关键帧对中k

图仿射变换后的第i个像素的深度值,α表示经验参数,为正数,其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频一致性深度估计方法,其特征在于,包括:利用训练好的单图深度估计网络对视频帧序列的每一张视频帧估计初始深度图,获得初始深度图序列。将初始深度图序列输入至训练好的一致性深度估计网络,估计获得具有一致性的深度图序列。其中,所述一致性深度估计网络包括卷积长短记忆ConvLSTM层,以初始深度图序列为输入,估计的具有一致性的深度图序列为输出,利用数据集通过最小化总损失函数训练获得。所述数据集包括多个样本,每个样本包括视频帧序列{I
j
}、初始深度图序列关键帧对集合S、半稠密深度图序列T表示视频帧序列的帧数。每个样本通过如下方法获取:采集视频帧序列{I
j
};利用训练好的单图深度估计网络对视频帧序列{I
j
}的每一张视频帧估计初始深度图,获得初始深度图序列分割去除视频帧序列{I
j
}的每一张视频帧中出现的运动对象,获得不包含运动对象的视频帧序列。对视频帧序列{I
j
}组成的帧对进行分层采样并滤除其中内容重叠小的帧对,获得对应的关键帧对集合S。使用COLMAP对不包含运动对象的视频帧序列中每一张视频帧估计获得相机位姿参数和半稠密深度图并基于三维空间世界坐标系与相机坐标系的几何投影关系,通过调整相机位姿参数使所述半稠密深度图与对应的初始深度图尺度匹配。所述总损失函数L
all
为:L
all
=λ
d
L
d

st
L
st

lt
L
lt
其中,L
st
为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中相邻帧之间的深度一致性损失。L
lt
为数据集中每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中,归属于关键帧对集合S的关键帧对之间的深度一致性损失。L
d
为数据集的每个样本对应的一致性深度估计网络输出的深度图序列{O
j
}中,深度图O
j
与其对应的半稠密深度图之间的深度一致性损失。λ
d
,λ
st
,λ
lt
为对应的L
d
、L
st
、L
lt
损失的权重。2.根据权利要求1所述的方法,其特征在于,所述单图深度估计网络的训练方法如下:利用MannequinChallenge数据集的单一图像作为输入,估计的深度图作为输出,最小化估计的深度图与真值的损失进行监督训练。所述真值通过MVS方法估计获得。3.根据权利要求1所述的方法,其特征在于,所述一致性深度估计网络具体包括两个卷积层,残差模块,一个卷积长短记忆ConvLSTM层...

【专利技术属性】
技术研发人员:郑友怡
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1