当前位置: 首页 > 专利查询>清华大学专利>正文

基于数据融合的遮挡环境高分辨率深度估计方法及装置制造方法及图纸

技术编号:39658279 阅读:19 留言:0更新日期:2023-12-09 11:27
本申请涉及一种基于数据融合的遮挡环境高分辨率深度估计方法及装置,其中,方法包括:获取有遮挡的事件流数据和有遮挡的视频数据;将事件流数据按照时间均分为多段事件流;将多段事件流输入至预先构建的脉冲神经网络;将多个事件流数据特征向量和每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播;拼接多个去遮挡成像结果,得到拼接结果,并利用预先构建的深度估计网络进行前向传播,得到最终高分辨率深度图

【技术实现步骤摘要】
基于数据融合的遮挡环境高分辨率深度估计方法及装置


[0001]本申请涉及计算机视觉及神经形态计算
,特别涉及一种基于数据融合的遮挡环境高分辨率深度估计方法及装置


技术介绍

[0002]事件相机是一种受生物启发的传感器,工作原理与传统的相机有很大的差别

与传统相机以固定帧率采集场景绝对光强不同,事件相机当且仅当场景光强变化时输出数据,输出的数据称为事件流

与传统相机相比,事件相机有着高动态范围

高时间分辨率

无动态模糊等优点

[0003]相关技术中,传统相机以固定速率
(
即帧率
)
采集场景的光强值,并以固定速率输出为图片数据

[0004]然而,相关技术中,传统相机及传统图像处理领域中适用的各种算法及方法,均无法直接使用于事件相机及事件数据

如图1所示,使用传统相机记录被遮挡的场景,很难获取有效的场景信息,且会记录下许多无效的遮挡物深度,无法对场景进行有效的精准观测和高分辨率的立体观测,无法生成高分辨的无遮挡深度图,难以实现遮挡环境下的高分辨率深度估计,亟待解决


技术实现思路

[0005]本申请提供一种基于数据融合的遮挡环境高分辨率深度估计方法及装置,以解决相关技术中,难以获取有效的场景信息,且易记录许多无效的遮挡物深度,无法对场景进行有效的精准观测和高分辨率的立体观测,难以实现遮挡环境下的高分辨率深度估计等问题

[0006]本申请第一方面实施例提供一种基于数据融合的遮挡环境高分辨率深度估计方法,包括以下步骤:获取有遮挡的事件流数据和有遮挡的视频数据;将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的深度估计网络进行前向传播,得到最终高分辨率深度图

[0007]可选地,在本申请的一个实施例中,所述多段事件流包括第一至第三事件流,计算公式为:
[0008][0009][0010][0011]其中,
(x
i
,y
i
)
为每个事件的像素点坐标,
t
i
为该事件触发的时间戳,
p
i
为该事件的极性,
T
为数据获取单元所获取的完整事件流
ε
的持续时间长度

[0012]可选地,在本申请的一个实施例中,所述多段视频包括第一至第三视频,其中,所述第一至第三视频的第一张图像分别为所述视频数据位于
0,
时刻的图像,其中,
T
为所述事件流的持续时间长度

[0013]可选地,在本申请的一个实施例中,所述脉冲神经网络包含输入卷积层

隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,所述输入卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
16
;隐藏卷积层的输入通道数为
16
,所述隐藏卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
16
;输出卷积层的输入通道数为
16
,所述输出卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
32。
[0014]可选地,在本申请的一个实施例中,所述去遮挡成像网络使用
U

Net
结构,所述去遮挡成像网络的输入层的输入通道数为
32+k
;所述去遮挡成像网络的输出层的输出通道数为所述视频数据的图像帧的通道数

[0015]可选地,在本申请的一个实施例中,所述深度估计网络包含一个上采样层和一个
U

Net
网络,所述上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,所述
U

Net
网络的输入层的输入通道数为3×
k
,所述
U

Net
网络的输出层的输出通道数为1,其中,
k
为所述视频数据的图像帧的通道数

[0016]本申请第二方面实施例提供一种基于数据融合的遮挡环境高分辨率深度估计装置,包括:第一获取模块,用于获取有遮挡的事件流数据和有遮挡的视频数据;确定模块,用于将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;输入模块,用于将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;组合模块,用于将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;第二获取模块,用于拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的深度估计网络进行前向传播,得到最终高分辨率深度图

[0017]可选地,在本申请的一个实施例中,所述多段事件流包括第一至第三事件流,计算公式为:
[0018][0019][0020][0021]其中,
(x
i
,y
i
)
为每个事件的像素点坐标,
t
i
为该事件触发的时间戳,
p
i
为该事件的极性,
T
为数据获取单元所获取的完整事件流
ε
的持续时间长度

[0022]可选地,在本申请的一个实施例中,所述多段视频包括第一至第三视频,其中,所
述第一至第三视频的第一张图像分别为所述视频数据位于
0,
时刻的图像,其中,
T
为所述事件流的持续时间长度

[0023]可选地,在本申请的一个实施例中,所述脉冲神经网络包含输入卷积层

隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,所述输入卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
16
;隐藏卷积层的输入通道数为
16
,所述隐藏卷积层的卷积核的尺寸为3×
3、
步长为
1、
...

【技术保护点】

【技术特征摘要】
1.
一种基于数据融合的遮挡环境高分辨率深度估计方法,其特征在于,包括以下步骤:获取有遮挡的事件流数据和有遮挡的视频数据;将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的深度估计网络进行前向传播,得到最终高分辨率深度图
。2.
根据权利要求1所述的方法,其特征在于,所述多段事件流包括第一至第三事件流,计算公式为:计算公式为:计算公式为:其中,
(x
i
,y
i
)
为每个事件的像素点坐标,
t
i
为该事件触发的时间戳,
p
i
为该事件的极性,
T
为数据获取单元所获取的完整事件流
ε
的持续时间长度
。3.
根据权利要求1所述的方法,其特征在于,所述多段视频包括第一至第三视频,其中,所述第一至第三视频的第一张图像分别为所述视频数据位于
0,
时刻的图像,其中,
T
为所述事件流的持续时间长度
。4.
根据权利要求1所述的方法,其特征在于,所述脉冲神经网络包含输入卷积层

隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,所述输入卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
16
;隐藏卷积层的输入通道数为
16
,所述隐藏卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
16
;输出卷积层的输入通道数为
16
,所述输出卷积层的卷积核的尺寸为3×
3、
步长为
1、
输出通道数为
32。5.
根据权利要求1所述的方法,其特征在于,所述去遮挡成像网络使用
U

Net
结构,所述去遮挡成像网络的输入层的输入通道数为<...

【专利技术属性】
技术研发人员:高跃李思奇
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1