当前位置: 首页 > 专利查询>清华大学专利>正文

基于数据融合的深度图像视频生成方法及装置制造方法及图纸

技术编号:38325514 阅读:15 留言:0更新日期:2023-07-29 09:08
本申请涉及一种基于数据融合的深度图像视频生成方法及装置,其中,方法包括:从事件相机获取预设帧率的视频和事件流数据;将视频中相邻帧进行组合,并对相应时间间隔内的事件流数据进行划分,得到事件数据包;构建卷积神经网络;将相同序列号的数据拼接输入至卷积神经网络的模型编码器部分进行前向传播;拼接特征向量,生成深度图;计算每一个视频帧序列号对应的深度图的图像帧,构成深度图序列,以生成深度图像视频。由此,解决了相关技术中,难以从视频数据和事件流数据中准确获得与视频帧同步的深度图,难以实现深度图视频生成的效果,在问题求解上高度依赖超参数和优化求解工具,稳定性较差,难以更好地起到事件流数据去噪的效果等问题。效果等问题。效果等问题。

【技术实现步骤摘要】
基于数据融合的深度图像视频生成方法及装置


[0001]本申请涉及计算机视觉及神经形态计算
,特别涉及一种基于数据融合的深度图像视频生成方法及装置。

技术介绍

[0002]事件相机是一种受生物启发的传感器,工作原理与传统的相机有很大的差别,与传统相机以固定帧率采集场景绝对光强不同,事件相机当且仅当场景光强变化时输出数据,对应输出的数据称为事件流。与传统相机相比,事件相机有着高动态范围、高时间分辨率、无动态模糊等优点。
[0003]相关技术中,在基于事件相机的深度估计领域,现有的基于手工模型的方法通过建立位姿信号和像素点深度的匹配关系,并利用超参数和优化求解工具求解问题。
[0004]然而,相关技术中,无法从视频数据和事件流数据获得与视频帧同步的深度图,难以实现深度图视频生成的效果,在问题求解上高度依赖超参数和优化求解工具,稳定性较差,难以更好地起到事件流数据去噪的效果,有待改进。

技术实现思路

[0005]本申请提供一种基于数据融合的深度图像视频生成方法及装置,以解决相关技术中,无法从视频数据和事件流数据获得与视频帧同步的深度图,难以实现深度图视频生成的效果,在问题求解上高度依赖超参数和优化求解工具,稳定性较差,难以更好地起到事件流数据去噪的效果等问题。
[0006]本申请第一方面实施例提供一种基于数据融合的深度图像视频生成方法,包括以下步骤:从事件相机获取预设帧率的视频和事件流数据;将所述视频中相邻帧进行组合,得到图像帧组,其中,所述图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的一帧,对于所述每一组视频帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包;构建卷积神经网络;基于所述图像帧组和所述数据包,将相同序列号的数据拼接输入至所述卷积神经网络的模型编码器部分进行前向传播,得到预处理帧和事件流数据以得到特征向量,以完成融合数据的编码计算;拼接所述特征向量,并利用多模态融合网络解码器进行前向传播解码计算,生成深度图;以及计算每一个视频帧序列号对应的深度图的图像帧,并组合所有深度图,构成深度图序列,以生成深度图像视频。
[0007]可选地,在本申请的一个实施例中,所述将所述视频中相邻帧进行组合,得到图像帧组,其中,所述图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的一帧,对于所述每一组视频帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包,包括:将所述视频中相邻帧进行组合,所述每一组帧包含深度估计的目标帧与前后相邻的一帧,用Rk表示序列号为k的原始视频帧,I
k
表示视频帧预处理后的结果,I
k
表示序列号为所述k的原始视频帧对应的一组视频帧,其中prep()指代预处理过
程:
[0008]I
k
=prep(R
k
),
[0009]I
k
={I
k
‑1,I
k
,I
k+1
},
[0010]对于每一组图像帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的所述数据包,其中,所述事件流数据的事件流中的每个事件e均具有对应的x,y,p,t属性,其中,记视频帧I
k
的时间戳为t
k
,用e
i
表示事件流中序列号为i,时间戳为t
i
的单个事件,E
k
表示视频帧组I
k
所对应的事件包,记
[0011]E
k
={e
i
|wheret
k
≤t
i
≤t
k+1
},
[0012]以进行事件流张量化计算及预处理,对每个事件包E
k
将其在空间域上累积,生成对应的事件张量T
k
,使其适配神经网络输入。
[0013]可选地,在本申请的一个实施例中,事件流张量的获取公式为:
[0014][0015]k
b
(a)=max(0,1

|a|),
[0016][0017]其中,N为输入视频的总帧数,x
i
、y
i
、t
i
、p
i
分别为所述事件包E
k
中事件e
i
帧的二维空间坐标,时间戳以及极性,B为离散化超参数,k
b
(a)用于对时空邻域进行双线性采样,
[0018]并且,所述视频帧预处理后的结果的获取公式为:
[0019]I
k
=sobel(R
k
),
[0020]其中,R
k
为输入的原始视频帧,sobel()即sobel算子。
[0021]可选地,在本申请的一个实施例中,所述卷积神经网络的编码器部分包含输入卷积层、隐藏卷积层和输出卷积层,其中,所述输入卷积层的输入通道数为2*B+3*k,对应预处理的事件张量和视频帧组合,其中,k为输入的视频的图像帧的通道数,所述输入卷积层的卷积核的尺寸为3*3、步长为1、输出通道数为16,且所述隐藏卷积层的输入通道数为16、卷积核的尺寸为3*3、步长为1、输出通道数为16,以及所述输出卷积层的输入通道数为16、卷积核的尺寸为3*3、步长为1、输出通道数为64。
[0022]可选地,在本申请的一个实施例中,所述拼接所述特征向量,并利用多模态融合网络解码器进行前向传播解码计算,生成深度图,包括:将拼接后的特征向量输入到粗合成子网络中得到粗输出结果,其中,所述粗输出结果与输入预处理帧组合拼接,输入到微调子网络中以得到深度预测结果。
[0023]本申请第二方面实施例提供一种基于数据融合的深度图像视频生成装置,包括:获取模块,用于从事件相机获取预设帧率的视频和事件流数据;组合模块,用于将所述视频中相邻帧进行组合,得到图像帧组,其中,所述图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的一帧,对于所述每一组视频帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包;构建模块,用于构建卷积神经网络;输入模块,用于基于所述图像帧组和所述数据包,将相同序列号的数据拼接输入至所述卷积神经网络的模型编码器部分进行前向传播,得到预处理帧和事件流数据以得到特征向量,以完成融合数据的编码计算;第一生成模块,用于拼接所述特征向量,并利用多模态融合网络解码器进行前向传播解码计算,生成深度图;以及第二生成模块,用于计算每一个视频帧序列号对应的深度图的图像帧,并组合所有深度图,构成深度图序列,以生成深度图像
视频。
[0024]可选地,在本申请的一个实施例中,所述组合模块包括:组合单元,用于将所述视频中相邻帧进行组合,所述每一组帧包含深度估计的目标帧与前后相邻的一帧,用Rk表示序列号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据融合的深度图像视频生成方法,其特征在于,包括以下步骤:从事件相机获取预设帧率的视频和事件流数据;将所述视频中相邻帧进行组合,得到图像帧组,其中,所述图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的一帧,对于所述每一组视频帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包;构建卷积神经网络;基于所述图像帧组和所述数据包,将相同序列号的数据拼接输入至所述卷积神经网络的模型编码器部分进行前向传播,得到预处理帧和事件流数据以得到特征向量,以完成融合数据的编码计算;拼接所述特征向量,并利用多模态融合网络解码器进行前向传播解码计算,生成深度图;以及计算每一个视频帧序列号对应的深度图的图像帧,并组合所有深度图,构成深度图序列,以生成深度图像视频。2.根据权利要求1所述的方法,其特征在于,所述将所述视频中相邻帧进行组合,得到图像帧组,其中,所述图像帧组的每一组视频帧包含深度估计的目标帧与前后相邻的一帧,对于所述每一组视频帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的数据包,包括:将所述视频中相邻帧进行组合,所述每一组帧包含深度估计的目标帧与前后相邻的一帧,用R
k
表示序列号为k的原始视频帧,I
k
表示视频帧预处理后的结果,I
k
表示序列号为所述k的原始视频帧对应的一组视频帧,其中prep()指代预处理过程:I
k
=prep(R
k
),I
k
={I
k
‑1,I
k
,I
k+1
},对于每一组图像帧的中间帧对应的时间戳,将所述事件流数据根据所述时间戳划分为具有相同时间间隔的所述数据包,其中,所述事件流数据的事件流中的每个事件e均具有对应的x,y,p,t属性,其中,记视频帧I
k
的时间戳为t
k
,用e
i
表示事件流中序列号为i,时间戳为t
i
的单个事件,E
k
表示视频帧组I
k
所对应的事件包,记:E
k
={e
i
|where t
k
≤t
i
≤t
k+1
},以进行事件流张量化计算及预处理,对每个事件包E
k
将其在空间域上累积,生成对应的事件张量T
k
,使其适配神经网络输入。3.根据权利要求2所述的方法,其特征在于,事件流张量的获取公式为:k
b
()=max(0,1

||),其中,N为输入视频的总帧数,x
i
、y
i
、t
i
、p
i
分别为所述事件包E
k
中事件e
i
帧的二维空间坐标,时间戳以及极性,B为离散化超参数,k
b
()用于对时空邻域进行双线性采样,并且,所述视频帧预处理后的结果的获取公式为:I
k
=obel(R
k
),其中,R
k
为输入的原始视频帧,sobel()即sobel算子。
4.根据权利要求1所述的方法,其特征在于,所述卷积神经网络的编码器部分包含输入卷积层、隐藏卷积层和输出卷积层,其中,所述输入卷积层的输入通道数为2*B+3*k,对应预处理的事件张量和视频帧组合,其中,k为输入的视频的图像帧的通道数,所述输入卷积层的卷积核的尺寸为3*3、步长为1、输出通道数为16,且所述隐藏卷积层的输入通道数为16、卷积核的尺寸为3*3、步长为1、输出通道数为16,以及所述输出卷积层的输入通道数为16、卷积核的尺寸为3*3、步长为1、输出通道数为64。5.根据权利要求1所述的方法,其特征在于,所述拼接所述特征向...

【专利技术属性】
技术研发人员:高跃周致宽李思奇刘玉身
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1