一种基于时序多深度平面场的平面视频光场化方法及系统技术方案

技术编号:38879800 阅读:12 留言:0更新日期:2023-09-22 14:11
本发明专利技术公开了一种基于时序多深度平面场的平面视频光场化方法及系统,属于计算机视觉技术领域。包括以下步骤:平面场分配,将输入图像上的每一个像素分配到合适深度的平面上;遮挡修复,将图像中被遮挡部分在多深度平面场中修复还原出来;平面场融合,通过光流辅助融合相邻帧的多深度平面场;平面场渲染,将融合后的多深度平面场渲染出多个视角的视图,实现光场化。本发明专利技术相较于现有技术,其优点在于:本发明专利技术提出的光场化方法,通过将场景分成多个深度的平面来表示,可以更好地捕捉场景中的深度信息及表示场景中的细节和结构,且可以将平面视频转化为时序多深度平面场,更有效解决光场化后的视频失真或模糊的问题,更准确恢复一些细节和纹理。节和纹理。节和纹理。

【技术实现步骤摘要】
一种基于时序多深度平面场的平面视频光场化方法及系统


[0001]本专利技术涉及计算机视觉
,更具体地说,涉及一种基于时序多深度平面场的平面视频光场化方法及系统。

技术介绍

[0002]光场化技术是一种利用光场信息来重建三维场景的技术。传统的光场视频常通过相机阵列采集,需要多个相机同时拍摄同一场景,以获得光场的多视角数据。目前的相机阵列采集面临成本高、光场视频片源较少的问题,且当前海量的视频资源都是平面视频,无法很好的在光场显示屏上进行观看。
[0003]相关技术中,一些用于平面视频立体化的方法通过分析平面图像中的景深信息,实现新视点合成,但这些方法都难以处理遮挡和不可见区域的问题,如果平面图像中有前景物体遮挡了背景而在新的视图中该背景暴露出来时,就会因为背景信息的丢失而造成不真实的感觉。因此,需要新的方法对平面图像中被遮挡的部分进行修复。
[0004]如中国专利文献CN107977938A提供了一种基于光场的Kinect深度图像修复方法,通过采集场景的光场信息,重建场景或物体的一部分深度信息,利用此信息来修复Kinect深度摄像机采集到的深度图像中的空洞部分。此方案结合了光场与Kinect的优势来填补双方的不足,光场的关注点是图像中的色差,色彩丰富的场景利于提取较多的深度数据,而Kinect对于颜色不敏感,但Kinect很难分辨物体的边缘等深度差较大的部分,同时边缘部分的色差比较大,有利于使用光场来提取深度数据。但此方案没有解决因遮挡造成光场化后的视频失真或者模糊的问题。
[0005]由上可知,相关技术并未对解决因遮挡造成光场化后的视频失真或者模糊的问题给出任何技术启示。

技术实现思路

[0006]1.要解决的技术问题
[0007]针对相关技术中存在的因遮挡造成光场化后的视频失真或者模糊的问题,本专利技术提供了一种基于时序多深度平面场的平面视频光场化方法及系统,可以实现通过将平面图像转化为多深度平面场,再将相邻帧之间的多深度平面场互相补充修复,恢复一些细节和纹理。
[0008]2.技术方案
[0009]本专利技术的目的通过以下技术方案实现。
[0010]一种基于时序多深度平面场的平面视频光场化方法,包括如下步骤,
[0011]平面场分配:将输入图像上的每一个像素分配到深度平面上;
[0012]遮挡修复:将图像中被遮挡部分在多深度平面场中修复还原出来;
[0013]平面场融合:通过光流辅助融合图像中相邻帧的多深度平面场;
[0014]平面场渲染:将融合后的多深度平面场渲染出多个视角的视图,实现光场化。
[0015]更进一步的,平面场分配步骤具体为,对输入的平面视频序列{I
t
|t=1

T}计算深度图,用单目深度估计网络为每一帧的图像计算深度,得到深度图序列{d
t
|t=1

T};
[0016]I
t
为平面视频帧,D
t
为深度图,T为平面视频序列的总帧数且T为大于1的自然数,t为视频序列中的单个帧。
[0017]更进一步的,对视频序列中的相邻帧t和t+1,预测光流f
t

t+1

[0018]f
t

t+1
=lowFormer(I
t
,t+1),
[0019]对输入的平面视频帧I
t
和深度图D
t
,平面场分配掩膜将I
t
上的每一个像素分配到合适深度的平面上,通过平面场分配模块F
assign
获取平面场分配掩膜
[0020][0021]为平面场中的第i个平面所对应的深度,N为平面场的平面数。
[0022]更进一步的,平面场分配模块F
assign
的网络结构包括:
[0023]3个降采样模块,由卷积核的大小为3
×
3且步长为2的卷积层、实例标准化层和ReLU激活函数层构成;
[0024]6个基础块,由卷积核的大小为3
×
3且步长为1的卷积层、实例标准化层和ReLU激活函数层构成;
[0025]3个放大倍数为2的上采样块;
[0026]1个softmax层;
[0027]输出最终的分配掩膜,通过这些分配掩膜将I
t
上的每一个像素分配到合适深度的平面上,
[0028]更进一步的,遮挡修复的步骤具体为,通过编码器ε和解码器D,对每一层平面中被遮挡的区域进行修复,其中第t帧的多深度平面场P
t
的第i个的平面的修复过程如下:
[0029][0030]j取值范围是i到N,代表从第i层平面到最后一个平面,代表修复i层平面时将i层到最后一层的掩膜进行求和,求和结果就是用来修复第i层平面的区域。
[0031]更进一步的,编码器ε分为四个阶段对输入图像I
t
和深度图D
t
进行多尺度编码,获得三种不同尺度的特征;
[0032]编码器第一阶段具体包含:2个由卷积核的大小为3
×
3步长为2的卷积层、批量标准化层和GELU激活函数层构成的卷积模块;
[0033]编码器第二、三、四阶段都包含:2个由卷积核的大小为3
×
3步长为2的卷积层、批量标准化层和GELU激活函数层构成的卷积模块;
[0034]m个由卷积核的大小为3
×
3步长为2的卷积层、批量标准化层和GELU激活函数层构成的连续扩张卷积模块;
[0035]1个在特征通道维度计算注意力的多头注意力模块;
[0036]二、三和四阶段的m分别为3、3和9。
[0037]更进一步的,解码器分别对不同尺度的特征信息进行汇聚并解码,包含3个上采样层,每个上采样层包含一个双线性上采样层和一个卷积核的大小为3
×
3步长为2的卷积层、
批量标准化层和GELU激活函数层构成的卷积模块。
[0038]更进一步的,平面场融合的步骤具体为,用光流f
t

t+1
辅助第t帧的多深度平面场P
t
与第t+1帧的多深度平面场P
t+1
进行融合,获得融合后的第t帧多深度平面场为每一帧的图像计算好多深度平面场,形成的最终时序多深度平面场如下:
[0039][0040]W是光流映射操作,fusion操作是2个由卷积核的大小为3
×
3步长为2的卷积层、批量标准化层和GELU激活函数层构成的卷积模块。
[0041]更进一步的,平面场渲染的步骤具体为,给出目标视角的视角参数,渲染过程如下:
[0042][0043]U,V和分别为原视角图像像素点和目标视角图像像素点,R和T分别为视角之间的旋转矩阵和平移向量,k和为相机内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序多深度平面场的平面视频光场化方法,包括如下步骤,平面场分配:将输入图像上的每一个像素分配到深度平面上;遮挡修复:将图像中被遮挡部分在多深度平面场中修复还原出来;平面场融合:通过光流辅助融合图像中相邻帧的多深度平面场;平面场渲染:将融合后的多深度平面场渲染出多个视角的视图,实现光场化。2.根据权利要求1所述的基于时序多深度平面场的平面视频光场化方法,其特征在于,平面场分配步骤具体为,对输入的平面视频序列{I
t
|t=1...T}计算深度图,用单目深度估计网络为每一帧的图像计算深度,得到深度图序列{D
t
|t=1

T};I
t
为平面视频帧,D
t
为深度图,T为平面视频序列的总帧数且T为大于1的自然数,t为视频序列中的单个帧。3.根据权利要求2所述的基于时序多深度平面场的平面视频光场化方法,其特征在于,对视频序列中的相邻帧t和t+1,预测光流f
t

t+1
:f
t

t+1
=FlowFormer(I
t
,I
t+1
),对输入的平面视频帧I
t
和深度图D
t
,平面场分配掩膜将I
t
上的每一个像素分配到合适深度的平面上,通过平面场分配模块F
assign
获取平面场分配掩膜获取平面场分配掩膜获取平面场分配掩膜为平面场中的第i个平面所对应的深度,N为平面场的平面数。4.根据权利要求3所述的基于时序多深度平面场的平面视频光场化方法,其特征在于,平面场分配模块F
assign
的网络结构包括:3个降采样模块,由卷积核的大小为3
×
3且步长为2的卷积层、实例标准化层和ReLU激活函数层构成;6个基础块,由卷积核的大小为3
×
3且步长为1的卷积层、实例标准化层和ReLU激活函数层构成;3个放大倍数为2的上采样块;1个softmax层;输出最终的分配掩膜,通过这些分配掩膜将I
t
上的每一个像素分配到合适深度的平面上,5.根据权利要求2或3所述的基于时序多深度平面场的平面视频光场化方法,其特征在于,遮挡修复的步骤具体为,通过编码器ε和解码器对每一层平面中被遮挡的区域进行修复,其中第t帧的多深度平面场P
t
的第i个的平面的修复过程如下:j取值范围是i到N,代表从第i层平面到最后一个平面,代表修复i层平面时将...

【专利技术属性】
技术研发人员:赵洋刁山鼎崔浩淼黄德安邦范翔宇唐骏高正阳
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1