当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度学习的多视点视频拼接方法技术

技术编号:35598695 阅读:19 留言:0更新日期:2022-11-16 15:18
本发明专利技术公开了一种基于深度学习的多视点视频拼接方法,步骤如下:首先,利用Airsim模拟器在设定的虚拟公共视点处采集图像及深度数据,生成用于视频拼接任务的数据集,对图像作柱面投影等预处理。然后,利用卷积神经网络分别设计伪影消除模块和平滑过渡模块,前者考虑重叠区域的特征相关性,通过视点回归将重叠区域进行对齐以消除融合后的伪影;后者根据图像的特征信息,将得到的重叠区域变形规则传播到非重叠区域,来指导区域间的平滑过渡以改善视觉观感。最后按照预测的位移场扭曲变换原视点图像,并进行加权线性融合得到拼接结果。该发明专利技术在去除拼接伪影的同时,可以达到实时拼接的性能,能够满足实际应用中的在线拼接需求。能够满足实际应用中的在线拼接需求。能够满足实际应用中的在线拼接需求。

【技术实现步骤摘要】
一种基于深度学习的多视点视频拼接方法


[0001]本专利技术涉及一种视频拼接技术,属于计算机视觉


技术介绍

[0002]视频拼接技术具有重要的理论研究意义,在虚拟现实、安防监控、智能驾驶、视频会议、无人机航拍等多种应用领域发挥着重要作用。视频拼接技术通常用于合成不同姿态的相机捕获的两个或多个视频。它可以降低对视频采集设备的要求,并获得更大的视野。虽然图像和视频拼接的研究历史悠久,但现有的视频拼接方法的表现并不完美。计算耗时长、宽基线大视差场景表现差、算法鲁棒性不够是目前方法的一些挑战。视频拼接中常用的是基于全局单应性对齐的算法,在相机光心基本重合或场景深度变化较小时,不会受到视差的影响,能取得较好的结果,否则会产生明显的伪影。然而在实际应用中,很难达成相机光心完全重合的条件,并且在车载环视系统等一些场景下也需要分布式的相机排列。为减少伪影,常用的有基于最佳缝合线的方法,但这种方法可能产生过渡不平滑的问题,且依赖能量函数最小化计算效率还是偏低。
[0003]深度学习技术的发展为视频图像拼接技术提供了一个全新的维度,采用合适的方式将有助于提升拼接后视频的质量。卷积神经网络(CNN)具有强大的特征提取能力,使用CNN代替原来传统的特征提取方式,在低光照、低纹理或重复纹理等场景下能有更好的鲁棒性。相应地,也有基于深度学习的单应性估计方法应用于小视差图像的拼接任务。然而,缺乏合适的数据集是深度学习方法应用于视频、图像拼接任务的一个难点,有的方法使用的是无视差的合成数据集,往往与实际应用场景不符。
专利
技术实现思路

[0004]技术问题:针对上述现有技术,本专利技术提出一种基于深度学习的多视点视频拼接方法,能够消除由视差引起的伪影问题;并能够提升在低光照、低纹理或重复纹理等具有挑战性场景下的鲁棒性;同时,能够有较高的计算效率,以满足实际应用中在线实时拼接的需求。
[0005]技术方案:为实现上述目的,本专利技术采用的技术方案为:
[0006]一种基于深度学习的多视点视频拼接方法,包括以下步骤:
[0007]步骤1:在设定的虚拟公共视点处采集图像及深度数据,生成用于视频拼接任务的数据集,并对数据集中的图像根据相机视角作柱面投影预处理。
[0008]步骤2:由深度数据得到场景的3D信息,转换得到像素级的位移场。
[0009]步骤3:利用卷积神经网络设计伪影消除模块,考虑重叠区域的特征相关性,将重叠区域进行对齐,视点回归到重合的虚拟光心下,以消除融合后产生的伪影。
[0010]步骤4:利用卷积神经网络设计平滑过渡模块,根据图像的特征信息,将得到的重叠区域变形规则传播到非重叠区域,来指导区域间的平滑过渡,减少视觉上的割裂感。
[0011]步骤5:按照位移场扭曲变换原视点图像,并进行加权线性融合,得到拼接结果。
[0012]进一步的,所述步骤1的具体方法为:
[0013]将不同视点下的视频拼接视为视点回归问题,将原视点下采集的图像映射到一个任意的公共虚拟视点下,以处理相机光心不重合导致的视差。为在虚拟视点处搭建理想的光心重合模型以及获取可靠的深度数据,利用Airsim模拟器在虚拟3D环境中搭建相机模型,生成用于训练的数据集。
[0014]进一步的,所述步骤2的具体方法为:
[0015]通过对场景中的深度信息转换得到像素位移场。在获取虚拟视点处两个相机对应的深度信息后,得到像素点的3D坐标。将虚拟视点处的图像变换到原视点,由此通过立体几何的方式计算得到视点变换过程中的位移场flow
gt

[0016]进一步的,所述步骤3的具体方法为:
[0017]在视频拼接任务中,重叠区域一般较少,为了减少尽可能过滤无效区域,同时减少计算量,根据相机的配置方式得到包含重叠区域的最大二进制掩码M
ov_max
,从输入图像中提取这部分,再输入当前模块中。
[0018]对于可能的重叠区域,设计了编码器

解码器的结构,对于编码器,将两张图片按通道维度堆叠到一起,使用一系列卷积层下采样提取特征,解码器由一系列上采样层和卷积层组成,其中使用了跳跃连接。输入编码器对应层的特征以及解码器上一层输出的位移场,逐步上采样进行优化,当得到1/4分辨率的位移场时,通过双线性插值直接将其进行上采样,得到与输入分辨率相同大小的重叠区域位移场。
[0019]为了训练伪影消除模块,定义了位移场损失、内容损失、感知层损失。
[0020]由两张图像的位移场,对原视点的二进制掩码进行变换,得到实际重叠区域的二进制掩码M
ov
,根据网络预测的像素位移场flow
O
,对重叠区域构造L1损失函数:
[0021][0022]内容损失计算虚拟视点处的图像I
gt
和网络输出的图像I
O
在重叠区域处的L1 Loss:
[0023][0024]感知层损失的目的是为了使变换后图像的特征尽可能保持一致,利用预训练的VGG

19特征提取网络中的conv5_3层提取深层次的高级语义特征,将该过程定义为F(
·
),计算该层上的MSE Loss,并用重叠区域掩码M
ov
进行提取:
[0025][0026]则该模块总的损失函数为:
[0027][0028]进一步的,所述步骤4的具体方法为:
[0029]平滑过渡模块的作用是使重叠区域和非重叠区域之间能够有较平滑的连接,使图像有较好的视觉上的观感。对于非重叠区域,设计的目的是根据原视点的图像特征为指引,由重叠区域向非重叠区域形成位移场的传播。为了能形成这种传播关系,输入原视点图像以及前一阶段预测的重叠区域位移场,原视点图像被设置为1/4分辨率以适配重叠区域位移场的大小。该子模块由一系列的卷积层和残差块构成,残差块中使用了膨胀卷积来扩大感受野,共使用了6个残差块,膨胀参数设置为[1,2,4,8,1,1],两张图像分别通过此回归结
构预测两张图全部区域的像素位移场。
[0030]为了训练此模块,定义了位移场损失、位移场一致性损失、感知层损失。
[0031]在非重叠区域中,靠近重叠区域的部分应该重点关注,远离重叠区域的部分应给予较小关注,因此不适合对于每个像素施加相同权重的损失。考虑利用高斯函数构造权重W
k
,得到位移场损失:
[0032][0033][0034]位移场一致性损失函数,用来使得第二个模块在重叠区域的输出结果与第一个模块的输出保持一致性:
[0035][0036]对于感知层损失,同样计算VGG

19网络中的conv5_3层上的MSE Loss,此时输入为变形后的图像,虚拟视点中包含原视点图像内容的二进制掩码为M:
[0037][0038]该模块总的损失函数定义为:
[0039][0040]进一步的,所述步骤5的具体方法为:
[0041本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多视点视频拼接方法,其特征在于,包括以下步骤:步骤1:在设定的虚拟公共视点处采集图像及深度数据,生成用于视频拼接任务的数据集,并对数据集中的图像根据相机视角作柱面投影预处理;步骤2:由深度数据得到场景的3D信息,转换得到像素级的位移场;步骤3:利用卷积神经网络设计伪影消除模块,考虑重叠区域的特征相关性,将重叠区域进行对齐,视点回归到重合的虚拟光心下,以消除融合后产生的伪影;步骤4:利用卷积神经网络设计平滑过渡模块,根据图像的特征信息,将得到的重叠区域变形规则传播到非重叠区域,来指导区域间的平滑过渡,减少视觉上的割裂感;步骤5:按照位移场扭曲变换原视点图像,并进行加权线性融合,得到拼接结果。2.根据权利要求1所述的基于深度学习的多视点视频拼接方法,其特征在于,所述步骤1的具体方法为:将不同视点下的视频拼接视为视点回归问题,将原视点下采集的图像映射到一个任意的公共虚拟视点下,以处理相机光心不重合导致的视差;为在虚拟视点处搭建理想的光心重合模型以及获取可靠的深度数据,利用Airsim模拟器在虚拟3D环境中搭建相机模型,生成用于训练的数据集。3.根据权利要求1所述的基于深度学习的多视点视频拼接方法,其特征在于,所述步骤2的具体方法为:通过对场景中的深度信息转换得到像素位移场;在获取虚拟视点处两个相机对应的深度信息后,得到像素点的3D坐标;将虚拟视点处的图像变换到原视点,由此通过立体几何的方式计算得到视点变换过程中的位移场flow
gt
。4.根据权利要求1所述的基于深度学习的多视点视频拼接方法,其特征在于,所述步骤3的具体方法为:在视频拼接任务中,重叠区域一般较少,为了减少尽可能过滤无效区域,同时减少计算量,根据相机的配置方式得到包含重叠区域的最大二进制掩码M
ov_max
,从输入图像中提取这部分,再输入当前模块中;对于可能的重叠区域,设计了编码器

解码器的结构,对于编码器,将两张图片按通道维度堆叠到一起,使用一系列卷积层下采样提取特征,解码器由一系列上采样层和卷积层组成,其中使用了跳跃连接;输入编码器对应层的特征以及解码器上一层输出的位移场,逐步上采样进行优化,当得到1/4分辨率的位移场时,通过双线性插值直接将其进行上采样,得到与输入分辨率相同大小的重叠区域位移场;为了训练伪影消除模块,定义了位移场损失、内容损失、感知层损失;由两张图像的位移场,对原视点的二进制掩码进行变换,得到实际重叠区域的二进制掩码M
ov
,根据网络预测的像素位移场flow
O
,对重叠区域构造L1损失函数:内容损失计算虚拟视点处的图像I
...

【专利技术属性】
技术研发人员:达飞鹏衡玮
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1