一种基于深度学习的多视点视频拼接方法技术

技术编号：35598695 阅读：19 留言：0更新日期：2022-11-16 15:18

本发明专利技术公开了一种基于深度学习的多视点视频拼接方法，步骤如下：首先，利用Airsim模拟器在设定的虚拟公共视点处采集图像及深度数据，生成用于视频拼接任务的数据集，对图像作柱面投影等预处理。然后，利用卷积神经网络分别设计伪影消除模块和平滑过渡模块，前者考虑重叠区域的特征相关性，通过视点回归将重叠区域进行对齐以消除融合后的伪影；后者根据图像的特征信息，将得到的重叠区域变形规则传播到非重叠区域，来指导区域间的平滑过渡以改善视觉观感。最后按照预测的位移场扭曲变换原视点图像，并进行加权线性融合得到拼接结果。该发明专利技术在去除拼接伪影的同时，可以达到实时拼接的性能，能够满足实际应用中的在线拼接需求。能够满足实际应用中的在线拼接需求。能够满足实际应用中的在线拼接需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的多视点视频拼接方法

[0001]本专利技术涉及一种视频拼接技术，属于计算机视觉

技术介绍

[0002]视频拼接技术具有重要的理论研究意义，在虚拟现实、安防监控、智能驾驶、视频会议、无人机航拍等多种应用领域发挥着重要作用。视频拼接技术通常用于合成不同姿态的相机捕获的两个或多个视频。它可以降低对视频采集设备的要求，并获得更大的视野。虽然图像和视频拼接的研究历史悠久，但现有的视频拼接方法的表现并不完美。计算耗时长、宽基线大视差场景表现差、算法鲁棒性不够是目前方法的一些挑战。视频拼接中常用的是基于全局单应性对齐的算法，在相机光心基本重合或场景深度变化较小时，不会受到视差的影响，能取得较好的结果，否则会产生明显的伪影。然而在实际应用中，很难达成相机光心完全重合的条件，并且在车载环视系统等一些场景下也需要分布式的相机排列。为减少伪影，常用的有基于最佳缝合线的方法，但这种方法可能产生过渡不平滑的问题，且依赖能量函数最小化计算效率还是偏低。
[0003]深度学习技术的发展为视频图像拼接技术提供了一个全新的维度，采用合适的方式将有助于提升拼接后视频的质量。卷积神经网络(CNN)具有强大的特征提取能力，使用CNN代替原来传统的特征提取方式，在低光照、低纹理或重复纹理等场景下能有更好的鲁棒性。相应地，也有基于深度学习的单应性估计方法应用于小视差图像的拼接任务。然而，缺乏合适的数据集是深度学习方法应用于视频、图像拼接任务的一个难点，有的方法使用的是无视差的合成数据集，往往与实际应用场景不符。
专利...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多视点视频拼接方法，其特征在于，包括以下步骤：步骤1：在设定的虚拟公共视点处采集图像及深度数据，生成用于视频拼接任务的数据集，并对数据集中的图像根据相机视角作柱面投影预处理；步骤2：由深度数据得到场景的3D信息，转换得到像素级的位移场；步骤3：利用卷积神经网络设计伪影消除模块，考虑重叠区域的特征相关性，将重叠区域进行对齐，视点回归到重合的虚拟光心下，以消除融合后产生的伪影；步骤4：利用卷积神经网络设计平滑过渡模块，根据图像的特征信息，将得到的重叠区域变形规则传播到非重叠区域，来指导区域间的平滑过渡，减少视觉上的割裂感；步骤5：按照位移场扭曲变换原视点图像，并进行加权线性融合，得到拼接结果。2.根据权利要求1所述的基于深度学习的多视点视频拼接方法，其特征在于，所述步骤1的具体方法为：将不同视点下的视频拼接视为视点回归问题，将原视点下采集的图像映射到一个任意的公共虚拟视点下，以处理相机光心不重合导致的视差；为在虚拟视点处搭建理想的光心重合模型以及获取可靠的深度数据，利用Airsim模拟器在虚拟3D环境中搭建相机模型，生成用于训练的数据集。3.根据权利要求1所述的基于深度学习的多视点视频拼接方法，其特征在于，所述步骤2的具体方法为：通过对场景中的深度信息转换得到像素位移场；在获取虚拟视点处两个相机对应的深度信息后，得到像素点的3D坐标；将虚拟视点处的图像变换到原视点，由此通过立体几何的方式计算得到视点变换过程中的位移场flow
gt
。4.根据权利要求1所述的基于深度学习的多视点视频拼接方法，其特征在于，所述步骤3的具体方法为：在视频拼接任务中，重叠区域一般较少，为了减少尽可能过滤无效区域，同时减少计算量，根据相机的配置方式得到包含重叠区域的最大二进制掩码M
ov_max
，从输入图像中提取这部分，再输入当前模块中；对于可能的重叠区域，设计了编码器
‑
解码器的结构，对于编码器，将两张图片按通道维度堆叠到一起，使用一系列卷积层下采样提取特征，解码器由一系列上采样层和卷积层组成，其中使用了跳跃连接；输入编码器对应层的特征以及解码器上一层输出的位移场，逐步上采样进行优化，当得到1/4分辨率的位移场时，通过双线性插值直接将其进行上采样，得到与输入分辨率相同大小的重叠区域位移场；为了训练伪影消除模块，定义了位移场损失、内容损失、感知层损失；由两张图像的位移场，对原视点的二进制掩码进行变换，得到实际重叠区域的二进制掩码M
ov
，根据网络预测的像素位移场flow
O
，对重叠区域构造L1损失函数：内容损失计算虚拟视点处的图像I
...

【专利技术属性】
技术研发人员：达飞鹏，衡玮，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人