The invention discloses a method for generating spatio-temporal consistency depth map sequence based on convolutional neural network, which can be used for 2D technology of 3D. The method includes: 1) to collect the training set: the training set of each training sample is a continuous RGB image sequence and its corresponding depth map sequence; 2) for each image sequence in the training set of spatial and temporal consistency of pixel segmentation, and construct the spatial similarity matrix and time similarity matrix; 3) construct the convolutional neural network consists of a single super pixel depth regression network and time-space consistency conditions with the airport layer 4) loss; training of a convolutional neural network; 5) RGB image sequences of unknown depth, using neural network trained by the BP recovery depth map sequence. The invention avoids the problem that the depth recovery method based on cue is too strong to the scene hypothesis, and the problem of discontinuity of the depth map generated by the depth recovery method based on the convolutional neural network.
【技术实现步骤摘要】
本专利技术涉及计算机视觉立体视频领域,具体涉及一种基于卷积神经网络的时空一致性深度图序列的生成方法。
技术介绍
立体视频的基本原理是将两幅具有水平视差的影像叠加播放,观众通过立体眼镜分别看到左右眼的画面,从而产生立体感知。立体视频能给人提供身临其境的三维立体观感,深受消费者欢迎。然而随着3D影视硬件的普及度不断上升,3D影视内容的短缺随之而来。直接由3D摄像机拍摄成本高,后期制作难度大,通常只能在大成本电影中使用。因此影视作品的2D/3D转换技术是解决片源紧缺难题的一种有效的途径,不仅能大大拓展立体影片的题材和数量,还能让一些经典的影视作品重返荧屏。由于立体视频中的左右视差直接与每个像素对应的深度相关,因此获取视频各帧对应的深度图是2D/3D转换技术的关键所在。深度图可以由人工对视频的每一帧抠图并赋予深度值产生,但是成本非常昂贵。同时,也存在一些的半自动的深度图生成方法,即先由人工绘制视频中一些关键帧的深度图,计算机通过传播算法将这些深度图扩展到其他相邻的帧。这些方法虽然能节省了一部分时间,但在大批量处理影视作品2D到3D转换时,仍然需要比较繁重的人工操作。相比而言,全自动的深度恢复方法可以最大程度的节省人工成本。一些算法可以通过运动,聚焦、遮挡或阴影等深度线索,使用特定的规则恢复出深度图,但是通常只对特定场景有效。例如,基于运动推断结构的方法可以根据相邻帧间远处物体相对位移小、近处物体相对位移大的线索恢复移动摄像机拍摄的静态场景的深度,但是该类方法在拍摄对象移动或摄像机静止的情况下无效;基于聚焦的深度恢复方法可以恢复浅景深图像的深度,但在大景深的情况下 ...
【技术保护点】
一种基于卷积神经网络的时空一致性深度图序列的生成方法,其特征在于,包括下列步骤:1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列,以及其对应的深度图序列;2)对训练集中的每一个图像序列进行时空一致性超像素分割,并且构建空间上的相似度矩阵S(s)和时间上的相似度矩阵S(t);3)构建卷积神经网络,该神经网络由包含参数W的单一超像素深度回归网络,以及包含参数α的时空一致性条件随机场损失层构成。4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进行训练,得出网络参数W和α。5)对未知深度的RGB图像序列,使用训练好的神经网络通过前向传播恢复深度图序列。
【技术特征摘要】
1.一种基于卷积神经网络的时空一致性深度图序列的生成方法,其特征在于,包括下列步骤:1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列,以及其对应的深度图序列;2)对训练集中的每一个图像序列进行时空一致性超像素分割,并且构建空间上的相似度矩阵S(s)和时间上的相似度矩阵S(t);3)构建卷积神经网络,该神经网络由包含参数W的单一超像素深度回归网络,以及包含参数α的时空一致性条件随机场损失层构成。4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进行训练,得出网络参数W和α。5)对未知深度的RGB图像序列,使用训练好的神经网络通过前向传播恢复深度图序列。2.根据权利要求1所述的时空一致性深度图序列的生成方法,其特征在于,所述的步骤2)具体为:(2.1)对训练集中的每一个连续RGB图像序列进行时空一致性超像素分割。将输入序列标注为I=[I1,…,Im],其中It是第t帧RGB图像,共有m帧。时空一致性超像素分割将m帧分别分割为n1,…,nm个超像素,而且生成后一帧中每个超像素和前一帧中对应相同物体的超像素的对应关系。整个图像序列包含个超像素。对于每一个超像素p,将其重心位置的真实深度值记为dp,并定义n个超像素的真实深度向量d=[d1;…;dn]。(2.2)建立这n个超像素的空间一致性相似度矩阵S(s),方法是:S(s)是一个n×n的矩阵,其中描述了第p个超像素和第q个超像素的帧内相似度关系:其中cp和cq分别是超像素p和q的颜色直方图特征,γ是手动设定的一个参数,可设定为所有相邻超像素对||cp-cq||2值的中位数。(2.3)建立这n个超像素的时间一致性相似度矩阵S(t),方法是:S(t)是一个n×n的矩阵,其中描述了第p个超像素和第q个超像素的帧间的相似度关系:其中,相邻帧超像素的对应关系由步骤(2.1)中的时空一致性超像素分割得出。3.根据权利要求2所述的时空一致性深度图序列的生成方法,其特征在于,所述的步骤3)中构建的卷积神经网络由两个部分构成:单一超像素深度回归网络,以及时空一致性条件随机场损失层:(3.1)单一超像素深度回归网络由VGG16网络的前31层,1个超像素池化层,和3个全连接层构成。其中,超像素池化层每个超像素空间范围内的特征进行平均池化。该网络的输入是m帧连续的RGB图像,输出是一个n维向量z=[z1,…zn],其中第p个元素zp是该连续RGB图像序列经时空一致性超像素分割后的第p个超像素在未考虑任何约束时的深度估计值。该卷积神经网络的需要学习的参数记为W。(3.2)时空一致性条件随机场损失层的输入是步骤(3.1)中单一超像素回归网络的输出z=[z1,…zn],、步骤(2.1)中定义的超像素真实深度向量d=[d1;…;dn],以及...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。