一种基于卷积神经网络的时空一致性深度图序列的生成方法技术

技术编号:15285902 阅读:92 留言:0更新日期:2017-05-07 10:54
本发明专利技术公开了一种基于卷积神经网络的时空一致性深度图序列的生成方法,可用于影视作品2D转3D技术。该方法包括:1)收集训练集:训练集的每一个训练样本是一个连续RGB图像序列以及其对应的深度图序列;2)对训练集中的每一个图像序列进行时空一致性超像素分割,并且构建空间相似度矩阵和时间相似度矩阵;3)构建由单一超像素深度回归网络以及时空一致性条件随机场损失层构成的卷积神经网络;4)对卷积神经网络进行训练;5)对未知深度的RGB图像序列,使用训练好的神经网络通过前向传播恢复深度图序列。本发明专利技术避免了基于线索的深度恢复方法对场景假设依赖过强,以及现有基于卷积神经网络的深度恢复方法生成的深度图帧间不连续的问题。

A method for generating spatiotemporal coherence depth map sequence based on convolutional neural network

The invention discloses a method for generating spatio-temporal consistency depth map sequence based on convolutional neural network, which can be used for 2D technology of 3D. The method includes: 1) to collect the training set: the training set of each training sample is a continuous RGB image sequence and its corresponding depth map sequence; 2) for each image sequence in the training set of spatial and temporal consistency of pixel segmentation, and construct the spatial similarity matrix and time similarity matrix; 3) construct the convolutional neural network consists of a single super pixel depth regression network and time-space consistency conditions with the airport layer 4) loss; training of a convolutional neural network; 5) RGB image sequences of unknown depth, using neural network trained by the BP recovery depth map sequence. The invention avoids the problem that the depth recovery method based on cue is too strong to the scene hypothesis, and the problem of discontinuity of the depth map generated by the depth recovery method based on the convolutional neural network.

【技术实现步骤摘要】

本专利技术涉及计算机视觉立体视频领域,具体涉及一种基于卷积神经网络的时空一致性深度图序列的生成方法
技术介绍
立体视频的基本原理是将两幅具有水平视差的影像叠加播放,观众通过立体眼镜分别看到左右眼的画面,从而产生立体感知。立体视频能给人提供身临其境的三维立体观感,深受消费者欢迎。然而随着3D影视硬件的普及度不断上升,3D影视内容的短缺随之而来。直接由3D摄像机拍摄成本高,后期制作难度大,通常只能在大成本电影中使用。因此影视作品的2D/3D转换技术是解决片源紧缺难题的一种有效的途径,不仅能大大拓展立体影片的题材和数量,还能让一些经典的影视作品重返荧屏。由于立体视频中的左右视差直接与每个像素对应的深度相关,因此获取视频各帧对应的深度图是2D/3D转换技术的关键所在。深度图可以由人工对视频的每一帧抠图并赋予深度值产生,但是成本非常昂贵。同时,也存在一些的半自动的深度图生成方法,即先由人工绘制视频中一些关键帧的深度图,计算机通过传播算法将这些深度图扩展到其他相邻的帧。这些方法虽然能节省了一部分时间,但在大批量处理影视作品2D到3D转换时,仍然需要比较繁重的人工操作。相比而言,全自动的深度恢复方法可以最大程度的节省人工成本。一些算法可以通过运动,聚焦、遮挡或阴影等深度线索,使用特定的规则恢复出深度图,但是通常只对特定场景有效。例如,基于运动推断结构的方法可以根据相邻帧间远处物体相对位移小、近处物体相对位移大的线索恢复移动摄像机拍摄的静态场景的深度,但是该类方法在拍摄对象移动或摄像机静止的情况下无效;基于聚焦的深度恢复方法可以恢复浅景深图像的深度,但在大景深的情况下效果很差。影视作品中通常包含各种场景,因此基于深度线索的深度恢复方法很难普遍应用。卷积神经网络是一种特别适用于图像的深度神经网络,它由卷积层,激活层,池化层和损耗层等基本单元堆叠构成,可以模拟图像输入x到特定输出y的复杂函数,在解决图像分类,图像分割等各类机器视觉问题中占据了主导性地位。近一两年来,一些方法将卷积神经网络用于深度恢复,使用大量的数据学习得出从RGB图像输入到深度图输出的映射关系。基于卷积神经网络的深度恢复不依赖于各种假设,具有很好的普适性,而且恢复精度很高,因此在影视作品的2D-3D转换中有很大的应用潜力。然而,现存的方法在训练卷积神经网络时都是基于单幅图像优化的,而忽略了帧间的连续性关系。如果运用于恢复图像序列的深度,相邻各帧恢复出的深度图会发生明显的跳变。而相邻帧的深度图跳变会造成合成的虚拟视图的闪烁,严重影响用户观感。此外,帧间的连续性也对深度恢复提供了重要线索,而在现存的方法里,这些信息被简单的忽略掉了。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于卷积神经网络的时空一致性深度图序列的生成方法,将RGB图像和深度图在时域上的连续性引入卷积神经网络中,在训练时将多帧图像联合优化,以生成在时域上连续的深度图,并且改善深度恢复的精确度。本专利技术的目的是通过以下技术方案来实现的:一种基于卷积神经网络的时空一致性深度图序列的生成方法,包括如下步骤:1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列,以及其对应的深度图序列;2)对训练集中的每一个图像序列进行时空一致性超像素分割,并且构建空间上的相似度矩阵S(s)和时间上的相似度矩阵S(t);3)构建卷积神经网络,该神经网络由包含参数W的单一超像素深度回归网络,以及包含参数α的时空一致性条件随机场损失层构成。其中单一超像素深度回归网络的作用是在不考虑时空一致性约束的情况下对每一个超像素回归出一个深度值;时空一致性条件随机场损失层的作用是使用步骤2)中建立的时间和空间上的相似度矩阵对单一超像素回归网络的输出进行约束,最终输出时域和空域上平滑的估计深度图。4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进行训练,得出网络参数W和α。5)对未知深度的RGB图像序列,使用训练好的神经网络通过前向传播恢复深度图序列。进一步地,所述的步骤2)具体为:(2.1)对训练集中的每一个连续RGB图像序列进行时空一致性超像素分割。将输入序列标注为I=[I1,…,Im],其中It是第t帧RGB图像,共有m帧。时空一致性超像素分割将m帧分别分割为n1,…,nm个超像素,而且生成后一帧中每个超像素和前一帧中对应相同物体的超像素的对应关系。整个图像序列包含个超像素。对于每一个超像素p,将其重心位置的真实深度值记为dp,并定义n个超像素的真实深度向量d=[d1;…;dn]。(2.2)建立这n个超像素的空间一致性相似度矩阵S(s),方法是:S(s)是一个n×n的矩阵,其中描述了第p个超像素和第q个超像素的帧内相似度关系:其中cp和cq分别是超像素p和q的颜色直方图特征,γ是手动设定的一个参数,可设定为所有相邻超像素对||cp-cq||2值的中位数。(2.3)建立这n个超像素的空间一致性相似度矩阵S(t),方法是:S(t)是一个n×n的矩阵,其中描述了第p个超像素和第q个超像素的帧间的相似度关系:其中,相邻帧超像素的对应关系由步骤(2.1)中的时空一致性超像素分割得出。进一步地,所述的步骤3)中构建的卷积神经网络由两个部分构成:单一超像素深度回归网络,以及时空一致性条件随机场损失层:(3.1)单一超像素深度回归网络由VGG16网络的前31层,1个超像素池化层,和3个全连接层构成。其中,超像素池化层每个超像素空间范围内的特征进行平均池化。该网络的输入是m帧连续的RGB图像,输出是一个n维向量z=[z1,…zp],其中第p个元素zp是该连续RGB图像序列经时空一致性超像素分割后的第p个超像素在未考虑任何约束时的深度估计值。该卷积神经网络的需要学习的参数记为W。(3.2)时空一致性条件随机场损失层的输入步骤(3.1)中单一超像素回归网络的输出z=[z1,…zn]、步骤(2.1)中定义的超像素真实深度向量d=[d1;…;dn],以及步骤(2.2)和(2.3)中得出的空间一致性相似度矩阵和时间一致性相似度矩阵在这里,时空一致性条件随机场的条件概率函数为:其中能量函数E(d,I)定义为:该能量函数的第一项∑p∈N(dp-zp)2是单一超像素预测值和真实值的差距;第二项是空间一致性约束,表明如果超像素p和q在同一帧相邻,而且颜色比较相近(比较大),则深度应该相仿;第三项是时间一致性约束,表明如果超像素p和q是相邻两帧中对应同一物体的超像素其深度应该相仿。将该能量函数用矩阵形式可以写成:E(d,I)=dTLd-2zTd+zTz其中:M=α(s)S(s)+α(t)S(t)S(s)和S(t)是步骤(2.2)和步骤(2.3)中得出的空间和时间相似度矩阵,α(s)和α(t)是需要学习的两个参数,是n×n的单位矩阵,D是一个对角矩阵,Dpp=∑qMpq。而其中L-1表示L的逆矩阵,|L|表示L的行列式值。因此,可将损失函数定义为条件概率函数的负对数:进一步地,步骤4)中的卷积神经网络训练过程具体为:(4.1)使用随机梯度下降法对网络参数W,α(s)和α(t)进行优化,在每一次迭代中,参数用以下方式更新:其中lr是学习率。(4.2)步骤(4.1)中代价函数J对参数W的偏导数由下述本文档来自技高网
...
一种基于卷积神经网络的时空一致性深度图序列的生成方法

【技术保护点】
一种基于卷积神经网络的时空一致性深度图序列的生成方法,其特征在于,包括下列步骤:1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列,以及其对应的深度图序列;2)对训练集中的每一个图像序列进行时空一致性超像素分割,并且构建空间上的相似度矩阵S(s)和时间上的相似度矩阵S(t);3)构建卷积神经网络,该神经网络由包含参数W的单一超像素深度回归网络,以及包含参数α的时空一致性条件随机场损失层构成。4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进行训练,得出网络参数W和α。5)对未知深度的RGB图像序列,使用训练好的神经网络通过前向传播恢复深度图序列。

【技术特征摘要】
1.一种基于卷积神经网络的时空一致性深度图序列的生成方法,其特征在于,包括下列步骤:1)收集训练集。训练集的每一个训练样本是一个包含m帧的连续RGB图像序列,以及其对应的深度图序列;2)对训练集中的每一个图像序列进行时空一致性超像素分割,并且构建空间上的相似度矩阵S(s)和时间上的相似度矩阵S(t);3)构建卷积神经网络,该神经网络由包含参数W的单一超像素深度回归网络,以及包含参数α的时空一致性条件随机场损失层构成。4)利用训练集中的RGB图像序列和深度图序列对步骤3)中构建的卷积神经网络进行训练,得出网络参数W和α。5)对未知深度的RGB图像序列,使用训练好的神经网络通过前向传播恢复深度图序列。2.根据权利要求1所述的时空一致性深度图序列的生成方法,其特征在于,所述的步骤2)具体为:(2.1)对训练集中的每一个连续RGB图像序列进行时空一致性超像素分割。将输入序列标注为I=[I1,…,Im],其中It是第t帧RGB图像,共有m帧。时空一致性超像素分割将m帧分别分割为n1,…,nm个超像素,而且生成后一帧中每个超像素和前一帧中对应相同物体的超像素的对应关系。整个图像序列包含个超像素。对于每一个超像素p,将其重心位置的真实深度值记为dp,并定义n个超像素的真实深度向量d=[d1;…;dn]。(2.2)建立这n个超像素的空间一致性相似度矩阵S(s),方法是:S(s)是一个n×n的矩阵,其中描述了第p个超像素和第q个超像素的帧内相似度关系:其中cp和cq分别是超像素p和q的颜色直方图特征,γ是手动设定的一个参数,可设定为所有相邻超像素对||cp-cq||2值的中位数。(2.3)建立这n个超像素的时间一致性相似度矩阵S(t),方法是:S(t)是一个n×n的矩阵,其中描述了第p个超像素和第q个超像素的帧间的相似度关系:其中,相邻帧超像素的对应关系由步骤(2.1)中的时空一致性超像素分割得出。3.根据权利要求2所述的时空一致性深度图序列的生成方法,其特征在于,所述的步骤3)中构建的卷积神经网络由两个部分构成:单一超像素深度回归网络,以及时空一致性条件随机场损失层:(3.1)单一超像素深度回归网络由VGG16网络的前31层,1个超像素池化层,和3个全连接层构成。其中,超像素池化层每个超像素空间范围内的特征进行平均池化。该网络的输入是m帧连续的RGB图像,输出是一个n维向量z=[z1,…zn],其中第p个元素zp是该连续RGB图像序列经时空一致性超像素分割后的第p个超像素在未考虑任何约束时的深度估计值。该卷积神经网络的需要学习的参数记为W。(3.2)时空一致性条件随机场损失层的输入是步骤(3.1)中单一超像素回归网络的输出z=[z1,…zn],、步骤(2.1)中定义的超像素真实深度向量d=[d1;…;dn],以及...

【专利技术属性】
技术研发人员:王勋赵绪然
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1