基于视差预测的光场图像编码方法技术

技术编号:15867716 阅读:122 留言:0更新日期:2017-07-23 17:10
本发明专利技术公开了一种基于视差预测的光场图像编码方法,包括:将光场图像转换为伪视频序列;在编码端,利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息,并将其转换为视差信息,然后进行运动补偿,并计算残差;最后,将残差量化编码写入码流;在解码端,采用与编码端一致的方法,利用深度神经网络预测已解码帧和当前帧之间的光流信息,并将其转换为对应解码块的运动矢量,通过运动补偿得到当前解码块的预测块,最后利用码流中的残差信息构建重建块。该方法可以节省运动估计的时间,降低编码运动矢量的比特数,提高光场图像的压缩性能,且不需要再将运动信息写入码流,能够极大地降低传输码流信息所需要的带宽。

Optical field image coding method based on disparity prediction

The invention discloses an image encoding method, disparity estimation based on light field including: light field image is converted to pseudo video sequence; in encoding, prediction between pseudo video sequence encoding frame and the current frame optical flow information using the depth of the neural network, and convert it to a poor visual information, and then the movement the compensation, and calculate the residuals; finally, the residual quantization encoding write stream; in decoding, and encoding method using same, the depth of the neural network prediction between the decoded frame and the current frame optical flow information, and converts it to a corresponding motion vector decoding block, the motion compensation to get the current decoding block prediction the stream of blocks, the residual information building block reconstruction. This method can save the time of motion estimation and reduce the number of bits for encoding motion vector, improve light field image compression performance, and we do not need to write the motion information stream, can greatly reduce the bandwidth required to transmit video information.

【技术实现步骤摘要】
基于视差预测的光场图像编码方法
本专利技术涉及视频编码
,尤其涉及一种基于视差预测的光场图像编码方法。
技术介绍
光场相机不但可以记录空间场景中的光线强度,而且还能记录其方向信息,随着Lytro光场相机的推出,光场图像在立体显示、虚拟现实、深度计算等领域有着巨大的应用前景。对于光场图像,我们可以将其转换为一组子孔径图像(subapertureimage),各个子孔径图像存在微小的视差,因此它们的信息冗余度非常大。如何利用子孔径图像间的视差对其进行高效地压缩,是光场技术应用过程中亟待解决的问题。目前,如下两种方案:1)将视差补偿结合到小波变换中,但是该方法不能和现有的基于块结构的混合编码框架进行有效结合,并且该方法无法支持实时操作;2)则利用投影映射对子孔径图像间的视角变换进行建模,但是由于特征点检测精度的问题,导致其压缩性能不高。另一方面,虽然光场中的视差信息可以通过计算运动矢量的方法得到,但是目前的计算过程涉及到运动估计,其时间复杂度较高,而且编码这些运动矢量要花费大量的比特。
技术实现思路
本专利技术的目的是提供一种基于视差预测的光场图像编码方法,可以节省运动估计的时间,降低编码运动矢量的比特数,提高光场图像的压缩性能。本专利技术的目的是通过以下技术方案实现的:一种基于视差预测的光场图像编码方法,包括:将光场图像转换为伪视频序列;在编码端,利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息,并将其转换为视差信息,即对应编码块的运动矢量,然后进行运动补偿,并计算残差;最后,将残差量化编码写入码流;在解码端,采用与编码端一致的方法,利用深度神经网络预测已解码帧和当前帧之间的光流信息,并将其转换为对应解码块的运动矢量,通过运动补偿得到当前解码块的预测块,最后利用码流中的残差信息构建重建块。所述将光场图像转换为伪视频序列包括:将光场图像转换为子孔径图像阵列,每幅子孔径图像反映了不同视角的场景信息;将子孔径图像阵列按照一定的顺序将其转换为伪视频序列。构建所述深度神经网络的过程如下:计算伪视频序列相邻帧之间的光流信息,作为训练样本标签;构建神经网络结构,以视频帧作为网络输入进行前向传播预测光流,并根据训练样本标签计算损失值,再根据损失值反向传播更新参数,如此反复迭代多次作为网络训练过程,训练完成的网络作为深度神经网络。所构建的神经网络结构为:依次设置的卷积层、局部响应正则化层、池化层、卷积层、局部响应正则化层、池化层、三个卷积层、池化层、两个全连接层以及空间多元逻辑斯蒂克回归层;或者,依次设置的五个交替设置的卷积层与池化层、三个卷积层、逆卷积层、剪裁层以及多元逻辑斯蒂克回归层。由上述本专利技术提供的技术方案可以看出,通过深度学习预测光场子孔径图像间的光流信息,并将其转换为其视差,从而节省运动估计的时间,降低编码运动矢量的比特数,提高光场图像的压缩性能,此外,不需要再将运动信息写入码流,能够极大地降低传输码流信息所需要的带宽。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的光场图像转换为伪视频序列的示意图;图2为本专利技术实施例提供的传统混合编码框架;图3为本专利技术实施例提供的传统混合解码框架;图4为本专利技术实施例提供的光场伪视频序列编码框架;图5为本专利技术实施例提供的解码框架;图6为本专利技术实施例提供的一种神经网络结构示意图;图7为本专利技术实施例提供的另一种神经网络结构示意图;图8为本专利技术实施例提供的编码块运动矢量生成过程示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于视差预测的光场图像编码方法,包括:将光场图像转换为伪视频序列;在编码端,利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息,并将其转换为视差信息,即对应编码块的运动矢量,然后进行运动补偿,并计算残差;最后,将残差量化编码写入码流;在解码端,采用与编码端一致的方法,利用深度神经网络预测已解码帧和当前帧之间的光流信息,并将其转换为对应解码块的运动矢量,通过运动补偿得到当前解码块的预测块,最后利用码流中的残差信息构建重建块。如图1所示,所述将光场图像转换为伪视频序列包括:将光场图像转换为子孔径图像阵列,每幅子孔径图像反映了不同视角的场景信息;将子孔径图像阵列按照一定的顺序将其转换为伪视频序列。图2-图3,分别为传统混合编码框架与传统混合解码框架;相对应的,图4-图5,分别为本专利技术实施例提供的光场伪视频序列编码框架与解码框架。从图2和图4中可以看出:本专利技术实施例中可以通过运动矢量生成模块(BlockMVGeneration)生成每个编码块的帧间运动矢量(BlockMV),并且不需要将其写入码流传输到解码端,因此能够大幅度减少需要传输的比特。从图3和图5中可以看出:本专利技术实施例中的解码器不再需要码流中的运动矢量,而是在解码端直接通过BlockMVGeneration模块中的深度神经网络预测并转换得到。本专利技术实施例中,深度神经网络的构建过程如下:首先,计算伪视频序列相邻帧之间的光流信息,作为训练样本标签;然后,构建神经网络结构,如图6和图7所示,以视频帧作为网络输入进行前向传播预测光流,并根据训练样本标签计算损失值,再根据损失值反向传播更新参数,如此反复迭代多次作为网络训练过程,训练完成的网络作为深度神经网络(DNN网络)。图6中所构建的神经网络结构为:依次设置的卷积层(ConvLayer)、局部响应正则化层(LRNLayer)、池化层(PLayer)、卷积层、局部响应正则化层、池化层、三个卷积层、池化层、两个全连接层(FCLayer)以及空间多元逻辑斯蒂克回归层(SSLayer);图7中所构建的神经网络结构为:依次设置的五个交替设置的卷积层与池化层(C&PLayer)、三个卷积层、逆卷积层(DeconvLayer)、剪裁层(CropLayer)以及多元逻辑斯蒂克回归层(SLayer)。图6-图7中,ForwardPropagation表示前向传播,BackwardPropagation表示后向传播。其中,图6所示的网络结构并由空间多元逻辑斯蒂克回归层(SpatialSoftmaxLayer)代替多元逻辑斯蒂克回归层(SoftmaxLayer),以生成与空间相关的运动矢量;图7所示的结构由全卷积网络组成,该结构能够有效的保留图片、视频中的局部信息。本专利技术实施例中的神经网络结构已经预先构建完成并可直接使用,在实际操作中,可以直接执行编、解码操作。在编码端,将当前帧的上一帧图像(即已编码的图像帧)作为网络输入,前向传播后得到预测的光流信息;然后,将光流信息转换为编码块的运动矢量信息;接着,进行运动补偿,并计算残差;最后,将残差量化编码写入码流,具体如图8所示,运动矢量转换模块(Tr本文档来自技高网...
基于视差预测的光场图像编码方法

【技术保护点】
一种基于视差预测的光场图像编码方法,其特征在于,包括:将光场图像转换为伪视频序列;在编码端,利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息,并将其转换为视差信息,即对应编码块的运动矢量,然后进行运动补偿,并计算残差;最后,将残差量化编码写入码流;在解码端,采用与编码端一致的方法,利用深度神经网络预测已解码帧和当前帧之间的光流信息,并将其转换为对应解码块的运动矢量,通过运动补偿得到当前解码块的预测块,最后利用码流中的残差信息构建重建块。

【技术特征摘要】
1.一种基于视差预测的光场图像编码方法,其特征在于,包括:将光场图像转换为伪视频序列;在编码端,利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息,并将其转换为视差信息,即对应编码块的运动矢量,然后进行运动补偿,并计算残差;最后,将残差量化编码写入码流;在解码端,采用与编码端一致的方法,利用深度神经网络预测已解码帧和当前帧之间的光流信息,并将其转换为对应解码块的运动矢量,通过运动补偿得到当前解码块的预测块,最后利用码流中的残差信息构建重建块。2.根据权利要求1所述的一种基于视差预测的光场图像编码方法,其特征在于,所述将光场图像转换为伪视频序列包括:将光场图像转换为子孔径图像阵列,每幅子孔径图像反映了不同视角的场景信息;将子孔径图像阵列按照一定的顺序将其转换为伪视频...

【专利技术属性】
技术研发人员:陈志波赵盛洋
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1