视频编码装置和方法、视频解码装置和方法、以及它们的程序制造方法及图纸

技术编号:13674648 阅读:78 留言:0更新日期:2016-09-08 00:01
基于从针对多视点视频中的被摄体的深度图所设定的代表深度来设定将作为该多视点视频的1帧的编码对象图像上的位置向针对与编码对象图像不同视点的参照视点图像上的位置进行变换的变换矩阵。在分割了所述编码对象图像的编码对象区域内设定代表位置,使用该代表位置和所述变换矩阵来设定针对所述代表位置的所述参照视点图像上的对应位置。基于该对应位置从所述参照视点图像的运动信息生成所述编码对象区域中的合成运动信息,使用其来生成针对所述编码对象区域的预测图像。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及视频编码装置、视频解码装置、视频编码方法、视频解码方法、视频编码程序、以及视频解码程序。
技术介绍
自由视点视频是指用户能够自由地指定拍摄空间内的摄像机的位置、方向(以下,称为视点)的视频。在自由视点视频中,用户指定任意的视点,但是,不能保持针对可能的全部视点的视频。因此,自由视点视频由生成所指定的视点的视频所需要的信息组构成。再有,自由视点视频有时也称为自由视点电视、任意视点视频、任意视点电视等。自由视点视频使用各种数据形式来表现,但是,作为最一般的形式,存在使用视频和针对该视频的各帧的深度图(距离图像)的方式(例如,参照非专利文献1)。在此,深度图按照每个像素表现从摄像机到被摄体的深度(距离),表现被摄体的三维的位置。在满足某种条件的情况下,深度与两个摄像机间的视差的倒数成比例,因此,有时也称为视差图(视差图像)。在计算机图形学的领域中,深度为存储在Z缓冲器中的信息,因此,有时也称为Z图像、Z图。再有,除了从摄像机到被摄体的距离之外,有时也将针对在表现对象空间上设置的三维坐标系的Z轴的坐标值用作深度。一般地,针对所拍摄的图像而将水平方向作为X轴、将垂直方向作为Y轴,因此,Z轴与摄像机的方向一致,但是,在针对多个摄像机使用共同的坐标系的情况下等,也存在Z轴与摄像机的方向不一致的情况。在以下,不区别距离/Z值而称为深度,将把深度表示为像素值的图像称为深度图。但是,严密地,在视差图中,需要设定成为基准的摄像机对。在将深度表示为像素值时,存在将与物理量对应的值直接作为像素值的方法、使用将最小值和最大值之间量化为某数而得到的值的方法、以及使用用某步幅量化离最小值的差而得到的值的方法。在想要表现的范围有限的情况下,使用最小值等附加信息更能够高精度地表现深度。此外,在等间隔地量化时,存在直接量化物理量的方法和量化物理量的倒数的方法。由于距离的倒数为与视差成比例的值,所以在需要高精度地表现距离的情况下,使用前者的情况较多,在需要高精度地表现视差的情况下,使用后者的情况较多。在以下,与深度的像素值化的方法、量化的方法无关而将把深度表现为图像的图全部称为深度图。深度图被表现为各像素具有一个值的图像,因此,能够视为灰度图像。此外,被摄体在实际空间上连续地存在而不能瞬间地向远离的位置移动,因此,可以说与图像信号同样地具有空间性相关和时间性相关。因而,能够利用为了对通常的图像信号、视频信号进行编码而使用的图像编码方式、视频编码方式来对由深度图、连续的深度图构成的视频一边去除空间性冗余性、时间性冗余性一边高效地编码。在以下,不区别深度图和由其构成的视频而称为深度图。在此,对一般的视频编码进行说明。在视频编码中,利用被摄体空间性和时间性地连续这样的特征来实现高效的编码,因此,将视频的各帧分割为称为宏块的处理单位块,按照每个宏块空间性或时间性地预测其视频信号,对示出其预测方法的预测信息和预测残差进行编码。在空间性地预测视频信号的情况下,例如示出空间性的预测的方向的信息成为预测信息,在时间性地预测的情况下,例如示出参照的帧的信息和示出该帧中的位置的信息成为预测信息。空间性地进行的预测是帧内的预测,因此,称为帧内预测(画面内预测、帧内预测),时间性地进行的预测是帧间的预测,因此,称为帧间预测(画面间预测、帧间预测)。此外,在时间性地进行的预测中,补偿视频的时间性变化即运动来进行视频信号的预测,因此,也称为运动补偿预测。进而,在对由从多个位置、方向对相同的场景进行拍摄的视频构成的多视点视频进行编码时,补偿视频的视点间的变化即视差来进行视频信号的预测,因此,使用视差补偿预测。在由针对多个视点的视频和深度图构成的自由视点视频的编码中,均具有空间相关性和时间相关性,因此,通过使用通常的视频编码方式来对每一个进行编码,从而能够削减数据量。例如,在使用MPEG-C Part.3来表现多视点视频和针对其的深度图的情况下,使用现有的视频编码方式来对每一个进行编码。此外,在一起编码针对多个视点的视频和深度图的情况下,存在针对运动信息利用在视点间存在的相关性来实现高效的编码的方法。在非专利文献2中,针对处理对象的区域,使用视差矢量来决定已经处理完毕的其他视点的视频的区域,将在对该区域进行编码时使用的运动信息用作处理对象的区域的运动信息或者其预测值。此时,为了实现高效的编码,需要针对处理对象的区域获得精度高的视差矢量。在非专利文献2中,作为最单纯的方法,使用将针对与处理对象的区域时间或者空间性地邻接的区域而提供的视差矢量作为处理对象区域的视差矢量的方法。进而,为了求取更正确的视差矢量,也使用如下的方法:估计或者取得针对处理对象的区域的深度,变换该深度来获得视差矢量。现有技术文献非专利文献非专利文献1:Y. Mori, N. Fukusima, T. Fujii, and M. Tanimoto,“View Generation with 3D Warping Using Depth Information for FTV ”,In Proceedings of 3DTV-CON2008, 第229-232页, 2008年5月;非专利文献2:G. Tech, K. Wegner, Y. Chen, and S. Yea, \3D-HEVC Draft Text 1\, JCT-3V Doc., JCT3V-E1001 (版本3), 2013年9月。
技术实现思路
专利技术要解决的课题根据非专利文献2所记载的方法,能够通过变换深度图的值来获得高精度的视差矢量,从而实现高效率的预测编码。然而,在非专利文献2所记载的方法中,在将深度向视差矢量变换时,假定视差与深度(从摄像机到被摄体的距离)的倒数成比例。更具体而言,通过深度的倒数、摄像机的焦点距离、视点间的距离三者的积来求取视差。这样的变换在两个视点具有相同的焦点距离、视点的方向(摄像机的光轴)三维地平行的情况下提供正确的结果,但是,在这以外的状况下,提供错误的结果。为了进行正确的变换,如非专利文献1所记载的那样,需要在通过将图像上的点依照深度向三维空间逆投影来得到三维点之后,通过将该三维点向其他视点再投影来计算针对其他视点的图像上的点。然而,在这样的变换中,存在需要复杂的运算而运算量增加这样的问题。此外,在视点的方向不同的情况下,针对两个视点的视频上的运动矢量相同的情况极少。因此,即使正确地得到了视差矢量,依照非专利文献2所记载的方法,在将其他视点中的运动信息用作针对处理对象的区域的运动信息的情况下,也存在提供错误的运动信息而不能实现高效的编码这样的问题。本专利技术鉴于这样的情况而完成,其目的在于提供如下的视频编码装置、视频解码装置、视频编码方法、视频解码方法、视频编码程序、以及视频解码程序:在具有针对多个视点的视频和深度图作为构成要素的自由视点视频数据的编码中,即使在视点的方向不平行的情况下,也能够通过提高运动矢量的视点间预测的精度来实现高效的视频编码。用于解决课题的方案本专利技术提供一种视频编码装置,在对作为由多个不同的视点的视频构成的多视点视频的1帧的编码对象图像进行编码时,按照作为分割了所述编码对象图像的区域的每个编码对象区域一边在不同的视点间进行预测一边进行编码,所述视频编码装置具有:代表本文档来自技高网
...

【技术保护点】
一种视频编码装置,在对作为由多个不同的视点的视频构成的多视点视频的1帧的编码对象图像进行编码时,按照作为分割了所述编码对象图像的区域的每个编码对象区域一边在不同的视点间进行预测一边进行编码,所述视频编码装置的特征在于,具有:代表深度设定单元,从针对所述多视点视频中的被摄体的深度图设定代表深度;变换矩阵设定单元,基于所述代表深度来设定将所述编码对象图像上的位置向与该编码对象图像不同的针对参照视点的参照视点图像上的位置进行变换的变换矩阵;代表位置设定单元,从所述编码对象区域内的位置设定代表位置;对应位置设定单元,使用所述代表位置和所述变换矩阵来设定针对所述代表位置的所述参照视点图像上的对应位置;运动信息生成单元,基于所述对应位置根据作为所述参照视点图像的运动信息的参照视点运动信息来生成所述编码对象区域中的合成运动信息;以及预测图像生成单元,使用所述合成运动信息来生成针对所述编码对象区域的预测图像。

【技术特征摘要】
【国外来华专利技术】2013.12.03 JP 2013-2504291.一种视频编码装置,在对作为由多个不同的视点的视频构成的多视点视频的1帧的编码对象图像进行编码时,按照作为分割了所述编码对象图像的区域的每个编码对象区域一边在不同的视点间进行预测一边进行编码,所述视频编码装置的特征在于,具有:代表深度设定单元,从针对所述多视点视频中的被摄体的深度图设定代表深度;变换矩阵设定单元,基于所述代表深度来设定将所述编码对象图像上的位置向与该编码对象图像不同的针对参照视点的参照视点图像上的位置进行变换的变换矩阵;代表位置设定单元,从所述编码对象区域内的位置设定代表位置;对应位置设定单元,使用所述代表位置和所述变换矩阵来设定针对所述代表位置的所述参照视点图像上的对应位置;运动信息生成单元,基于所述对应位置根据作为所述参照视点图像的运动信息的参照视点运动信息来生成所述编码对象区域中的合成运动信息;以及预测图像生成单元,使用所述合成运动信息来生成针对所述编码对象区域的预测图像。2.根据权利要求1所述的视频编码装置,其特征在于,还具有深度区域设定单元,其针对所述编码对象区域设定作为所述深度图上的对应区域的深度区域,所述代表深度设定单元从针对所述深度区域的所述深度图设定代表深度。3.根据权利要求2所述的视频编码装置,其特征在于,还具有深度参照视差矢量设定单元,其针对所述编码对象区域设定作为针对所述深度图的视差矢量的深度参照视差矢量,所述深度区域设定单元将由所述深度参照视差矢量所示的区域设定为所述深度区域。4.根据权利要求3所述的视频编码装置,其特征在于,所述深度参照视差矢量设定单元使用在对与所述编码对象区域邻接的区域进行编码时使用的视差矢量来设定所述深度参照视差矢量。5.根据权利要求2所述的视频编码装置,其特征在于,所述代表深度设定单元将具有四角形状的所述编码对象区域的4个顶点的像素所对应的所述深度区域内的深度之中的、示出最靠近摄像机的深度设定为代表深度。6.根据权利要求1所述的视频编码装置,其特征在于,还具有合成运动信息变换单元,其使用所述变换矩阵来变换所述合成运动信息,所述预测图像生成单元使用所述变换后的合成运动信息。7.根据权利要求1所述的视频编码装置,其特征在于,还具有:过去深度设定单元,基于所述对应位置和所述合成运动信息来从所述深度图设定过去深度;逆变换矩阵设定单元,基于所述过去深度来设定将所述参照视点图像上的位置向所述编码对象图像上的位置进行变换的逆变换矩阵;以及合成运动信息变换单元,使用所述逆变换矩阵来变换所述合成运动信息,所述预测图像生成单元使用所述变换后的合成运动信息。8.一种视频解码装置,在从由多个不同的视点的视频构成的多视点活动图像的码数据对解码对象图像进行解码时,按照作为分割了所述解码对象图像的区域的每个解码对象区域一边在不同的视点间进行预测一边进行解码,所述视频解码装置的特征在于,具有:代表深度设定单元,从针对所述多视点视频中的被摄体的深度图设定代表深度;变换矩阵设定单元,基于所述代表深度来设定将所述解码对象图像上的位置向与该解码对象图像不同的针对参照视点的参照图像上的位置进行变换的变换矩阵;代表位置设定单元,从所述解码对象区域内的位置设定代表位置;对应位置设定单元,使用所述代表位置和所述变换矩阵来设定针对所述代表位置的所述参照视点图像上的对应位置;运动信息生成单元,基于所述对应位置根据作为所述参照视点图像的运动信息的参照视点运动信息来生成所述解码对象区域中的合成运动信息;以及预测图像生成单元,使用所述合成运动信息来生成针对所述解码对象区域的预测图像。9.根据权利要求8所述的视频解码装...

【专利技术属性】
技术研发人员:志水信哉杉本志织小岛明
申请(专利权)人:日本电信电话株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1