使用深度图估计和更新的高效多视点编码制造技术

技术编号:10816921 阅读:127 留言:0更新日期:2014-12-24 20:41
由于其不会以预期的任意方式进行传输,或由于纹理/图片与其深度图之间的优选编码顺序,或由于在传输或解码期间预期丢弃来自比特流的深度数据而造成的用于参考视点的当前图片的深度图的缺失可以被充分解决,以通过估计用于参考视点和从属视点的图片的深度图和使用在多视点数据流内用信号传递的运动和/或视差数据更新所述深度图来减少视点间冗余。具体地,几乎所有多视点数据流都具有其中定义的随机访问点,即,与多视点信号的视点的图片对应的时间点,在没有时间预测和事先编码图片的其他相关性的情况下,而就参考视点被关注而言仅仅使用帧内预测,和就从属视点被关注而言使用帧内预测以及基于视差的预测来编码视点。因此,在视点间预测的多视点数据流内用信号传递的视差数据被用来初始化从属视点的深度图估计,并且该主要深度图估计在多视点编码的进一步进展期间使用在多视点数据流内的运动数据和/或视差数据信号来连续更新。由此获得的不断更新的深度图估计允许以比在没有访问该深度图估计的情况下更高效的方式来执行视点间冗余减少的各种相关方法。根据另一个方面,利用以下发现:与从属视点的图片的区块的运动预测因子候选者的放大列表相关联的开销与由运动矢量候选者的添加导致的运动矢量预测质量的增益相比相对较低,其从视差补偿的意义上来说从参考视点的协同定位区块来确定。

【技术实现步骤摘要】
【国外来华专利技术】使用深度图估计和更新的高效多视点编码
本专利技术涉及根据多视点编解码器的多视点编码。
技术介绍
在多视点视频编码中,视频场景的两个或两个以上视点(其同时被多个照相机捕获)被编码在单个的比特流中。多视点视频编码的主要目的是通过提供3-d观看印象为终端用户提供先进的多媒体体验。如果两个视点被编码,则两个重构的视频序列可以被显示在(利用眼镜)传统的立体显示器上。然而,需要使用传统立体显示器的眼镜对用户来说经常是令人厌烦的。能够在没有眼镜的情况下有高质量立体观看印象是当前在研发方面的一个重要主题。用于这些自由立体显示器的有前景的技术基于柱状透镜系统。原则上,圆柱形透镜阵列以视频场景的多个视点同时显示的方式被安装在传统显示器上。每个视点在小圆锥中显示,使得用户的每只眼睛都可以看见不同的图像。这种效果在没有特殊眼镜的情况下产生了立体印象。然而,这些自由立体显示器通常需要相同视频场景的10-30个视点(如果进一步改善技术,则会需要甚至更多的视点)。超过2个视点也可以用于为用户提供交互式地选择视频场景的视角的可能性。但是视频场景的多个视点的编码与传统单视点(2-d)视频相比大大增加了所需比特率。通常,所需比特率利用编码视点的数量增加了近似线性的路径。用于减少自由立体显示器的传输数据的量的构思由仅传输少量视点(可能2-5个视点),但额外传输所谓的深度图组成,该深度图表示一个或多个视点的图像样本的深度(真实世界的物体到照相机的距离)。考虑到少量具有相对应深度图的编码视点,可以通过合适的渲染技术在接收器侧创建高质量中间视点(存在于编码视点之间的虚拟视点)以及在一定程度上至照相机阵列的一个或两个端部的额外的视点。对于立体视频编码和一般的多视点视频编码(具有或不具有深度图)这两者来说,重要的是利用不同视点之间的相互依赖性。由于所有视点都表示相同的视频场景(从稍微不同的角度来说),故在多个视点之间存在大量的相互依赖性。用于设计高效多视点视频编码系统的目的有效地利用了这些相互依赖性。在针对多视点视频编码的传统途径中,例如如与ITU-TRec.H.264|ISO/IEC14496-10的多视点视频编码(MVC)扩展一样,只有利用视点相互依赖性的技术才是来自已编码的视点的图像样本的视差补偿预测,其概念上类似于在传统2-d视频编码中使用的运动补偿预测。然而,通常只有从已编码的视点中预测小的图像样本子集,因为时间上的运动补偿预测常常更有效(两个时间上连续的图像之间的相似度在同一时间点大于相邻视点之间的相似度)。为了进一步改善多视点视频编码的有效性,需要将高效的运动补偿预测与视点间预测技术相组合。一种可能是重新使用在一个视点中编码的运动数据以预测其他视点的运动数据。由于所有视点都表示相同的视频场景,故在一个视点中的运动基于真实世界的场景的几何形状连接至其他视点中的运动,其可以通过深度图和一些照相机参数来表示。在最新的图像和视频编码中,图片或用于图片的样本阵列的特定集合通常被分解成区块,该区块与特定编码参数相关联。图片通常由多个样本阵列(亮度和色度)组成。另外,图片还可以与额外的辅助样本阵列相关联,该额外的辅助样本阵列例如可以指定透明度信息或深度图。每个图片或样本阵列通常被分解成区块。区块(或样本阵列的相对应的区块)通过图片间预测或图片内预测来进行预测。区块可以具有不同尺寸并且可以是方形的或矩形的。将图片划分成区块可以通过语法来固定或可以(至少部分)在比特流内部用信号传递。经常传输针对预定尺寸的区块的信号细分的语法元素。这些语法元素可以指定区块是否被细分成以及如何被细分成更小的区块并且是否是相关联的编码参数(例如,出于预测目的)。对于区块的所有样本(样本阵列的相对应区块)来说,以某一方式指定相关联的编码参数的解码。在该示例中,使用相同组的预测参数来预测区块中的所有样本,预测参数诸如参考索引(识别这组已经编码的图片中的参考图片)、运动参数(指定参考图片和当前图片之间的区块运动的度量)、用于指定内插滤波器,帧内预测模式等的参数。运动参数可以是通过具有水平和垂直分量的位移矢量或通过更高阶运动参数(诸如由六个分量组成的仿射运动参数)来表示。还可以不止一组特定预测参数(诸如参考索引和运动参数)与单个区块相关联。在此情况下,对于这些特定预测参数的每一组,生成针对区块(或样本阵列的相对应区块)的单个的中间预测信号,并通过包括叠加中间预测信号的组合来建立最终预测信号。相对应的加权参数和同样潜在的恒定偏移量(其被添加到加权和中)对于图片或参考图片或一组参考图片来说,可以是固定的或其可以包括在用于相对应区块的预测参数的集合中。原始区块(或样本阵列的相对应的区块)及其预测信号(也被称为残余信号)之间的差通常被变换和量化。通常,二维变换适用于残余信号(或残余区域的相对应的样本阵列)。针对变换编码,区块(或样本阵列的相对应区块)在应用变换之前可以被进一步拆分,预测参数的特定集合已经被用于该区块。变换区块可以等于或小于用于预测的区块。同样可以变换区块包括用于预测的一个以上的区块。不同的变换区块可以具有不同尺寸并且变换区块可以表示方形或矩形区块。在变换之后,由此产生的变换系数被量化并获得所谓的变换系数水平。对变换系数水平和预测参数以及细分信息(如果存在)进行熵编码。最新技术的多视点视频编码以简单的方式扩展2d视频编码技术。从概念上讲,并行编码(或解码)对应于不同视点的两个或两个以上视频序列。或更具体地,对于每个访问点(或时间点),与不同视点相对应的图片按给定的视点顺序进行编码。MVC比特流一直包含基础视点,其可以在不参照任何其他视点的情况下进行解码。这利用基本2-d视频编码标准/方案确保了向后兼容性。比特流通常以这样的方式构造,该方式通过通过丢弃整个比特流的一些包可以以简单的方式提取与基础视点相对应的子比特流(以及另外与编码视点的特定子集相对应的子比特流)。为了利用视点之间的相关性,当前访问单元的已经编码视点的图片可以用于当前视点的区块的预测。该预测经常被称为视差补偿预测或视点间预测。其基本上等同于传统的2-d视频编码中的运动补偿预测,不同之处仅在于参考图片表示当前访问单元内部的不同视点的图片(即,在相同的时间点)而不表示不同时间点的相同视点的图片。为了将视点间预测整合到基本的2-d视频编码方案的设计中,针对每个图片,构造一个或多个参考图片列表。对于基础视点(可独立解码的视点)来说,仅将传统的时间参考图片插入到参考图片列表中。然而,对于所有的其他视点,视点间参考图片可以被插入到除时间参考图片之外(或代替其)的参考图片列表中。那些图片被插入到参考图片列表中通过视频编码标准/方案来确定和/或在比特流内部(例如,在参数集和/或片报头中)用信号传递。然后通过编码(或推断)参考图片索引来用信号传递针对当前视点的特定区块所选择的时间还是视点间参考图片。即,视点间参考图片以与传统的时间参考图片完全相同的方式使用;仅构造略微扩展的参考图片列表。多视点视频编码的最新技术是ITU-TRec.H.264|ISO/IECJTC1[1][2]的多视点视频编码(MVC)扩展。MVC是朝向多视点视频编码的ITU-TRec.H.264|ISO/IECJTC1的简单扩展。与高层语法的一些扩展本文档来自技高网...

【技术保护点】
一种用于重构被编码到多视点数据流中的多视点信号的装置,包括从属视点重构器(26),所述从属视点重构器(26)被配置为:针对所述多视点信号的从属视点(22)中的当前图片的至少一个区块,通过以下各项来推导运动矢量预测因子候选者的列表:经由与所述多视点信号的先前解码部分相关联的运动和视差矢量来确定用于所述至少一个区块的视差矢量,所述视差矢量表示所述从属视点(22)的所述当前图片与在所述从属视点(22)的所述当前图片的所述至少一个区块上的所述多视点信号的参考视点的当前图片之间的视差;使用所确定的视差矢量来确定所述参考视点的所述当前图片内的区块;以及将运动矢量添加到取决于与所确定的所述参考视点的图片的区块相关联的运动矢量的运动矢量预测因子候选者列表中,以及针对所述从属视点(22)的所述当前图片的所述至少一个区块,从所述多视点数据流提取指定所述运动矢量预测因子候选者列表的一个运动矢量预测因子候选者的索引信息;以及通过使用取决于所指定的运动矢量候选者的运动矢量执行所述从属视点(22)的所述当前图片的所述至少一个区块的运动补偿预测来重构所述从属视点(22)的所述当前图片的所述至少一个区块。

【技术特征摘要】
【国外来华专利技术】2011.11.11 US 61/558,6511.一种用于重构被编码到多视点数据流中的多视点信号的装置,包括从属视点重构器(26),所述从属视点重构器(26)被配置为:针对所述多视点信号的从属视点(22)中的当前图片的至少一个区块,通过以下各项来推导运动矢量预测因子候选者的列表:经由与所述多视点信号的先前解码部分相关联的运动和视差矢量来确定用于所述至少一个区块的视差矢量,所述视差矢量表示所述从属视点(22)的所述当前图片与在所述从属视点(22)的所述当前图片的所述至少一个区块上的所述多视点信号的参考视点的当前图片之间的视差;使用所确定的视差矢量来确定所述参考视点的所述当前图片内的区块;将运动矢量添加到取决于与所确定的所述参考视点的图片的区块相关联的运动矢量的运动矢量预测因子候选者列表中,以及针对所述从属视点(22)的所述当前图片的所述至少一个区块,从所述多视点数据流提取指定所述运动矢量预测因子候选者列表的一个运动矢量预测因子候选者的索引信息;以及通过使用取决于所指定的运动矢量预测因子候选者的运动矢量执行所述从属视点(22)的所述当前图片的所述至少一个区块的运动补偿预测来重构所述从属视点(22)的所述当前图片的所述至少一个区块。2.根据权利要求1所述的装置,进一步包括:参考视点重构器(24),被配置为基于在用于所述参考视点(20)的所述多视点数据流(14)内传输的运动数据(42)使用运动补偿预测来重构所述多视点信号(12)的所述参考视点(20)的所述当前图片(32t1);以及深度估计器(28),被配置为通过以下各项来估计所述从属视点(22)的所述当前图片(32t2)的深度图:通过将用于所述参考视点(20)的所述运动数据(42)应用到所述参考视点(20)的先前图片的深度图估计(74)上来生成(71)所述参考视点(20)的所述当前图片(32t1)的深度图估计(64);以及将所述参考视点(20)的所述当前图片(32t1)的所述深度图估计(74)变形(76)到所述从属视点(22)中以获得所述从属视点(22)的所述当前图片(32t2)的所述深度图估计(64),其中,所述从属视点重构器(26)被配置为在确定用于所述至少一个区块的所述视差矢量时,在所述至少一个区块上的深度数据估计经受深度至视差的转换以获得所确定的视差矢量。3.根据权利要求1所述的装置,其中,所述从属视点重构器(26)被配置为针对所述从属视点(22)的所述当前图片的所述至少一个区块提取关于所指定的运动矢量预测因子候选者的另外的运动矢量差并且执行所述当前图片的所述至少一个区块的所述重构,使得所使用的运动矢量进一步取决于所述运动矢量差和所指定的运动矢量候选者的和。4.根据前述权利要求1所述的装置,其中,所述从属视点重构器被配置为针对所述从属视点(22)的所述当前图片的所述至少一个区块提取指定包括所述参考视点的当前图片和所述从属视点(22)的已解码的图片的参考图片列表的参考图片的另外的参考图片索引,其中,所述从属视点重构器被配置为如果所述参考图片是所述从属视点(22)的已解码的图片中的一个,则使用所述从属视点(22)的一个已解码的图片作为参考来执行所述运动补偿预测,并且如果所述参考图片是所述参考视点的所述当前图片,则将所确定的视差矢量或从所确定的视差矢量推导出的修改的视差矢量添加到视差矢量预测候选者列表中,从所述多视点数据流提取指定所述视差矢量预测因子候选者列表的一个视差矢量预测因子候选者的索引信息并且通过使用取决于使用所述参考视点的所述当前图片作为参考的所指定的视差矢量预测因子候选者的视差矢量对所述从属视点(22)的所述当前图片的所述至少一个区块执行视差补偿预测来重构所述从属视点(22)的所述当前图片的所述至少一个区块。5.根据前述权利要求1所述的装置,其中,所述从属视点重构器进一步被配置为在推导所述运动矢量预测因子候选者列表时,从所述从属视点(22)的空间上和/或时间上相邻区块在空间上和/或时间上预测另外的运动矢量并将所述另外的运动矢量或从所述另外的运动矢量推导出的版本添加到运动矢量可预测候选者列表中。6.根据前述权利要求1所述的装置,其中,所述从属视点重构器被配置为经由运动/视差矢量预测因子候选者列表来执行所述运动矢量预测因子候选者列表的推导,所述运动/视差矢量预测因子候选者列表是运动/视差参数候选者列表,所述运动/视差参数候选者列表均包括多个假设,通过假设,运动/视差运动矢量和参考索引指定包括参考视点的当前图片和所述从属视点(22)的先前解码的图片的参考图片列表中的参考图片,其中,所述从属视点重构器被配置为将运动/视差参数添加到取决于与所确定的所述参考视点的所述当前图片的区块相关联的运动/视差参数的所述运动/视差参数候选者列表,并且通过使用取决于由所述索引信息所指定的运动/视差参数候选者的运动/视差参数对所述从属视点(22)的所述当前图片的所述至少一个区块执行运动/视差补偿预测来重构所述从属视点(22)的所述当前图片的所述至少一个区块。7.一种用于将多视点信号编码到多视点数据流中的装置,包括从属视点编码器,所述从属视点编码器被配置为:针对所述多视点信号的从属视点(22)中的当前图片的至少一个区块,通过以下各项来推导运动矢量预测因子候选者列表:经由与所述多视点信号的先前编码部分相关联的运动和视差矢量来确定用于所述至少一个区块的视差矢量,所述视差矢量表示在所述从属视点(22)的所述当前图片与所述从属视点(22)的当前区块上的所述多视点信号的参考视点的当前图片之间的视差;使用所确定的视差矢量来确定所述参考视点的所述当前图片内的区块;将运动矢量添加到取决于与所确定的所述参考视点的图片的区块相关联的运动矢量的所述运动矢量预测因子候选者列表中;针对所述从属视点(22)的所述当前图片的所述至少一个区块将指定所述运动矢量预测因子候选者列表的一个运动矢量预测因子候选者的索引信息插入到所述多视点数据流中;以及通过使用取决于所指定的运动矢量预测因子候选者的运动矢量执行所述从属视点(22)的所述当前图片的所述至少一个区块的运动补偿预测来编码所述从属视点(22)的所述当前图片的所述至少一个区块。8.一种用于重构被编码到多视点数据流中的多视点信号的装置,包括:参考视点重构器(24),被配置为基于在用于参考视点(20)的多视点数据流(14)内传输的运动数据(42)使用运动补偿预测来重构所述多视点信号(12)的所述参考视点(20)的当前图片(32t1);以及深度估计器(28),被配置为通过以下各项来估计从属视点(22)的当前图片(32t2)的深度图:通过将用于所述参考视点(20)的所述运动数据(42)应用到所述参考视点(20)的先前图片的深度图估计(74)上来生成(71)所述参考视点(20)的所述当前图片(32t1)的深度图估计(64);以及将所述参考视点(20)的所述当前图片(32t1)的所述深度图估计(74)变形(76)到所述从属视点(22)中以获得所述从属视点(22)的所述当前图片(32t2)的所述深度图估计(64),从属视点重构器(26),被配置为使用所述从属视点(22)的所述当前图片(32t2)的所述深度图估计从所述多视点数据流的从属视点部分重构所述从属视点的所述当前图片。9.根据权利要求8所述的装置,其中,所述运动数据(42)按区块粒度进行定义。10.根据权利要求8所述的装置,其中,所述从属视点重构器(26)被配置为基于用于由所述多视点数据流(14)的从属视点部分(38)组成的所述从属视点(22)的视差和/或运动数据(54,60)使用视差和/或运动补偿预测来重构所述从属视点(22)的所述当前图片(32t2),其中,所述深度估计器被配置为使用用于所述从属视点(22)的所述视差和/或运动数据(54,60)来更新(77)所述从属...

【专利技术属性】
技术研发人员:海科·施瓦茨托马斯·维甘徳
申请(专利权)人:弗兰霍菲尔运输应用研究公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1