沉浸式视频编解码中的帧间预测的方法及装置制造方法及图纸

技术编号:20987960 阅读:32 留言:0更新日期:2019-04-29 20:26
本发明专利技术公开了一种处理360度虚拟现实图像的方法及装置。根据一个方法,用来进行2D帧的帧间预测的沿着球体上的圆圈的变形是从3D空间投影而来。在2D帧中的一个源区块投影至3D球体。在3D球体上的源区块接着旋转至一目的区块,其将投影回2D帧并用作帧间预测子。在一个实施例中,旋转轴是基于与在参考图像中的样本或者区块相关的运动向量来获得的。在另一个实施例中,旋转轴是基于与在当前图像中的已处理的样本或者区块相关的运动向量来获得的。依据另一方法,变形是从视点位移而获得。

Interframe Prediction Method and Device in Immersive Video Coding and Decoding

The invention discloses a method and device for processing 360 degree virtual reality images. According to one method, the deformation of the circle along the sphere used for inter-frame prediction of 2D frames is projected from 3D space. A source block in a 2D frame is projected to a 3D sphere. The source block on the 3D sphere is then rotated to the target block, which is projected back to the 2D frame and used as an inter-frame predictor. In one embodiment, the rotation axis is obtained based on motion vectors associated with samples or blocks in the reference image. In another embodiment, the rotation axis is obtained based on motion vectors associated with processed samples or blocks in the current image. According to another method, the deformation is obtained from the displacement of the viewpoint.

【技术实现步骤摘要】
【国外来华专利技术】沉浸式视频编解码中的帧间预测的方法及装置优先权声明本申请要求在2017年06月23日提出的申请号为62/523,883的美国临时专利申请以及在2017年06月23日提出的申请号为62/523,885的美国临时专利申请的优先权。上述美国临时专利申请整体以引用方式并入本文中。
本专利技术涉及360度虚拟现实(virtualreality,VR)图像/序列的图像/视频处理或编解码。具体而言,本专利技术涉及以不同投影格式推导出用于三维(three-dimensional,3D)内容的帧间预测。
技术介绍
360度视频,也称为沉浸式视频,是一种新兴技术,其可以提供“身临其境的感觉”。通过用覆盖全景视图的环绕式场景来环绕用户,特别是360度全景,以实现沉浸式感觉。通过立体渲染可以进一步改善“身临其境的感觉”。因此,全景视频广泛应用于虚拟现实(VirtualReality,VR)应用中。沉浸式视频涉及使用多个摄像机捕获情景,以覆盖全景视图,例如,360度视场。沉浸式摄像机通常使用用于捕获360度视场的全景摄像机或摄像机集。通常,两个或以上摄像机被用于沉浸式摄像机。所有视频必须同时被获取,并且该情景的单个段(也称为单个视角)被记录。此外,摄像机集通常用于水平地捕获视图,而其他摄像机设计是可能的。使用360度球面全景摄像机或用于覆盖360度周围所有视场的多个图像,360度VR图像可以被捕获。使用传统图像/视频处理设备,3D球面图像很难处理或存储。因此,使用3D到2D投影方法,360度VR图像通常被转换成2D格式。例如,等角投影(equirectangularprojection,ERP)和立方体投影(cubemapprojection,CMP)已普遍采用投影方法。因此,360度图像可以以等角投影格式进行存储。等角投影将整个球体的表面投影到平面图像上。垂直轴为纬度,水平轴为经度。图1示出了根据ERP将球体110投影到矩形图像120的示例,其中每个经度线被映射到ERP图像的垂直线。对于ERP投影,球体的北极和南极中的区域比靠近赤道的区域被拉伸得更严重(即,从单个点到线)。此外,由于拉伸所引起的失真,特别在靠近两个极点处,预测性编解码工具通常不能做出较好的预测,使得编解码效率降低。图2示出了具有6个面的立方体210,其中360度VR图像可以根据CMP被投影到立方体上的6个面。存在不同的方式以将6个面从立方体上取出,并将其组合成矩形图像。图2中的示例将6个面划分成两个部分(即220a和220b),其中每个部分包括3个连接面。这两个部分可以被展开成两个带(即230a和230b),其中每个带对应于连续面图像。根据所选择的布局格式,这两个带可以被组合成紧凑型矩形帧。如JVET-F1003(Y.Ye,etal.,“Algorithmdescriptionsofprojectionformatconversionandvideoqualitymetricsin360Lib”,JointVideoExplorationTeam(JVET)ofITU-TSG16WP3andISO/IECJTC1/SC29/WG11,6thMeeting:Hobart,AU,31March–7April2017,Document:JVET-F1003)所述,ERP格式和CMP格式均已被包括在投影格式转换中,其正被考虑用于下一代视频编解码。除了ERP格式和CMP格式,存在不同的其他VR投影格式,例如,已调节立方体投影(AdjustedCubemapProjection,ACP)、等区域投影(Equal-AreaProjection,EAP)、八面体投影(OctahedronProjection,OHP)、二十面体投影(IcosahedronProjection,ISP)、分段球体投影(SegmentedSphereProjection,SSP)和旋转球体投影(RotatedSphereProjection,RSP),其广泛应用于该领域。图3示出了OHP的示例,其中球体被投影到八面体310的8个面上。通过切开面1与面5之间的面边缘,并将面1和面5旋转以分别连接于面2和面6,以及将相似流程应用于面3和面7,自八面体310取出的8个面320可以被转换成中间格式330。中间格式可以被封装成矩形图像340。图4示出了ISP的示例,其中,球体被投影到二十面体410的20个面上。来自于二十面体410的20个面420可以被封装成矩形图像430(称为投影布局)。JVET-E0025(Zhangetal.,“AHG8:SegmentedSphereProjectionfor360-degreevideo”,JointVideoExplorationTeam(JVET)ofITU-TSG16WP3andISO/IECJTC1/SC29/WG11,5thMeeting:Geneva,CH,12–20January2017,Document:JVET-E0025)中已公开了SSP作为一方法,以将球面图像转换成SSP格式。图5示出了分段球体投影的示例,其中球面图像500被映射成北极图像510、南极图像520和赤道段图像530。3个段的边界对应于纬度45°N(即502)和纬度45°S(即504),其中0°对应于赤道(即506)。北极和南极被映射成2个圆圈区域(即510和520),且赤道段的投影可以与ERP或EAP相同。圆圈的直径等于赤道段的宽度,因为极段和赤道段均具有90°纬度跨度。北极图像510、南极图像520和赤道段图像530可以被封装成矩形图像。图6示出了RSP的示例,其中球体610被分割成中间的270°x90°区域620和剩余部分622。每个RSP部分可以在顶端侧和底端侧被进一步拉伸,以生成具有椭圆形状的已变形部分。如图6所示,这两个椭圆形状部分可以被适合于矩形格式630。ACP是基于CMP。如果CMP的二维坐标(u’,v’)被确定,则ACP的二维坐标(u,v)可以通过根据如下等式集调节(u’,v’)而被计算:使用给定位置(u,v)和面索引f的表格,3D坐标(X,Y,Z)可以被推导出。对于3D到2D坐标转换,给定(X,Y,Z),则(u’,v’)和面索引f可以根据CMP的表格被计算。ACP的2D坐标可以根据等式集被计算。同理于ERP,EAP也将球体表面映射到一个面。在(u,v)平面中,u和v均处于范围[0,1]中。对于2D到3D坐标转换,给定采样位置(m,n),则2D坐标(u,v)先以相同于ERP的方式被计算。随后,球体上的经度与纬度(φ,θ)可以自(u,v)被计算为:φ=(u-0.5)*(2*π)(3)θ=sin-1(1.0-2*v)(4)最后,使用与相同于用于ERP的等式,(X,Y,Z)可以被计算:X=cos(θ)cos(φ)(5)Y=sin(θ)(6)Z=-cos(θ)sin(φ)(7)相反地,使用如下,经度与纬度(φ,θ)可以自(X,Y,Z)坐标被评估:φ=tan-1(-Z/X)(8)θ=sin-1(Y/(X2+Y2+Z2)1/2)(9)由于与虚拟现实相关的图像或视频可能占用较大空间以存储或者较大带宽以传输,因此图像/视频压缩通常被用于降低所需存储空间或传输带宽。帧本文档来自技高网...

【技术保护点】
1.一种处理360度虚拟现实图像的方法,该方法包含:接收二维帧中的当前区块的输入数据,其中该二维帧是从三维球体投影而来;决定与该二维帧中的源区块相关的运动向量,其中该运动向量从该源区块中的源位置指向该二维帧中的目的位置;依据目标投影,投影该二维帧中的该源位置、该目的位置以及该源区块至该三维球体;沿着在该三维球体表面的旋转圆圈围绕旋转轴旋转该三维球体中的该源区块,以获得该三维球体中的变形参考区块;依据逆目标投影,将该三维球体中的该变形的参考区块映射回该二维帧;以及使用该二维帧中的变形的参考区块作为帧间预测子来编码或者解码该二维帧中的该当前区块。

【技术特征摘要】
【国外来华专利技术】2017.06.23 US 62/523,883;2017.06.23 US 62/523,8851.一种处理360度虚拟现实图像的方法,该方法包含:接收二维帧中的当前区块的输入数据,其中该二维帧是从三维球体投影而来;决定与该二维帧中的源区块相关的运动向量,其中该运动向量从该源区块中的源位置指向该二维帧中的目的位置;依据目标投影,投影该二维帧中的该源位置、该目的位置以及该源区块至该三维球体;沿着在该三维球体表面的旋转圆圈围绕旋转轴旋转该三维球体中的该源区块,以获得该三维球体中的变形参考区块;依据逆目标投影,将该三维球体中的该变形的参考区块映射回该二维帧;以及使用该二维帧中的变形的参考区块作为帧间预测子来编码或者解码该二维帧中的该当前区块。2.根据权利要求1所述的方法,其特征在于,该旋转圆圈对应该三维球体的表面的最大圆圈。3.根据权利要求1所述的方法,其特征在于,该旋转圆圈小于该三维球体的表面上的最大圆圈。4.根据权利要求1所述的方法,其特征在于,该三维球体的表面上的围绕着旋转轴的该旋转圆圈是基于该三维球体的源位置与目的位置来决定。5.根据权利要求4所述的方法,其特征在于,与该旋转圆圈对应的旋转轴与旋转角度θa是基于与而导出,并且其中与分别对应在该三维球体表面上的该源位置与该目的位置。6.根据权利要求1所述的方法,其特征在于,与该旋转圆圈对应的旋转轴与旋转角度是基于在参考帧中的多个运动向量导出。7.根据权利要求6所述的方法,其特征在于,与该旋转圆圈对应的旋转轴与旋转角度θ’是基于如下公式导出:其中si对应于该参考帧中的一个源区块,mv(si)对应于源区块si的运动向量,对应于通过围绕该旋转轴旋转在该源区块si的一个位置该旋转角度θ′导致的一个运动向量,并且||·||F是F-范数。8.根据权利要求1所述的方法,其特征在于,与该旋转圆圈相关的旋转轴与旋转角度是基于在当前帧中已编解码区域的多个运动向量而导出的。9.根据权利要求8所述的方法,其特征在于,与该旋转圆圈相关的该旋转轴与旋转角度θ′是基于如下公式导出:其中si对应于该当前帧中的该已编解码区域的一个源区块,mv(si)对应于源区块si的运动向量,对应于通过围绕该旋转轴旋转在该源区块si的一个位置该旋转角度θ′导致的一个运动向量。10.根据权利要求1所述的方法,其特征在于,与该旋转圆圈相关的旋转轴是预先定义的、或者该旋转轴是在比特流中被指示以指示旋转路径。11.根据权利要求1所述的方法,其特征在于,所述目标投影对应于等角投影、立方体投影、已调节立方体投影、等区域投影、八面体投影...

【专利技术属性】
技术研发人员:施正轩林建良
申请(专利权)人:联发科技股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1