当前位置: 首页 > 专利查询>皇家KPN公司专利>正文

对球面视频数据进行编码制造技术

技术编号:22916656 阅读:48 留言:0更新日期:2019-12-24 22:25
描述了一种由编码器装置形成比特流的方法,该方法包括:该编码器装置的处理器接收包括一个或多个像素区域的经投影视频帧,该一个或多个像素区域表示投影到投影模型的一个或多个2D投影表面上的球面视频数据的像素,该投影模型适于将球面视频数据投影到视频帧的矩形2D表面上;该处理器在该接收到的经投影视频帧的基础上生成多个不同的候选视频帧,每个候选视频帧通过将至少一个操作应用于该经投影视频帧的一个或多个像素区域中的一个或多个像素组来形成,其中,所述至少操作包括移位、镜像和/或旋转操作;并且其中,对于所述多个不同的候选视频帧中的每一个,所述操作是不同的;该处理器将率失真分析应用于这些候选视频帧中的每一个,以确定这些候选视频帧中的每一个的率失真成本;以及该处理器在该率失真成本的基础上从所述多个候选视频帧中选择候选视频帧;以及在所选候选视频帧的基础上生成输出比特流。

Coding spherical video data

【技术实现步骤摘要】
【国外来华专利技术】对球面视频数据进行编码
本专利技术涉及对球面视频数据进行编码,并且具体地,尽管非排他地,涉及用于对球面视频数据进行解码和编码的方法和系统、用于对经编码球面视频数据进行解码的解码器装置和用于对球面视频数据进行编码的编码器装置以及用于执行此类方法的计算机程序产品。
技术介绍
目前,越来越多的专业和消费级相机能够产生360度视频内容,也称为全向视频内容。可以被认为是布置在球面上的像素(有时也被称为像素球体或像素的球体)的此内容在下文被简称为术语球面内容。相比于常规视频,球面内容的递送通常需要更高的带宽。球面内容表示比常规视频更宽的视场,并且因此比常规视频包含更多来自原始场景的信息。然而,通常仅将球面内容的一部分显示给用户。此部分通常被称为视口,该视口以所谓的视场(FoV)为特征,即显示给用户的给定视觉场景的(竖直、水平或对角线)角范围。视口取决于用户正在观看的方向。然而,布置在球面上的像素无法由当前视频编码标准直接处理,该当前视频编码标准被配置成处理被称为视频帧的标准化视频数据格式,即像素的矩形布置,也被称为图片。因此,球面内容在被馈送至编码设备的输入之前被处理。针对球面视频内容的典型处理链可以包括用全景或360度图像捕获系统捕获全景图像。360视频的捕获通常包括多个图像传感器(例如,CMOS或CCD传感器)在不同方向捕获视频,并且然后在图像拼接操作中将来自各个图像传感器的单独图像拼接在一起以形成球面视频数据。此后,使用合适的投影模型将球面视频数据投影到2D矩形表面上。这样,形成了包括经投影球面图像数据的2D矩形图像帧或图片,这些图像帧或图片可以由编码装置(编码器)编码。经编码球面视频数据可以被提供给(例如,传输至)媒体回放设备、使用解码器装置进行解码、并且使用渲染引擎进行渲染,该渲染引擎在适合于渲染球面内容的媒体回放设备(例如,头戴式显示器(HMD)或其他显示器上)中实施。媒体回放设备被配置成通常基于测量用户移动(例如,视口方向)的传感器信息,或基于其他用户输入(例如,操纵杆、键盘、触摸屏)对经编码球面视频数据进行解码和渲染。在球面视频数据的基础上形成2D矩形图像帧或图片通常可以包括将球面视频数据投影到几何对象(具有直边的对象)的表面(“面”)上,并且随后将投影表面映射到矩形(2D)形状上。对于编码球面视频内容,2D矩形视频帧是用作对编码器的输入的最方便的形式,因为它不需要修改现有的编码系统。如等距柱状投影(ERP)、立方体或棱锥体投影模型等不同的投影模型是已知的。在ERP的情况下,使用极角作为水平和竖直坐标,将球体投影到矩形(单面)上。在这种情况下,当EPR投影直接产生矩形2D形状时,将映射合并到投影步骤中。等距柱状和其他投影格式都可以使用如H.264/AVC和HEVC,以及VP9和AV1等现有编码方案直接编码。最先进的视频编码标准将视频帧或图片视为所捕获信号的有限窗口。进一步地,认为视频帧或图片中空间上接近的像素在所捕获信号中也是空间上接近的。但是在处理球面视频数据时,这两个假设都是不正确的。将球面视频数据投影到2D矩形表面上的过程导致在视频帧或图片中布置一个或多个所谓的像素区域。视频帧或图片中的不同像素区域限定属于投影模型(例如,立方体投影模型)的不同投影面的不同像素组,该投影模型用于将球面视频投影到矩形平面上。像素区域的边缘形成边界,即人为边界,这些边界是投影操作的直接结果。这些边界可以被称为区域边界或投影边界。等距柱状投影模型仅具有一个单个2D表面。因此,球面视频数据被投影至一个2D表面上,由此单个2D表面被映射至2D矩形形状的一个像素区域。因此,区域边界在所产生的视频帧中形成人为间断,这些视频帧在下文中被称为经投影视频帧或经投影图片。区域边界是人为的,因为它们不表示捕获场景中的实际物理边界,因为在球面视频中,场景是在所有方向上捕获的。因此,经投影视频帧或图片中的像素区域不反映信号的空间连续性。例如,经投影视频帧中被区域边界分开的两组相邻像素可能不是原始捕获的360视频信号中的相邻像素。因此,现实世界360视频信号中的自然现象可能导致例如当对象跨过区域边界时经投影视频帧或图片中的显著的人为移动。当前最先进的视频编码标准已经采用了混合视频编码系统,包括帧内预测和帧间预测的组合,其中输入视频信号是在逐块基础上进行处理的。在此,编码块(或简称为块)是指视频标准的基本处理单元。在不同的编码标准中,编码块可以以不同方式命名,例如,在H.264/AVC中,编码块被称为宏块,在HEVC中,编码块可以被称为编码树单元(CTU),并且在VP9和AV1中,编码块可以被称为超级块。当使用最先进的编码标准对包括区域边界的视频帧或图片进行编码时,区域边界可能导致编码性能降低,例如,在给定的目标比特率下更高的视觉损伤,或对于目标视觉质量来说更高的比特率。区域边界可能干扰最先进的编码系统的现有特征,如帧间预测、运动补偿和空间帧内预测。例如,区域边界可以增加运动向量中的熵并降低压缩增益。在大多数极端情况下,运动向量被限制在帧的某个区域。在这种情况下,没有运动向量将用于在两个视频帧之间预测从一个帧边缘到另一个帧边缘的对象,因此降低了编码器高效压缩视频序列的能力。另外,当视频帧或图片中的对象跨区域边界时,编码器对与不同像素区域相关联的像素使用不同编码策略的风险增加。这样,对象的一部分可以用不同于对象的另一部分的编码策略来编码。例如,编码器可以使用不同的预测参数来预测与单个帧中的不同像素区域相关联的像素。在将经编码数据解码为2D矩形帧或图片后,播放设备渲染球面,并使用视频帧对球面进行纹理化。不同的编码策略可能导致质量上的差异,这可能在经渲染视频图像中作为一个或多个伪像(例如,作为经渲染图片中的细线等)变得可见,并且因此降低了经渲染内容的视觉质量。因此,从上面可以看出,在本领域中需要用于对球面视频数据进行编码的改进的方法和系统。具体地,在本领域中需要能够对球面视频数据进行编码(code),即编码(encode)和解码的方法和系统,使得降低了将球面视频数据变换成矩形视频帧或图片的不利影响,从而高效增加了编码和/或改进了已渲染内容的视觉质量。
技术实现思路
如本领域技术人员将认识到的,本专利技术的各方面可以实施为系统、方法或计算机程序产品。因此,本专利技术的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者在本文中通常可以被称为“电路”、“模块”或者“系统”的组合软件和硬件方面的实施例的形式。本披露内容中描述的功能可以实施为由计算机的微处理器执行的算法。此外,本专利技术的各方面可以采取在具有在其上实施的例如,存储的计算机可读程序代码的一种或多种计算机可读介质中实施的计算机程序产品的形式。可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光、电磁、红外、或半导体系统、装置或设备,或上述的任何适合的组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下各项:具有一个或多个本文档来自技高网
...

【技术保护点】
1.一种由编码器装置形成比特流的方法,包括:/n该编码器装置的处理器接收经投影视频帧,该经投影视频帧具有包括一个或多个像素区域的像素区,该一个或多个像素区域,优选地多个像素区域具有表示投影到投影模型,优选地3D投影模型的一个或多个2D投影表面上的球面视频数据的像素,并且该一个或多个2D投影表面优选地以一对一的方式映射到所述一个或多个像素区域;/n随后,该处理器在该经投影视频帧的基础上生成多个不同的候选视频帧,每个候选视频帧通过将一个或多个像素操作应用于所述经投影视频帧的像素来生成,像素操作被定义为将移位、镜像和/或旋转操作中的至少一个应用于一个或多个像素组,每次生成所述多个不同的候选视频帧之一时,所述一个或多个像素操作中的至少一个是不同的;/n该处理器将率失真分析应用于这些候选视频帧中的每一个,以确定这些候选视频帧中的每一个的率失真成本;以及/n该处理器在该率失真成本的基础上从所述多个候选视频帧中选择候选视频帧,优选地,该候选视频帧的率失真成本在所述多个候选视频帧中是最低的;以及/n在所选候选视频帧的基础上生成输出比特流。/n

【技术特征摘要】
【国外来华专利技术】20170509 EP 17170049.51.一种由编码器装置形成比特流的方法,包括:
该编码器装置的处理器接收经投影视频帧,该经投影视频帧具有包括一个或多个像素区域的像素区,该一个或多个像素区域,优选地多个像素区域具有表示投影到投影模型,优选地3D投影模型的一个或多个2D投影表面上的球面视频数据的像素,并且该一个或多个2D投影表面优选地以一对一的方式映射到所述一个或多个像素区域;
随后,该处理器在该经投影视频帧的基础上生成多个不同的候选视频帧,每个候选视频帧通过将一个或多个像素操作应用于所述经投影视频帧的像素来生成,像素操作被定义为将移位、镜像和/或旋转操作中的至少一个应用于一个或多个像素组,每次生成所述多个不同的候选视频帧之一时,所述一个或多个像素操作中的至少一个是不同的;
该处理器将率失真分析应用于这些候选视频帧中的每一个,以确定这些候选视频帧中的每一个的率失真成本;以及
该处理器在该率失真成本的基础上从所述多个候选视频帧中选择候选视频帧,优选地,该候选视频帧的率失真成本在所述多个候选视频帧中是最低的;以及
在所选候选视频帧的基础上生成输出比特流。


2.根据权利要求1所述的方法,其中,该一个或多个像素组中的每一个限定该一个或多个像素区域之一内的像素,优选地一个像素组限定一个像素区域。


3.根据权利要求1所述的方法,其中,该一个或多个像素组中的每一个限定该一个或多个像素区域之一内的一个或多个编码块,优选地,至少一个像素区域包括整数个编码块;更优选地,编码块表示该处理器可以处理的最大像素块,优选地,HEVC型编码树块CTB、AVC型宏块、VP9或AV1超级块之一。


4.根据权利要求1至3中任一项所述的方法,其中,该多个候选视频帧的该生成进一步基于与该接收到的经投影视频帧相关联的元数据,优选地,该元数据包括关于以下各项中的至少一项的信息:该投影模型、该一个或多个像素区域的大小、该一个或多个像素区域在该经投影视频帧中的位置;和/或该一个或多个像素区域的几何形状。


5.根据权利要求1至4中任一项所述的方法,其中,该输出比特流的该生成包括:
确定解码器信息,该解码器信息包括用于使解码器装置能够反转被应用以生成所述所选候选视频帧的所述一个或多个像素操作的信息;以及
将所选候选帧以及任选地该解码器信息编码在比特序列中,优选地,该编码包括使用熵编码算法。


6.根据权利要求5所述的方法,其中,该解码器信息的至少一部分作为一个或多个SEI消息插入在该比特流中;和/或作为一个或多个网络抽象层NAL单元插入在该比特流中,优选地插入在该比特流中的一个或多个VCLNAL单元的头中。


7.根据权利要求1至6中任一项所述的方法,其中,该多个候选视频帧的该生成进一步基于该经投影视频帧中的该视频内容,优选地基于与该经投影视频帧中的该视频内容相关联的一个或多个图像分析参数,更优选地该一个或多个图像分析参数是在以下各项中的至少一项的基础上确定的:熵分析、显著分析、色移分析、运动幅度和/或运动方向分析、对象分析、色移分析、边界分析、边缘检测分析。


8.根据权利要求1至7中任一项所述的方法,其中,生成多个不同的候选视频帧包括:
在该接收到的经投影视频帧的基础上重构球面视频数据;
在图像分析算法的基础上选择多个旋转;
通过在旋转向量的基础上旋转该球面视频数据并将该经旋转球面视频数据投影到2D矩形平面上来生成该多个不同的候选视频帧。


9.根据权利要求1至8中任一项所述的方法,其中,在这些候选视频帧的该率失真分析期间,与该多个视频帧中的第一候选视频帧的率失真分析相关联的信息的至少一部分用于该多个视频帧中的第二候选视频帧的该率失真分析,优选地,该信息与该第一候选视频帧的类似于该第二候选视频帧的一个或多个相应像素布置的一个或多个像素布置相关联。


10.一种由解码器装置形成视频信号的方法,包括:
该解码器装置的处理器接收包括经投影视频帧的比特流,经投影视频帧具有包括一个或多个像素区域的像素区,该一个或多个像素区域具有表示投影到投影模型...

【专利技术属性】
技术研发人员:OA尼亚穆特E托马斯
申请(专利权)人:皇家KPN公司荷兰应用自然科学研究组织
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利