用于对具有视图驱动的镜面反射的体积视频进行编码和解码的方法和装置制造方法及图纸

技术编号:34829563 阅读:25 留言:0更新日期:2022-09-08 07:21
本发明专利技术提供了用于对3DoF+体积视频进行编码、传输和解码的方法和设备。在编码阶段,(在所有输入视图中)选择一个输入视图以传送视口相关的光照效果,并且将其id传输到解码器作为附加元数据。在解码器侧,当来自该所选视图的分块可用于视口的渲染时,这些分块相对于其他候选者被优先使用,而不论合成视图位置为何。而不论合成视图位置为何。而不论合成视图位置为何。

【技术实现步骤摘要】
【国外来华专利技术】用于对具有视图驱动的镜面反射的体积视频进行编码和解码的方法和装置
1.

[0001]本专利技术原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档,以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。
2.
技术介绍

[0002]本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本专利技术原理的各个方面有关。据信该讨论有助于为读者提供背景信息,以促进更好地理解本专利技术原理的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
[0003]最近,可用的大视场内容(高达360
°
)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻,用户只能观看一部分内容。然而,用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。
[0004]沉浸式视频(也称为360
°
平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足第一次全向视频体验(例如,使用头戴式显示器(HMD设备))的要求,但3DoF视频对于期望更多自由(例如,通过体验视差)的观看者可能很快变得令人沮丧。此外,3DoF还可能导致眩晕,因为用户永远不会只旋转其头部,而是还向三个方向平移头部,这些平移不会在3DoF视频体验中再现。
[0005]其中,大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频:例如,虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。
[0006]体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时,除了旋转之外,用户还可以在观看的内容中平移其头部,甚至其身体,并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知,并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的,允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难,使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。
[0007]虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如,根据纬度/经度投影映射或等角投影映射编码的球面图像),但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即,完全6DoF)允许视频内容内的完全自由导航,而第二种(又名3DoF+)将用户观看空间限制为被称为观看边界框的有限体积,从而允许头部的有限平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。
[0008]3DoF+内容可以被设置作为一组多视图+深度(MVD)帧。此类内容可以来自真实捕获或可以通过专用渲染(可能为真实感渲染)从现有的CG内容生成。MVD帧由位于不同视点处且捕获相同3D场景的一组相机(构造为相机装备)捕获。例如,该装备可以将一组相机构造为相机阵列或构造为具有朝向不同方向的相机的360
°
采集设备。然而,作为MVD帧提供的3D场景的3DoF+渲染可在该帧包括许多镜面反射/反射或透明部件时产生视觉伪影。从MVD帧中恢复真实的物理照明是一个非常复杂的挑战。实际上,一组MVD帧不直接捕获足够的信息来恢复正确的光场。场景对象的材料特性(双向反射分布函数,也称为BRDF)以及对光源的描述可仅从该组MVD帧大致估计,并且此过程非常复杂。
[0009]在3DoF+场景中,最终用户应在受限的观看空间内通过“小”运动体验有限的视差。在此类场景下,可凭经验证明,普通观看者在改变头部位置时,很少会对可能经历的镜面反射/反射/透明度的变化敏感。然而,他对这些光照效果在合成视图上的一致性非常敏感。缺乏用于对提供作为MVD帧序列的体积视频内容进行编码、传输和解码的解决方案,其中对这些光照效果进行一致渲染。
3.
技术实现思路

[0010]以下呈现本专利技术原理的简化概述,以便提供对本专利技术原理的一些方面的基本理解。本
技术实现思路
不是本专利技术原理的广泛概述。不旨在识别本专利技术原理的关键或重要元素。以下
技术实现思路
仅以简化形式呈现本专利技术原理的一些方面,作为下面提供的更详细描述的前言。
[0011]本专利技术原理涉及一种用于在数据流中对提供作为多视图加深度(MVD)帧的3D场景进行编码的方法。该方法包括:
[0012]‑
基于从观看空间中的平均位置对3D场景的视野覆盖,在MVD帧中选择视图作为参考视图;
[0013]‑
生成打包至少一个分块的图集图像。分块是MVD帧的视图的图像部分。图集图像包括表示从观看空间可见的3D场景的信息。
[0014]‑
生成元数据,该元数据包括MVD帧的每个视图的采集参数、将每个分块与视图相关联的信息和所选参考视图的标识符;以及
[0015]‑
在数据流中对图集和元数据进行编码。
[0016]本专利技术原理还涉及一种用于对表示从观看空间可见的3D场景的数据流进行解码的方法。该方法包括:
[0017]‑
从数据流对图集图像和相关联的元数据进行解码,
[0018]图集图像打包至少一个分块。分块是多视图加深度(MVD)
[0019]帧的视图的图像部分。图集图像包括表示从观看空间可见的3D场景的信息。
[0020]元数据包括MVD帧的每个视图的采集参数、将每个分块与视图相关联的信息和参考视图的标识符,与参考视图相关联的分块是参考分块;
[0021]‑
通过以下方式针对观看空间内的当前视点渲染视口图像:
[0022]当两个分块对视口图像有贡献时,如果两个分块中的一个分块是参考分块,则将参考分块的颜色贡献用于视口图像。
[0023]本专利技术原理还涉及一种包括实施上述编码方法的步骤的处理器的设备和一种包
括实施上述解码方法的步骤的处理器的设备。
4.附图说明
[0024]将更好地理解本公开,并且在阅读以下描述、参考附图的描述之后,将出现其他特定特征和优点,其中:
[0025]‑
图1示出了根据本专利技术原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点;
[0026]‑
图2示出了根据本专利技术原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例;
[0027]‑
图3示出了根据本专利技术原理的非限制性实施方案的可被配置为实施关于图11和图12描述的方法的设备的示例性架构;
[0028]‑
图4示出了根据本专利技术原理的非限制性实施方案的当通过基于分组的传输协议传输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在数据流中对3D场景进行编码的方法,所述3D场景被提供作为多视图+深度帧,所述方法包括:

基于从所述3D场景中的观看边界框中的平均位置对所述3D场景的视野覆盖,从所述多视图+深度帧选择视图作为参考视图;

生成打包分块的图集图像,分块是所述多视图+深度帧的视图的图像部分,所述图集图像包括表示从所述观看边界框可见的所述3D场景的信息;

生成元数据,所述元数据包括将每个分块与视图相关联的信息和所选参考视图的标识符;以及

在所述数据流中对所述图集和所述元数据进行编码。2.根据权利要求1所述的方法,其中通过修剪视图之间的冗余信息以及保持分块之间的重叠像素来获得分块。3.根据权利要求1或2所述的方法,其中所述参考视图被打包在所述图集中作为未修剪分块。4.一种用于渲染表示从3D场景中的观看边界框可见的所述3D场景的视口图像的方法,所述方法包括:

从数据流对图集图像和相关联的元数据进行解码,所述图集图像打包分块,分块是多视图+深度帧的视图的图像部分,所述图集图像包括表示从所述观看边界框可见的所述3D场景的信息,并且所述元数据包括将每个分块与视图相关联的信息和参考视图的标识符,与所述参考视图相关联的分块是参考分块;

通过以下方式针对所述观看边界框内的当前视点渲染所述视口图像:当两个分块对所述视口图像有贡献时,如果所述两个分块中的一个分块是参考分块,则将所述参考分块的所述贡献用于所述视口图像。5.根据权利要求4所述的方法,其中所述参考视图是所述图集的分块。6.一种用于在数据流中对3D场景进行编码的设备,所述3D场景被提供作为多视图+深度帧,所述设备包括处理器,所述处理器被配置用于:

基于从所述3D场景中的观看边界框中的平均位置对所述3D场景的视野覆盖,从所述多视图+深度帧选择视图作为参考视图;

生成打包分块的图集图...

【专利技术属性】
技术研发人员:J
申请(专利权)人:交互数字VC控股法国公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1