用于虚拟现实应用的音频传递优化制造技术

技术编号:37701485 阅读:24 留言:0更新日期:2023-06-01 23:46
公开了用于虚拟现实VR、增强现实AR、混合现实MR或360度视频环境的技术、系统、方法和指令。在一个示例中,系统(102)包括至少一个媒体视频解码器,被配置为解码来自视频流的视频信号,以向用户表示VR、AR、MR或360度视频环境场景。系统包括至少一个音频解码器(104),被配置为从至少一个音频流(106)中解码音频信号(108)。系统(102)被配置为至少基于用户的当前视口和/或头部取向和/或移动数据和/或交互元数据和/或虚拟位置数据(110),向服务器(120)请求(112)至少一个音频流(106)和/或音频流的一个音频元素和/或一个适应集。一个音频元素和/或一个适应集。一个音频元素和/或一个适应集。

【技术实现步骤摘要】
用于虚拟现实应用的音频传递优化
[0001]本申请是申请日为2018年10月11日的PCT国际申请PCT/EP2018/077770在2020年6月11日向中国专利局递交并进入中国国家阶段后对应的题为“用于虚拟现实应用的音频传递优化”的专利技术专利申请No.201880080196.6的分案申请。

技术介绍

[0002]说明
[0003]介绍
[0004]在虚拟现实(VR)环境中或类似地在增强现实(AR)或混合现实(MR)或360度视频环境中,用户通常可以使用例如头戴式显示器(HMD)来可视化完全360度内容并通过耳机(或类似地通过扩音器,包括取决于其位置的正确渲染)收听。
[0005]在简单的用例中,以这样的方式授权内容:在特定的时间点仅再现一个音频/视频场景(例如,360度视频)。音频/视频场景具有固定位置(例如,用户位于中心的球体),并且用户可能不在场景中移动,而是仅在各种方向(偏航、俯仰、横滚)上旋转他的头部。在这种情况下,基于用户头部的取向向用户播放不同的视频和音频(显示不同的视口)。
[0006]然而,对于视频,视频内容连同用于描述渲染过程的元数据(例如,拼接信息、投影映射等)一起被传送用于整个360度场景,并基于当前用户的视口进行选择,对于音频,针对整个场景内容都一样。基于元数据,音频内容适应于当前用户的视口(例如,基于视口/用户取向信息,音频对象被不同地呈现)。应当注意,360度内容是指用户可以(例如通过用户头部取向或通过使用遥控器)从其选择的包括相同时刻处的一个以上视角的任何类型的内容
[0007]在更复杂的场景中,当用户可以在VR场景中移动或从一个场景“跳”到下一个场景时,音频内容也可能改变(例如,在一个场景中不可听见的音频源可能在下一个场景听得见
‑“
门被打开”)。使用现有系统,可以将完整的音频场景编码为一个流,并且如果需要,还可以编码为附加流(取决于主流)。这样的系统被称为下一代音频系统(例如,MPEG

H 3D音频)。这种用例的示例可以包含:
[0008]·
示例1:用户选择进入新房间,并且整个音频/视频场景改变
[0009]·
示例2:用户在VR场景中移动、打开门并走过去,意味着需要将音频从一个场景转变到下一个场景
[0010]为了描述该场景,空间中的离散视点的概念被引入,作为空间中(或VR环境中)的离散位置,针对所述离散位置,不同的音频/视频内容是可用的。
[0011]“直接”方案将具有实时编码器,该实时编码器基于来自回放设备的关于用户位置/取向的反馈来改变编码(音频元素的数量、空间信息等)。该方案意味着例如在流环境中客户端与服务器之间的非常复杂的通信:
[0012]·
客户端(通常假定仅使用简单的逻辑)将需要先进的机制,以不仅传达对不同流的请求,而且传达与将基于用户的位置来实现正确内容的处理的编码细节有关的复杂信息。
[0013]·
媒体服务器通常预先填充有不同的流(以允许“分段方式”传递的特定方式格式化),并且服务器的主要功能是提供有关可用流的信息并在被请求时引起它们的传递。为了实现允许基于来自回放设备的反馈进行编码的场景,媒体服务器将需要与多个实时媒体编码器的先进通信链路,以及即时(on the fly)创建可能实时改变的所有信令信息(例如,媒体表示描述)的能力。
[0014]尽管可以想象这样的系统,但是其复杂性和计算要求超出了当今可用的设备和系统的功能和特性,或者甚至将在未来几十年内开发出来。
[0015]备选地,表示完整的VR环境(“完整的世界”)的内容可以一直传递。这将解决问题,但将需要超出可用通信链路能力的巨大比特率。
[0016]对于实时环境,这很复杂,并且为了使用可用系统来实现这样的用例,提出了以较低复杂度实现该功能的备选方案。
[0017]2.术语和定义
[0018]在
中使用以下术语:
[0019]·
音频元素:可以表示为例如音频对象、音频通道、基于场景的音频(高阶环境立体声

HOA)或全部中的任意组合的音频信号。
[0020]·
感兴趣区域(ROI):在某一时刻用户感兴趣的视频内容(或显示或模拟的环境)的一个区域。这通常可以是例如球体上的区域,或者是来自2D地图的多边形选择。ROI针对特定目的识别特定区域,定义所考虑的对象的边界。
[0021]·
用户位置信息:位置信息(例如,x、y、z坐标)、取向信息(偏航、俯仰、横滚)以及移动方向和速度等。
[0022]视口:当前显示和用户查看的部分球形视频。
[0023]·
视点:视口的中心点。
[0024]·
360度视频(也称为沉浸式视频或球形视频):在本文档的上下文中表示一种视频内容,该视频内容包含在相同时刻在一个方向上的一个以上的视图(即,视口)。可以例如使用全向相机或相机集合来创建这样的内容。在回放期间,观看者可以控制观看方向。
[0025]·
媒体呈现描述(MPD)是一种包含有关媒体分段的信息、它们之间的关系以及在它们之间进行选择所必需的信息的语法例如XML。
[0026]·
适应集包含媒体流或媒体流集。在最简单的情况下,一个适应集包含内容的所有音频和视频,但是为了减少带宽,可以将每个流拆分为不同的适应集。常见的情况是具有一个视频适应集和多个音频适应集(每个针对每一种支持的语言)。适应集还可以包含字幕或任意元数据。
[0027]·
表示(Representation)允许适应集包含以不同方式编码的相同内容。在大多数情况下,将以多种比特率提供表示。这允许客户端请求他们可以播放的最高质量的内容,而不必等待缓冲。表示也可以使用不同的编解码器进行编码,允许支持具有不同支持的编解码器的客户端。
[0028]在本申请的上下文中,适应集的概念被更通用地使用,有时实际上是指表示。此外,通常将媒体流(音频/视频流)首先封装到媒体片段中,该媒体片段是由客户端(例如,DASH客户端)播放的实际媒体文件。各种格式可以用于媒体片段,例如类似于MPEG

4容器格式的ISO基本媒体文件格式(ISOBMFF)或MPEG

2传输流(TS)。封装到媒体片段中和封装在不
同的表示/适应集中与本文中描述的方法无关,这些方法适用于所有各种选项。
[0029]此外,本文档中方法的描述以DASH服务器

客户端通信为中心,但是这些方法具有足以可以与其他传递环境(例如MMT、MPEG

2TS、DASH

ROUTE、用于文件播放的文件格式等)一起使用的通用性。
[0030]一般而言,适应集相对于流在较高层,并且可以包括元数据(例如,与位置相关联)。流可以包括多个音频元素。音频场景可以与作为多个适应集的一部分传递的多个流相关联。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于接收要在媒体消费设备中再现的音频流的系统(102),其中所述系统(102)包括:至少一个音频解码器(104),被配置为从多个音频流(106)中解码音频信号(108),以表示音频场景,以及混合器,混合从不同音频流中解码的不同音频信号,其中,所述系统(102)被配置为:至少基于用户的当前移动数据和/或交互元数据和/或虚拟位置数据(110),请求(112)至少一个音频流(106)和/或音频流的一个音频元素和/或一个适应集。2.根据权利要求1所述的系统,被配置为输出用户的当前移动数据和/或交互元数据和/或虚拟位置数据(110),以便获得至少一个音频流(106)和/或音频流的一个音频元素和/或一个适应集。3.根据权利要求1所述的系统,其中,至少一个场景与至少一个音频元素(152)相关联,每个音频元素与其中所述音频元素能够听见的环境中的位置和/或区域相关联,使得针对所述场景中不同的用户的移动数据和/或交互元数据和/或虚拟位置数据,提供不同的音频流。4.根据权利要求1所述的系统,被配置为决定是否要为当前用户的移动数据和/或交互元数据和/或虚拟位置再现音频流的至少一个音频元素和/或一个适应集,其中所述系统被配置为请求和/或接收当前用户的虚拟位置处的至少一个音频元素。5.根据权利要求1所述的系统,其中,所述系统被配置为至少基于用户的当前移动数据和/或交互元数据和/或虚拟位置数据(110),预测性地决定音频流的至少一个音频元素(152)和/或一个适应集是否将变得相关和/或能够听见,其中所述系统被配置为在场景中预测的用户的移动和/或交互之前,请求和/或接收所述至少一个音频元素和/或音频流和/或适应集,并且其中所述系统被配置为在所述场景中所述用户的移动和/或交互之后,当接收到所述至少一个音频元素和/或音频流时,在特定的用户的虚拟位置处再现所述至少一个音频元素和/或音频流。6.根据权利要求1所述的系统,被配置为在所述场景中用户的移动和/或交互之前,在用户的虚拟位置以较低的比特率和/或质量水平请求和/或接收至少一个音频元素(152),其中,所述系统被配置为在场景中所述用户的移动和/或交互之后,以较高的比特率和/或质量水平请求和/或接收所述至少一个音频元素。7.根据权利要求1所述的系统,其中,至少一个音频元素(152)与至少一个场景相关联,每个音频元素与关联到场景的环境中的位置和/或区域相关联,其中,所述系统配置为针对与更远离用户的元素相比更靠近用户的音频元素,以较高的比特率和/或质量请求和/或接收流。8.根据权利要求1所述的系统,其中至少一个音频元素(152)与至少一个场景相关联,所述至少一个音频元素与关联到场景的环境中的位置和/或区域相关联,其中,所述系统被配置为基于音频元素在场景中每个用户的虚拟位置处的相关性和/或可听性级别,以不同比特率和/或质量水平请求不同流,其中,所述系统被配置为针对在所述当前用户的虚拟位置处更相关和/或更能够听见
的音频元素以较高的比特率和/或质量水平请求所述至少一个适应集的音频流,和/或针对在当前用户的虚拟位置处不太相关和/或不太能够听见的音频元素,以较低的比特率和/或质量水平请求音频流。9.根据权利要求1所述的系统,所述至少一个音频元素(152)与场景相关联,每个音频元素与关联到场景的环境中的位置和/或区域相关联,其中,所述系统配置为定期输出所述用户的当前移动数据和/或交互元数据和/或虚拟位置数据(110),使得:针对第一位置,以较高的比特率和/或质量接收流,以及针对第二位置,以较低的比特率和/或质量接收流,其中所述第一位置比所述第二位置更靠近所述至少一个音频元素(152)。10.根据权利要求1所述的系统,针对多个环境定义多个场景(150A、150B),所述多个环境是邻近和/或相邻环境,使得提供与第一当前场景相关联的第一流,并且在用户到第二其他场景的转换的情况下,提供与所述第一场景相关联的流和与所述第二场景相关联的第二流两者。11.根据权利要求1所述的系统,其中,针对第一和第二环境定义多个场景(150A、150B),所述第一和第二环境是邻近和/或相邻环境,其中,在所述用户的位置或虚拟位置在与所述第一场景相关联的第一环境中的情况下,接收与所述第一场景相关联的第一流,以再现所述第一场景,在所述用户的位置或虚拟位置在与所述第二场景相关联的第二环境中的情况下,接收与所述第二场景相关联的第二流,以再现所述第二音频场景,以及在所述用户的位置或虚拟位置在所述第一场景和所述第二场景之间的转换位置中的情况下,提供与所述第一场景相关联的第一流和与所述第二场景相关联的第二流二者。12.根据权利要求1所述的系统,其中,针对第一和第二环境定义多个场景(150A、150B),所述第一和第二环境是邻近和/或相邻环境,其中所述系统被配置为在所述用户的虚拟位置在所述第一环境中的情况下,请求和/或接收与关联到所述第一环境的第一场景(150A)相关联的第一流,以再现所述第一场景,其中,所述系统被配置为在所述用户的虚拟位置在所述第二环境中的情况下,请求和/或接收与关联到所述第二环境的第二场景(150B)相关联的第二流,以再现所述第二场景,并且其中所述系统被配置为在所述用户的位置或虚拟位置在所述第一环境和所述第二环境之间的转换位置(150AB)中的情况下,请求和/或接收与所述第一场景相关联的第一流和与所述第二场景相关联的第二流二者。13.根据权利要求10所述系统,其中,当所述用户在与所述第一场景相关联的第一环境中时,与所述第一场景相关联的所述第一流以较高的比特率和/或比特率获得,而当所述用户处于从所述第一场景到所述第二场景的转换的开始时,与关联到所述第二环境的所述第二场景相关联的所述第二流以较低的比特率和/或质量获得,并且当所述用户处于从所述第一场景到所述第二场景的转换位置的末端时,与所述第一场景相关联的所述第一流以较低的比特率和/或质量获得,并且与所述第二场景相关联的所
述第二流以较高的比特率和/或质量获得,其中,所述较低的比特率和/或质量低于所述较高的比特率和/或质量。14.根据权利要求1所述的系统,其中,针对多个环境定义多个场景(150A、150B),所述多个环境是邻近和/或相邻环境,使得所述系统被配置为获取与关联到第一当前环境的第一当前场景相关联的流,以及在用户的位置或虚拟位置距场景的边界的距离低于预定阈值的情况下或者在第二场景的相关性或可听性高于预定阈值的情况下,所述系统进一步获取与关联到第二场景的第二邻近和/或相邻环境相关联的音频流。15.根据权利要求1所述的系统,其中,针对多个环境定义多个场景(150A、150B),使得所述系统以较高的比特率和/或质量来请求和/或获得与当前场景相关联的流,以及以较低的比特率和/或质量来请求和/或获得与所述第二场景相关联的流,其中,所述较低的比特率和/或质量低于所述较高的比特率和/或质量。16.根据权利要求1所述的系统,其中,定义了多个N个音频元素,并且在用户到这些音频元素的位置或区域的距离大于预定阈值的情况下,处理N个音频元素以获得与靠近所述N个音频元素的位置或区域的位置或区域相关联的较少数量M个音频元素(M<N),以:在所述用户到所述N个音频元素的位置或区域的距离小于预定阈值的情况下,向所述系统提供与所述N个音频元素相关联的至少一个音频流,或者在所述用户到所述N个音频元素的位置或区域的距离大于预定阈值的情况下,向所述系统提供与所述M个音频元素相关联的至少一个音频流。17.根据权利要求1所述的系统,其中,至少一个环境场景与至少一个多个N个音频元素(N>=2)相关联,每个音频元素与所述环境中的位置和/或区域相关联,其中,以高比特率和/或质量以至少一个表示来提供至少所述至少一个多个N个音频元素,以及其中以低比特率和/或质量以至少一个表示来提供至少所述至少一个多个N个音频元素,其中通过处理所述N个音频元素以获得与靠近所述N个音频元素的位置或区域的位置或区域相关联的较少数量M个音频元素(M<N),来获得至少一个表示,其中,所述系统被配置为在所述音频元素在所述当前用户在所述场景中的虚拟位置处更相关和/或更能够听见的情况下,针对所述音频元素以较高的比特率和/或质量水平来请求所述表示,其中,所述系统被配置为在所述音频元素在所述当前用户在所述场景中的虚拟位置处更不相关和/或更不能够听见的情况下,针对所述音频元素以较低的...

【专利技术属性】
技术研发人员:阿德里安
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1