感兴趣空间的分层描述制造技术

技术编号:38201515 阅读:12 留言:0更新日期:2023-07-21 16:44
本公开的各方面提供了用于音频处理的方法和装置。在一些示例中,用于媒体处理的装置包括处理电路。处理电路接收与音频场景中的感兴趣空间的分层描述关联的音频输入。感兴趣空间包括多个子空间。分层描述包括第一层和第二层。第一层具有公共节点,公共节点具有第一值,第一值是多个子空间中的两个或更多个子空间的公共属性值。第二层具有分别与多个子空间中的每个子空间关联的单独节点。处理电路基于分层描述来确定感兴趣空间的多个子空间,并响应于音频场景的主体的位置在感兴趣空间中而基于音频输入来渲染音频输出。于音频输入来渲染音频输出。于音频输入来渲染音频输出。

【技术实现步骤摘要】
【国外来华专利技术】感兴趣空间的分层描述
[0001]相关申请的交叉引用
[0002]本公开要求于2022年5月23日提交的题为“LAYERED DESCRIPTION OF SPACE OF INTEREST”的美国专利申请第17/751425号的优先权,该美国专利申请要求于2021年7月1日提交题为“Layered Description of Space of Interest”的第63/217442号美国临时申请的优先权的权益,在先申请的公开内容全部通过引用并入本文。


[0003]本公开描述了总体上与音频处理相关的实施例。

技术介绍

[0004]本文所提供的背景描述是出于总体上呈现本公开的内容的目的。在
技术介绍
部分以及本说明书的各个方面中所描述的目前已署名的专利技术人的工作所进行的程度,并不表明其在本申请提交时作为现有技术,且从未明示或暗示其被承认为本公开的现有技术。
[0005]在虚拟现实或增强现实的应用中,为了使用户具有存在在应用的虚拟世界中的感觉,应用的虚拟场景中的音频被感知为在真实世界中,声音来自关联的虚拟场景的虚拟人物。在一些示例中,用户在现实世界中的物理运动被感知为在应用的虚拟场景中具有匹配的运动。此外,重要的是,用户可以使用被感知为真实的并且与用户在现实世界中的体验相匹配的音频来与虚拟场景进行交互。

技术实现思路

[0006]本公开的各方面提供了用于音频处理的方法和装置。在一些示例中,用于媒体处理的装置包括处理电路。处理电路接收与针对音频场景中的感兴趣空间的分层描述关联的音频输入。感兴趣空间包括多个子空间。分层描述包括第一层和第二层。第一层具有公共节点,公共节点具有第一值,第一值是多个子空间中的两个或更多个子空间的公共属性值。第二层具有分别与多个子空间中的每个子空间关联的单独节点。处理电路基于分层描述确定感兴趣空间的多个子空间,并响应于音频场景的主体的位置在感兴趣空间中,基于音频输入渲染音频输出。
[0007]在一些示例中,多个子空间是由至少位置属性、方向属性和尺寸属性定义的矩形框。
[0008]根据本公开的一些方面,公共节点标识针对属性的名称,第一值是属性的属性值,并且处理电路可以从第一层中的公共节点检索第一值作为针对多个子空间中的子空间的属性的属性值。
[0009]根据本公开的一些方面,公共节点标识属性的名称和属性的子字段的索引,第一值是针对属性的子字段的子字段属性值,并且处理电路从第一层中的公共节点检索第一值,作为针对多个子空间中的子空间的属性的子字段的子字段属性值。
[0010]在一些示例中,具有第一值的公共节点对于多个子空间是公共的,并且处理电路
从第一层中的公共节点检索第一值作为针对多个子空间中的每个子空间的属性的属性值。
[0011]在一些示例中,具有第一值的公共节点对于多个子空间的子集是公共的。,处理电路响应于与第一子空间关联的第一单独节点缺少针对属性的值而从第一层中的公共节点检索第一值作为针对第一子空间的属性的属性值。此外,处理电路响应于与和第二子空间关联的第二单独节点中的属性关联的第二值的存在,从第二单独节点检索与针对第二子空间的属性关联的第二值。
[0012]在一些示例中,具有第一值的公共节点对于多个子空间的子集是公共的。处理电路响应于与第一子空间关联的第一单独节点缺少属性的值而从第一层中的公共节点检索第一值作为第一子空间的属性的属性值。此外,处理电路从与第二子空间关联的第二单独节点,检索与第二子空间的属性关联的差值,并基于第一值和差值计算针对第二子空间的属性的第二值。
[0013]在一些示例中,处理电路接收携带音频输入和感兴趣空间的分层描述的比特流作为音频输入的元数据;并解码比特流以获得音频输入和感兴趣空间的分层描述。
[0014]在一些示例中,处理电路响应于音频场景的主体的位置位于感兴趣空间之外忽略音频输入而不进行渲染。
[0015]本公开的各方面还提供了一种存储指令的非暂时性计算机可读存储介质,该指令在由计算机执行时使计算机执行用于音频处理的方法。
附图说明
[0016]根据下面的详细描述和附图,所公开的主体的其他特征、性质以及各种优点将更加明显,在附图中:
[0017]图1示出了在一些示例中使用6个自由度(6degrees of freedom,6DoF)的环境的示意图。
[0018]图2示出了根据本公开的实施例的媒体系统的框图。
[0019]图3示出了在一些示例中被称为峡谷场景的音频场景。
[0020]图4示出了对峡谷场景中的感兴趣空间的描述。
[0021]图5示出了根据本公开的实施例的感兴趣空间的分层描述的语法。
[0022]图6示出了在一些示例中的感兴趣空间的分层描述。
[0023]图7示出了根据本公开的实施例的感兴趣空间的分层描述的语法。
[0024]图8示出了在一些示例中的感兴趣空间的分层描述。
[0025]图9示出了在一些示例中的感兴趣空间的分层描述。
[0026]图10示出了在一些示例中的感兴趣空间的分层描述。
[0027]图11示出了概述根据本公开的一些实施例的处理的流程图。
[0028]图12示出了概述根据本公开的一些实施例的处理的流程图。
[0029]图13示出了概述根据本公开的一些实施例的处理的流程图。
[0030]图14是根据一个实施例的计算机系统的示意图。
具体实施方式
[0031]本公开的各方面提供了针对音频场景的感兴趣空间的描述技术。具体地,该描述
技术可以提供音频场景中感兴趣空间的分层描述。音频场景中感兴趣空间的分层描述可以为音频编码、传输和渲染提供感兴趣空间的压缩信息。
[0032]通常,音频场景是由几个主要的声源表征的语义一致的声音片段。因此,音频场景可以被建模为声源集合。在一些示例中,音频场景由几个声源集合主导。音频场景中的感兴趣空间可以由音频场景中所考虑的感兴趣空间的边界来定义。音频场景的感兴趣空间可以在音频编码、处理、渲染等中被利用。
[0033]根据本公开的一些方面,一些技术试图通过被称为沉浸式媒体的数字模拟来创建或模仿物理世界。沉浸式媒体处理可以根据沉浸式媒体标准来实现,沉浸式媒体标准为例如运动图像专家组沉浸式(Moving Picture Expert Group Immersive,MPEG

I)系列标准,包括“沉浸式音频”、“沉浸式视频”和“系统支持”。沉浸式媒体标准可以支持VR或AR呈现,其中用户可以导航并与使用6个自由度(6DoF)环境交互,这6个自由度包括空间导航(x、y、z)和用户头部方向(偏航、俯仰、滚动)。
[0034]图1示出了在一些示例中使用6个自由度(6DoF)的环境的示意图。6个自由度(6DoF)可以用空间导航(x,y,z)和用户头部方向(偏航、俯仰、滚动)来表示。
[0035]根据本公开的一个方面,沉浸式媒体可以用于赋予用户实际上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备中的媒体处理的方法,包括:接收与针对音频场景中的感兴趣空间的分层描述关联的音频输入,所述感兴趣空间包括多个子空间,所述分层描述包括第一层和第二层,所述第一层具有公共节点,所述公共节点具有第一值,所述第一值是所述多个子空间中的两个或更多个子空间的公共属性值,而所述第二层具有分别与所述多个子空间中的每个子空间关联的单独节点;由所述设备的处理器,基于所述分层描述来确定所述感兴趣空间的所述多个子空间;以及由所述处理器响应于所述音频场景的主体的位置在所述感兴趣空间中而基于所述音频输入来渲染音频输出。2.根据权利要求1所述的方法,其中,所述多个子空间是由至少位置属性、方向属性和尺寸属性定义的矩形框。3.根据权利要求1所述的方法,其中,所述公共节点标识针对属性的名称,且所述第一值是所述属性的属性值,并且所述确定所述多个子空间包括:从所述第一层中的所述公共节点检索所述第一值作为针对所述多个子空间中的子空间的所述属性的属性值。4.根据权利要求1所述的方法,其中,所述公共节点标识属性的名称和所述属性的子字段的索引,所述第一值是针对所述属性的所述子字段的子字段属性值,并且所述确定所述多个子空间包括:从所述第一层中的所述公共节点检索所述第一值,作为针对所述多个子空间中的子空间的所述属性的所述子字段的所述子字段属性值。5.根据权利要求1所述的方法,其中,具有所述第一值的所述公共节点对于所述多个子空间是公共的,并且所述确定所述多个子空间还包括:从所述第一层中的所述公共节点检索所述第一值作为针对所述多个子空间中的每个子空间的属性的属性值。6.根据权利要求1所述的方法,其中,具有所述第一值的所述公共节点对于所述多个子空间的子集是公共的,并且所述确定所述多个子空间还包括:响应于与第一子空间关联的第一单独节点缺少针对属性的值,从所述第一层中的所述公共节点检索所述第一值作为所述第一子空间的所述属性的属性值;以及响应于与和第二子空间关联的第二单独节点中的属性关联的第二值的存在,从所述第二单独节点检索与针对所述第二子空间的所述属性关联的第二值。7.根据权利要求1所述的方法,其中,具有所述第一值的所述公共节点对于所述多个子空间的子集是公共的,并且所述确定所述多个子空间还包括:响应于与第一子空间关联的第一单独节点缺少属性的值,从所述第一层中的所述公共节点,检索所述第一值作为所述第一子空间的所述属性的属性值;从与第二子空间关联的第二单独节点,检索与所述第二子空间的所述属性关联的差值;以及基于所述第一值和所述差值计算针对所述第二子空间的所述属性的第二值。8.根据权利要求1所述的方法,还包括:接收携带所述音频输入和所述感兴趣空间的分层描述的比特流作为所述音频输入的
元数据;以及解码所述比特流以获得所述音频输入和所述感兴趣空间的分层描述。9.根据权利要求1所述的方法,还包括:响应于所述音频场景的主体的位置位于所述感兴趣空间之外,忽略所述音频输入而不进行渲染。10.一种媒体处理装置,包括处理电路,所述处理电路被配置为:接收与针对音频场景中的感兴趣空间的分层描述关联的音频输入,所述感兴趣空间包括多个子空间,所述分层描述包括第一层和第二层,所述第一层具有公共节点,所述公共节点具有第一值,所述第一值是所述多个子空间中的两个或更多个子空间的公共属性值,而所述第二层具有分别与所述多个子空间中的每个子空间关联的单独节...

【专利技术属性】
技术研发人员:田军许晓中刘杉
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1