用于场景相关的收听者空间自适应的方法和装置制造方法及图纸

技术编号:38936775 阅读:17 留言:0更新日期:2023-09-25 09:38
一种用于渲染组合音频场景的装置,其包括被配置为执行以下操作的部件:获得被配置为针对第一音频场景(101)定义第一音频场景参数的信息;获得被配置为针对其他音频场景(113)定义其他音频场景参数的其他信息;识别用于至少部分地修改第一音频场景的位置(115),该位置能够至少部分地基于其他音频场景参数来配置;以及通过基于其他音频场景参数至少部分地修改第一音频场景来准备组合音频场景以用于渲染,以使得组合音频场景的渲染包含基于使用其他场景参数所识别的位置而至少部分地修改的第一音频场景。第一音频场景。第一音频场景。

【技术实现步骤摘要】
【国外来华专利技术】用于场景相关的收听者空间自适应的方法和装置


[0001]本申请涉及用于场景相关的收听者空间自适应的方法和装置,但不仅仅限于用于针对6自由度渲染的场景相关的收听者空间自适应的方法和装置。

技术介绍

[0002]随着时间的推移,向佩戴头戴式设备(HMD)的用户呈现虚拟场景的增强现实(AR)应用(和其他类似的虚拟场景创建应用,诸如混合现实(MR)和虚拟现实(VR))变得更加复杂和精密。该应用可以包括数据,其包括被呈现给用户的视觉分量(或叠加)和音频分量(或叠加)。可以根据用户在增强现实(AR)场景内的位置和定向(针对6自由度应用),将这些分量提供给用户。
[0003]用于渲染AR场景的场景信息通常包括两个部分。一个部分是虚拟场景信息,其可以在内容创建期间(或由合适的捕获装置或设备)描述,并表示如所捕获的(或最初生成的)场景。虚拟场景可以在编码器输入格式(EIF)数据格式中提供。编码器使用EIF和(所捕获的或所生成的)音频数据来生成场景描述和空间音频元数据(以及音频信号),可以经由比特流将其传送到渲染(播放)设备或装置。EIF是在MPEG音频编码(ISO/IEC JTC1 SC29 WG6)中开发的并在针对关于MPEG

I 6DoF音频的提案征集(CfP)开发的MPEG

I 6DoF音频编码器输入格式中描述的场景描述格式。该实现根据该规范来描述,但还可以使用可由内容创建器提供或使用的其他场景描述格式。
[0004]根据EIF规范,编码器输入数据包含描述MPEG

I 6DoF音频场景的信息。这涵盖了虚拟听觉场景的所有内容,即其所有声源和资源数据,诸如音频波形、源辐射模式、关于声学环境的信息等。输入数据还允许描述场景的变化。这些变化(被称为更新)可以在不同的时间发生,从而允许将场景制作成动画(例如,移动对象)。可替代地,它们可以被手动触发或者由条件(例如,收听者进入附近)触发或者从外部实体被动态地更新。
[0005]AR音频场景渲染的第二部分与收听者(或终端用户)的物理收听空间(或物理空间)相关。可以在AR渲染期间(当收听者正在消费内容时)获得场景或收听者空间信息。
[0006]因此,在实现AR应用(与例如仅以所捕获的虚拟场景为特征的虚拟现实应用相比)时,渲染器必须考虑虚拟场景声学特性以及由其中内容正被消费的物理空间产生的声学特性。
[0007]物理收听空间信息可以被提供为XML文件,例如在MPEG

I内的收听空间描述文件(LSDF)格式中提供。渲染设备可以在渲染期间获得LSDF信息。例如,可以使用渲染设备周围的感测或测量或者一些其他手段(诸如描述收听空间声学的文件或数据条目)来获得LSDF信息。LSDF仅仅是文件格式的一个示例,其促进描述收听空间几何形状和声学特性。在不同的实现实施例中,可以以任何合适的格式(诸如glTF(GL传输格式,https://www.khronos.org/gltf/)、JSON等)提供任何合适的物理收听空间描述。
[0008]图1示出了其中虚拟场景位于物理收听空间内的示例场景。在该示例中,存在位于物理收听空间101内的用户107。此外,在该示例中,用户109正在体验具有虚拟场景元素的
六自由度(6DOF)虚拟场景113。在该示例中,虚拟场景113元素由两个音频对象(第一对象103(吉他手)和第二对象105(鼓手))、虚拟遮挡元素(例如,被表示为虚拟隔板117)和虚拟房间115(例如,具有墙壁,其具有在虚拟场景描述内定义的大小、位置、声学材料)表示。渲染器(其在该示例中是手持式电子设备或装置111)需要收听者的物理空间101的声学特性以执行渲染,以使得可听化对于用户的物理收听空间(例如,墙壁的位置和墙壁的声学材料特性)来说是合理的。在该示例中,由合适的头戴式耳机或头戴式设备109向用户107呈现渲染。

技术实现思路

[0009]根据第一方面,提供了一种用于渲染组合音频场景的装置,其包括被配置为执行以下操作的部件:获得被配置为针对第一音频场景定义第一音频场景参数的信息;获得被配置为针对其他音频场景定义其他音频场景参数的其他信息;识别用于至少部分地修改第一音频场景的位置,该位置能够至少部分地基于其他音频场景参数来配置;以及通过基于其他音频场景参数至少部分地修改第一音频场景来准备组合音频场景以用于渲染,以使得组合音频场景的渲染包含基于使用其他场景参数所识别的位置而至少部分地修改的第一音频场景。
[0010]被配置为获得被配置为针对第一音频场景定义第一音频场景参数的信息的部件可以用于定义第一音频场景几何形状。
[0011]被配置为识别用于至少部分地修改第一音频场景的位置的部件可以被配置为:进一步基于被配置为定义第一音频场景几何形状的信息,识别用于至少部分地修改第一音频场景几何形状的位置。
[0012]被配置为获得被配置为针对其他音频场景定义其他音频场景参数的其他信息的部件可以被配置为:在接收比特流内获得被配置为定义其他音频场景几何形状和其他音频场景声学特性的信息,该接收比特流包括:被配置为定义其他音频场景几何形状的至少一个其他音频场景参数;其他音频场景声学特性;以及至少一个音频源参数。
[0013]被配置为定义其他音频场景参数的其他信息可以包括被配置为控制至少部分地修改第一音频场景的其他音频场景信息。
[0014]被配置为控制至少部分地修改第一音频场景的其他音频场景信息可以包括以下中的至少一项:面板大小参数,其被配置为定义用于至少部分地修改第一音频场景的面板的大小;面板材料参数,其被配置为定义在用于至少部分地修改第一音频场景的面板中使用的材料;面板偏移参数,其被配置为定义面板位置相对于用于至少部分地修改第一音频场景的位置的偏移;面板定向参数,其被配置为定义面板位置相对于用于至少部分地修改第一音频场景的位置的定向;声学环境参数,其被配置为至少部分地定义第一音频场景;以及模式参数,其被配置为基于用户交互输入定义其他音频场景信息是否适用。
[0015]被配置为控制至少部分地修改第一音频场景的其他音频场景信息可以进一步包括以下中的至少一项:与其他音频场景相关联的几何形状信息;其他音频场景内的至少一个音频元素的位置;其他音频场景内的至少一个音频元素的形状;其他音频场景内的至少一个音频元素的声学材料特性;其他音频场景内的至少一个音频元素的散射特性;其他音频场景内的至少一个音频元素的透射特性;其他音频场景内的至少一个音频元素的混响时
间特性;以及其他音频场景内的至少一个音频元素的扩散对直接声音比率特性。
[0016]被配置为获得被配置为针对其他音频场景定义其他音频场景参数的其他信息的部件可以被配置为获得以下中的至少一项:其他音频场景几何形状;以及其他音频场景声学特性。
[0017]其他音频场景可以是虚拟场景。
[0018]被配置为针对其他音频场景定义其他音频场景参数的其他信息可以在编码器信息格式内。
[0019]第一音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于渲染组合音频场景的装置,包括被配置为执行以下操作的部件:获得被配置为针对第一音频场景定义第一音频场景参数的信息;获得被配置为针对其他音频场景定义其他音频场景参数的其他信息;识别用于至少部分地修改所述第一音频场景的位置,所述位置能够至少部分地基于所述其他音频场景参数来配置;以及通过基于所述其他音频场景参数至少部分地修改所述第一音频场景来准备所述组合音频场景以用于渲染,以使得所述组合音频场景的渲染包含基于使用所述其他场景参数所识别的位置而至少部分地修改的第一音频场景。2.根据权利要求1所述的装置,其中,被配置为获得被配置为针对所述第一音频场景定义所述第一音频场景参数的信息的部件用于定义第一音频场景几何形状。3.根据权利要求2所述的装置,其中,被配置为识别用于至少部分地修改所述第一音频场景的位置的部件被配置为:进一步基于被配置为定义所述第一音频场景几何形状的信息,识别用于至少部分地修改所述第一音频场景几何形状的位置。4.根据权利要求1至3中任一项所述的装置,其中,被配置为获得被配置为针对所述其他音频场景定义所述其他音频场景参数的所述其他信息的部件被配置为:在接收比特流内获得被配置为定义其他音频场景几何形状和其他音频场景声学特性的信息,所述接收比特流包括:被配置为定义所述其他音频场景几何形状的所述至少一个其他音频场景参数;所述其他音频场景声学特性;以及至少一个音频源参数。5.根据权利要求1至4中任一项所述的装置,其中,被配置为定义所述其他音频场景参数的所述其他信息包括被配置为控制至少部分地修改所述第一音频场景的其他音频场景信息。6.根据权利要求5所述的装置,其中,被配置为控制至少部分地修改所述第一音频场景的所述其他音频场景信息包括以下中的至少一项:面板大小参数,其被配置为定义用于至少部分地修改所述第一音频场景的面板的大小;面板材料参数,其被配置为定义在用于至少部分地修改所述第一音频场景的所述面板中使用的材料;面板偏移参数,其被配置为定义面板位置相对于用于至少部分地修改所述第一音频场景的位置的偏移;面板定向参数,其被配置为定义面板位置相对于用于至少部分地修改所述第一音频场景的位置的定向;声学环境参数,其被配置为至少部分地定义所述第一音频场景;以及模式参数,其被配置为基于用户交互输入定义所述其他音频场景信息是否适用。7.根据权利要求5或6中任一项所述的装置,其中,被配置为控制至少部分地修改所述第一音频场景的所述其他音频场景信息进一步包括以下中的至少一项:与所述其他音频场景相关联的几何形状信息;所述其他音频场景内的至少一个音频元素的位置;所述其他音频场景内的至少一个音频元素的形状;所述其他音频场景内的至少一个音频元素的声学材料特性;
所述其他音频场景内的至少一个音频元素的散射特性;所述其他音频场景内的至少一个音频元素的透射特性;所述其他音频场景内的至少一个音频元素的混响时间特性;以及所述其他音频场景内的至少一个音频元素的扩散对直接声音比率特性。8.根据权利要求1至3中任一项所述的装置,其中,被配置为获得被配置为针对所述其他音频场景定义所述其他音频场景参数的其他信息的部件被配置为获得以下中的至少一项:其他音频场景几何形状;以及其他音频场景声学特性。9.根据权利要求1至8中任一项所述的装置,其中,所述其他音频场景是虚拟场景。10.根据权利要求8或从属于权利要求8的任一项权利要求所述的装置,其中,被配置为针对所述其他音频场景定义所述其他音频场景参数的所述其他...

【专利技术属性】
技术研发人员:J
申请(专利权)人:诺基亚技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1