System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于高效编码场景位置的方法和系统技术方案_技高网
当前位置: 首页 > 专利查询>苹果公司专利>正文

用于高效编码场景位置的方法和系统技术方案

技术编号:40800502 阅读:2 留言:0更新日期:2024-03-28 19:26
本公开涉及用于高效编码场景位置的方法和系统。一种方法包括:接收位流,该位流包括:与3D场景内的声源相关联的音频信号的编码版本,包括相对于第二场景的原点的第一场景的原点的场景树结构,和该声源在第一场景内的相对于第一场景的原点的位置,其中该位置使用标识符来引用第一场景的原点,其中该场景树结构定义声源相对于第一和第二场景的初始配置;确定收听者的位置;通过根据声源相对于收听者的位置的位置将音频信号在空间上渲染来产生一组空间渲染音频信号;以及使用该空间渲染音频信号来驱动扬声器。

【技术实现步骤摘要】

本专利技术的一方面涉及一种系统,该系统可包括以下中的至少一者:编码器,该编码器将三维(3d)场景作为场景树结构编码到位流中,和解码器,该解码器接收具有该场景树结构的位流并且基于收听者的位置在空间上渲染该3d场景。还描述了其他方面。


技术介绍

1、如今,许多设备向用户提供在互联网上流式传输媒体内容(诸如可包括音乐、播客、实况录制的短视频片段或正片的声音节目)的能力。例如,回放设备(诸如数字媒体播放器)可电子耦接到诸如扬声器的输出设备(或输出设备的一部分),并且可被配置为流式传输内容以通过扬声器进行回放。该内容可由用户选择(例如,通过回放设备的图形用户界面),并且从在订阅基础上提供内容的一个或多个内容提供者流式传输。


技术实现思路

1、本专利技术的一个方面包括一种(例如,由音频编解码器系统的解码器侧执行的)方法,该方法包括:接收位流,该位流包括:与三维(3d)场景内的声源相关联的音频信号的编码版本,包括相对于第二3d场景的原点的第一3d场景的原点的场景树结构,和声源在第一3d场景内的相对于第一3d场景的原点的位置,其中该位置使用标识符来引用第一3d场景的原点,其中该场景树结构定义声源相对于第一和第二3d场景的初始配置;确定收听者相对于第一3d场景的原点的位置;通过根据声源相对于收听者的位置的位置将音频信号在空间上渲染来产生一组空间渲染音频信号;以及使用该组空间渲染音频信号来驱动一组扬声器产生该声源。

2、在一个方面,标识符是第一标识符,其中第一3d场景的原点包括第一标识符和第一3d场景的原点相对于第二3d场景的原点的位置,其中第一3d场景的原点的位置使用第二标识符来引用第二3d场景的原点。另一方面,第一和第二标识符作为六位整数存储于位流内。在一些方面,位流为第一位流,其中该方法还包括:接收包括位置更新有效载荷的第二位流,该位置更新有效载荷包括第一3d场景的原点相对于第二3d场景的原点的新位置,该新位置使用第二标识符来引用第二3d场景的原点;以及确定声源的位置已经相对于第一3d场景的原点从其原始位置到其新位置的移动而移动;基于声源的位置的移动来调整音频信号的空间渲染。

3、在一个方面,声源的位置包括最大距离参数和编码位置数据,其中该方法还包括基于最大距离参数和编码位置数据来确定声源在空间分辨率下的解码位置,其中使用声源相对于收听者的位置的解码位置来在空间上渲染音频信号。另一方面,3d场景是正通过位流接收的音频节目的一部分,其中空间分辨率在该音频节目的回放会话期间随着声源的位置在3d场景内改变而保持恒定。在一些方面,最大距离参数是第一最大距离参数并且空间分辨率是第一空间分辨率,该方法还包括:接收声源的新位置,该新位置包括第二最大距离参数和新的编码位置数据;以及基于第二最大距离参数和新的编码位置数据来确定声源在第二空间分辨率下的新的解码位置,其中第二空间分辨率与第一空间分辨率不同。

4、在一个方面,音频信号与音频节目相关联,其中位置是在音频节目开始时声源在第一3d场景内的初始位置。另一方面,位流是第一位流,其中该方法还包括:获得第二位流,该第二位流包括:音频信号的编码版本和声源相对于第一3d场景的原点的新位置,该新位置与声源的位置不同,该新位置使用标识符来引用第一3d场景的原点;以及基于该新位置来调整音频信号的空间渲染。在一些方面,第一和第二位流包括指示原点是否将更新的单个位。在一些方面,第二3d场景是3d全局场景,并且第一3d场景是位于3d全局场景内的3d子场景。另一方面,收听者的位置在3d子场景内。

5、在一个方面,声源的位置包括以下中的至少一者:1)由标识符引用的第一3d场景的原点的位置;和2)在坐标系内相对于第一3d场景的原点的编码坐标数据,和指示声源相对于第一3d场景的原点的取向的编码旋转数据。

6、另一方面,编码位置数据包括最大距离参数并且编码坐标数据包括一组编码笛卡尔坐标,其中该方法还包括通过用最大距离参数缩放编码笛卡尔坐标的归一化集合来确定声源在坐标系内相对于第一3d场景的原点的位置的一组笛卡尔坐标。在一些方面,每个归一化一组笛卡尔坐标是十位整数,并且最大距离参数是四位整数,它们存储在位流内。

7、在一个方面,该方法还包括基于所接收位流中的四位标识符来确定每个编码笛卡尔坐标的添加位的数量;为每个编码笛卡尔坐标确定包括添加位的数量的总位数,其中总位数包括至少六个位,其中根据总位数来缩放编码笛卡尔坐标的归一化集合。另一方面,编码位置数据包括一组编码球面坐标,该编码球面坐标包括编码方位角值、编码仰角值和编码半径,其中该方法还包括确定声源在坐标系内相对于第一3d场景的原点的位置的一组球面坐标,该球面坐标包括分别基于编码方位角值和编码仰角值的使用第一归一化函数的方位角值和仰角值,以及基于编码半径的使用第二归一化函数的半径。在一个方面,编码方位角值是至少七个位的整数,编码仰角值是至少六个位的整数,并且编码半径值是至少五个位的整数。另一方面,该方法还包括基于一位值来确定声源的位置是否包括旋转数据;以及响应于确定声源的位置包括旋转数据,从位流提取指示声源的取向的四个编码四元数,其中每个编码四元数是大小为至少八个位的整数,一组空间渲染音频信号基于该四个编码四元数而在空间上渲染。

8、在一个方面,编码位置数据包括最大距离参数和第一一组球面坐标,该第一一组球面坐标包括方位角值、仰角值和归一化半径,其中该方法还包括确定声源在坐标系内相对于第一3d场景的原点的位置的第二一组球面坐标,该第二一组球面坐标包括方位角值、仰角值和为利用最大距离参数缩放的归一化半径的半径。在一些方面,方位角值是十一位整数,仰角值是十位整数,并且归一化半径是八位整数。另一方面,位置数据还包括指示声源相对于第一3d场景的原点的取向的旋转参数。另一方面,旋转参数是四个十一位四元数。

9、在一个方面,音频信号与音频/视频(a/v)节目相关联,其中该方法还包括在音频解码器装置的显示器上显示a/v节目的视频内容。另一方面,声源是与在显示器上显示的视频内容内的对象或定位相关联的有源声源。在一些方面,a/v节目的视频内容是扩展现实(xr)环境,其中一组空间渲染音频信号是第一一组空间渲染音频信号,其中位流还包括:第一3d场景内的无源声源相对于第一3d场景的原点的位置,该无源声源的位置使用标识符来引用第一3d场景的原点,其中该无源声源被布置为从有源声源产生离开xr环境内的表面的反射或衍射声音;和该无源声源的一组声学参数,其中一组空间渲染音频信号通过根据一组声学参数、基于无源声源的位置来将无源声源在空间上渲染而产生。

10、在一个方面,在空间上渲染包括:基于一组声学参数确定音频滤波器;通过将该音频滤波器应用于音频信号来产生滤波音频信号;以及通过将一个或多个空间滤波器应用于音频信号和滤波音频信号来产生该组空间渲染音频信号。在一些方面,一组声学参数包括扩散水平、截止频率、频率响应、对象的几何结构、对象的声学表面参数、反射率值、吸收值和对象的材料中的至少一者。

11、根据本文档来自技高网...

【技术保护点】

1.一种方法,包括:

2.根据权利要求1所述的方法,其中所述标识符是第一标识符,其中所述第一3D场景的所述原点包括所述第一标识符和所述第一3D场景的所述原点相对于所述第二3D场景的所述原点的位置,其中所述第一3D场景的所述原点的所述位置使用第二标识符来引用所述第二3D场景的所述原点。

3.根据权利要求2所述的方法,其中所述位流是第一位流,其中所述方法还包括:

4.根据权利要求1所述的方法,其中所述声源的所述位置包括最大距离参数和编码位置数据,其中所述方法还包括基于所述最大距离参数和所述编码位置数据来确定所述声源在空间分辨率下的解码位置,其中使用所述声源相对于所述收听者的所述位置的所述解码位置来在空间上渲染所述音频信号。

5.根据权利要求4所述的方法,其中所述3D场景是正通过所述位流接收的音频节目的一部分,其中所述空间分辨率在所述音频节目的回放会话期间随着所述声源的所述位置在所述3D场景内改变而保持恒定。

6.根据权利要求4所述的方法,其中所述最大距离参数是第一最大距离参数,并且所述空间分辨率是第一空间分辨率,其中所述方法还包括:

7.根据权利要求1所述的方法,其中所述位流是第一位流,并且所述方法还包括:

8.一种电子设备,包括:

9.根据权利要求8所述的电子设备,其中所述声源的所述位置包括所述声源的编码位置数据,所述编码位置数据包括在坐标系内相对于所述第一3D场景的所述原点的编码坐标数据和指示所述声源相对于所述第一3D场景的所述原点的取向的编码旋转数据中的至少一者。

10.根据权利要求9所述的电子设备,其中所述编码位置数据包括最大距离参数并且所述编码坐标数据包括一组编码笛卡尔坐标,其中所述指令还包括通过用所述最大距离参数缩放所述编码笛卡尔坐标的归一化集合来确定在所述坐标系内相对于所述第一3D场景的所述原点的所述声源的所述位置的一组笛卡尔坐标。

11.根据权利要求10所述的电子设备,其中所述存储器具有用于以下操作的另外的指令:

12.根据权利要求9所述的电子设备,其中所述编码位置数据包括一组编码球面坐标,所述一组编码球面坐标包括编码方位角值、编码仰角值和编码半径,其中所述存储器具有用于确定在所述坐标系内相对于所述第一3D场景的所述原点的所述声源的所述位置的一组球面坐标的另外的指令,所述一组球面坐标包括

13.根据权利要求12所述的电子设备,其中所述编码方位角值是至少七个位的整数,所述编码仰角值是至少六个位的整数,并且所述编码半径值是至少五个位的整数。

14.根据权利要求9所述的电子设备,其中所述存储器具有用于以下操作的另外的指令:

15.一种具有指令的非暂态机器可读介质,所述指令在由电子设备的至少一个处理器执行时使得所述电子设备:

16.根据权利要求15所述的非暂态机器可读介质,其中所述标识符是第一标识符,其中所述第一3D场景的所述原点包括所述第一标识符和所述第一3D场景的所述原点相对于所述第二3D场景的所述原点的位置,其中所述第一3D场景的所述原点的所述位置使用第二标识符来引用所述第二3D场景的所述原点。

17.根据权利要求16所述的非暂态机器可读介质,其中所述编码元数据包括:

18.根据权利要求15所述的非暂态机器可读介质,包括用于以下操作的另外的指令:

19.根据权利要求18所述的非暂态机器可读介质,其中使用增量编码将所述位置更新编码到所述新的元数据中,其中将所述声源的新位置和所述声源的先前位置之间的增量编码到所述新的元数据中,其中所述新的元数据包括比所述元数据少的数据。

20.根据权利要求19所述的非暂态机器可读介质,其中所述新的元数据包括单个位,所述单个位具有指示已使用所述增量编码将所述位置更新进行编码的值。

...

【技术特征摘要】

1.一种方法,包括:

2.根据权利要求1所述的方法,其中所述标识符是第一标识符,其中所述第一3d场景的所述原点包括所述第一标识符和所述第一3d场景的所述原点相对于所述第二3d场景的所述原点的位置,其中所述第一3d场景的所述原点的所述位置使用第二标识符来引用所述第二3d场景的所述原点。

3.根据权利要求2所述的方法,其中所述位流是第一位流,其中所述方法还包括:

4.根据权利要求1所述的方法,其中所述声源的所述位置包括最大距离参数和编码位置数据,其中所述方法还包括基于所述最大距离参数和所述编码位置数据来确定所述声源在空间分辨率下的解码位置,其中使用所述声源相对于所述收听者的所述位置的所述解码位置来在空间上渲染所述音频信号。

5.根据权利要求4所述的方法,其中所述3d场景是正通过所述位流接收的音频节目的一部分,其中所述空间分辨率在所述音频节目的回放会话期间随着所述声源的所述位置在所述3d场景内改变而保持恒定。

6.根据权利要求4所述的方法,其中所述最大距离参数是第一最大距离参数,并且所述空间分辨率是第一空间分辨率,其中所述方法还包括:

7.根据权利要求1所述的方法,其中所述位流是第一位流,并且所述方法还包括:

8.一种电子设备,包括:

9.根据权利要求8所述的电子设备,其中所述声源的所述位置包括所述声源的编码位置数据,所述编码位置数据包括在坐标系内相对于所述第一3d场景的所述原点的编码坐标数据和指示所述声源相对于所述第一3d场景的所述原点的取向的编码旋转数据中的至少一者。

10.根据权利要求9所述的电子设备,其中所述编码位置数据包括最大距离参数并且所述编码坐标数据包括一组编码笛卡尔坐标,其中所述指令还包括通过用所述最大距离参数缩放所述编码笛卡尔坐标的归一化集合来确定在所述坐标系内相对于所述第一3d场景的所述原点的所述声源的...

【专利技术属性】
技术研发人员:F·鲍姆加特D·森
申请(专利权)人:苹果公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1