当前位置: 首页 > 专利查询>苹果公司专利>正文

用于空间音频的文件格式制造技术

技术编号:24044395 阅读:64 留言:0更新日期:2020-05-07 04:29
包含根据用于空间音频的文件格式进行格式化的音频资源的音频资源库包括使得模拟现实(SR)应用程序开发者能够创作在SR应用程序中使用的声音的资源元数据。音频资源被格式化为包括音频数据和资源元数据,其中音频数据对能够被创作到SR应用程序中的声音进行了编码,资源元数据不仅描述声音是如何被编码的,而且还描述SR环境中的收听者对声音有怎样的体验。SR开发者平台被配置为使得开发者能够使用存储在音频库中的音频资源为SR对象创作声音,包括编辑资源元数据以包括变换参数,该变换参数支持资源元数据在SR环境中的动态变换,从而改变SR收听者对所创作声音的体验。还描述了其他实施方案并要求对其进行保护。

File formats for spatial audio

【技术实现步骤摘要】
【国外来华专利技术】用于空间音频的文件格式本非临时专利申请要求2017年9月29日提交的美国临时专利申请62/566,094的较早提交日期的权益。

整体涉及用于音频处理的计算机化数据处理系统和方法,并且具体地,涉及模拟现实环境中的空间音频处理。
技术介绍
在增强现实(AR)、虚拟现实(VR)和混合现实(MR)应用(在本公开中它们全部由模拟现实(SR)一词涵盖)中产生三维(3D)声音效果是具有挑战性的,因为现有音频格式最初被设计用于在具有固定扬声器位置和静态收听者的物理环境中(诸如在电影院中)产生3D声音。被设计为产生3D声音的空间音频格式的示例包括MPEG-H(运动图像专家组)3D音频标准、HOA(高阶高保真度立体声响复制)空间音频技术和DOLBYATMOS环绕声技术。在SR环境中产生3D声音效果的一种替代方案是操纵音频对象中包含的各个离散声音,这些离散声音可以虚拟地位于3D环境中的任何位置上。使用现有空间音频格式和对象为SR应用程序创作音频是困难的,因为没有统一的方式来访问各种声音来源并将其结合到动态SR环境中。
技术实现思路
如本文所述的用于空间音频的文件格式的实施方案使得增强SR应用程序开发者能够创作在SR应用程序中使用的声音,其中,对能够被创作到SR应用程序中的声音进行编码的音频数据被作为包括资源元数据的音频资源予以存储,该资源元数据不仅描述声音如何被编码,还描述具有空间音频渲染能力的SR环境中的收听者对声音有怎样的体验。SR开发者可在开发期间检索音频资源,预览在回放期间收听者将对声音有怎样的体验,将音频资源附加到与在SR环境中体验声音相关联的SR对象上,以及编辑资源元数据,直至达到影响收听者对声音有怎样的体验的预期3D声音效果。在一个实施方案中,音频资源被创建并存储在音频资源库中,可从该音频资源库检索音频资源以便将其创作到SR应用程序中。应用程序的创作可以包含将音频资源附加到与在SR环境中体验声音相关联的SR对象上。在一个实施方案中,收听者在SR环境中对声音有怎样的体验取决于如何在包括声音回放系统中模拟3D声音(也称为空间声音),声音回放系统包括使用双耳渲染(例如,通过耳机)、针对仅基于扬声器的回放系统的渲染或者针对合并耳机-扬声器系统的渲染的声音系统。本文所述的用于空间音频的文件格式的实施方案支持各种各样的声音来源和音频编码,这些编码用于再现声音,从而在包括使用双耳渲染的单收听者回放系统在内的声音回放系统中模拟空间声音。根据用于空间音频的文件格式的实施方案,音频资源存储在音频库中,其中音频资源包含音频数据,音频数据对音频数据表示的声音进行编码,包括以下各项中的任何一者或多者:对个体声音的单耳记录;对声音环境的多信道记录,包括使用麦克风阵列产生的记录、多个声音来源的所记录混频(包括使用一个或多个麦克风记录的多个离散声音的混频)或者保留所记录声音的空间特征的记录中的任一者;以及用于产生一个或多个声音的合成音频数据。为了适应表示不同类型的声音来源(从其捕获声音)的音频数据,根据用于空间音频的文件格式的实施方案的存储在音频库中的音频资源包括描述将如何对音频数据(其编码了由收听者体验的声音)进行解码的资源元数据,该资源元数据包括用于该音频资源的全局元数据和用于该音频资源的任何一个或多个信道的信道元数据。根据用于空间音频的文件格式的实施方案,资源元数据描述如何基于与声音如何被捕获或声音如何被创建(例如,非采用麦克风记录的合成声音)相关联的多个特征对音频数据(其编码了由收听者体验的声音)解码,该一个或多个特征包括以下各项中的任何一者或多者:声音的位置(包括声音的离散位置或者使用前述高阶高保真度立体声响复制(HOA)格式编码的位置)、声音是否具有方向性(例如,声音的每音频数据信道的指定方向性)、表示用于输送声音的方向特征的形状或数学函数中的任一者的方向性(如果指定的话)、声音的取向(包括每音频数据信道的取向)、声音的初始声压水平(SPL)(包括捕获SPL时所处的距离)、被表达为多边形网格(可以具有3D空间体积)或体积大小或形状的声音的大小或形状,以及声音的回放速率(包括用于所有音频数据信道的全局回放速率)。就方向特征而言,形状包括但不限于球体、半球或锥体,并且数学函数包括但不限于单位球面或心形线极坐标响应。在一个实施方案中,与声音在音频数据中如何被编码相关联的多个特征包括对用于捕获声音的任何一个或多个记录系统(包括麦克风阵列)的描述。由于创作用于SR环境的声音往往需要改变声音以适应与在SR环境内体验声音相关联的非静态收听者或非静态SR对象,用于空间音频的文件格式的实施方案允许SR应用程序开发者编辑附加至SR对象的音频资源的资源元数据,以接受多个变换参数中的任何一者或多者,该多个变换参数实现该资源元数据在SR应用程序中的动态变换,以改变收听者在SR环境中对声音的体验。根据用于空间音频的文件格式的实施方案,实现资源元数据的动态变换的多个变换参数包括关系参数,该关系参数基于收听者与音频资源所附加至的SR对象之间的关系动态地变换收听者在SR环境中对声音的体验,该关系包括收听者相对于SR对象的位置和取向中的任一者,其影响收听者在SR环境中对声音的体验。根据用于空间音频的文件格式的实施方案,变换参数通过在对音频数据解码以供收听者体验之前动态地变换资源元数据,而改变收听者在SR环境中对声音的体验。例如,在SR环境中确定的收听者与SR对象之间的关系用于设定关系变换参数,该关系变换参数用于在对音频数据解码之前动态地变换资源元数据,这继而将动态地改变收听者在SR环境中对声音的体验。根据用于空间音频的文件格式的实施方案,响应于来自SR开发者的请求或者作为在SR环境中使用音频资源的结果,存储在音频库中的音频资源被编辑以添加元数据,该元数据描述音频资源在SR环境中如何被使用,包括标识音频资源所附加至的SR对象。通过这种方式,音频资源在任何一个或多个SR应用程序中的使用的历史记录被保留在音频库中,这可用于供开发者了解该音频资源的声音先前被用在何处。本文所述的各种系统、装置和方法可由一个或多个数据处理系统执行,以根据用于空间音频的文件格式的实施方案创建和使用用于在SR环境中创作声音的音频库。该音频库可通过网络共享。在一些情况下,该音频库可以是可通过协作软件访问的数据库。本文所述的方法和系统可通过数据处理系统诸如服务器计算机、台式计算机和其他数据处理系统以及其他消费电子设备来实现。本文所述的方法和系统还可由执行存储在一个或多个非暂态机器可读介质中的可执行的计算机程序指令的一个或多个数据处理系统来实现,该程序指令在被执行时使一个或多个数据处理系统执行本文所述的一个或多个方法。因此,本文所述的实施方案可包括方法、数据处理系统和非暂态机器可读介质。以上概述不包括本公开的所有实施方案的详尽列表。所有系统和方法可根据以上概述的各个方面和实施方案以及以下具体实施方式中所公开的那些的所有合适的组合来实践。附图说明本公开的各方面以举例本文档来自技高网...

【技术保护点】
1.一种用于创建在模拟现实(SR)应用程序中使用的声音的音频资源库的计算机实现的方法,所述方法包括:/n接收在其内编码了声音的音频数据;/n接收描述所述声音如何被编码的元数据;/n创建包含资源元数据和所述音频数据的音频资源,所述资源元数据包括i)所接收的元数据和ii)描述所述声音将如何通过SR应用程序被渲染成空间音频的元数据;以及/n将所述音频资源存储在音频资源库中。/n

【技术特征摘要】
【国外来华专利技术】20170929 US 62/566,0941.一种用于创建在模拟现实(SR)应用程序中使用的声音的音频资源库的计算机实现的方法,所述方法包括:
接收在其内编码了声音的音频数据;
接收描述所述声音如何被编码的元数据;
创建包含资源元数据和所述音频数据的音频资源,所述资源元数据包括i)所接收的元数据和ii)描述所述声音将如何通过SR应用程序被渲染成空间音频的元数据;以及
将所述音频资源存储在音频资源库中。


2.根据权利要求1所述的计算机实现的方法,其中,如何渲染所述声音包括如何在声音回放系统中模拟空间声音。


3.根据前述权利要求中任一项所述的计算机实现的方法,还包括编辑所述资源元数据以包括实现所述资源元数据在所述SR应用程序中的动态变换的一个或多个参数,其中,所述动态变换将在所述声音的回放或体验期间通过应用所述一个或多个参数来执行,以改变所述音频资源通过所述SR应用程序被渲染的方式。


4.根据权利要求3所述的计算机实现的方法,其中,所述一个或多个参数包括关系参数,所述关系参数用于基于由所述SR应用程序提供的SR环境中的收听者与所述音频资源所附加至的SR对象之间的关系来动态地变换所述音频资源将通过所述SR应用程序被渲染的方式,所述关系包括所述收听者相对于所述SR对象的位置和取向中的任一者,所述位置和取向影响所述音频资源在所述SR应用程序中的渲染。


5.根据权利要求4所述的计算机实现的方法,其中,在所述SR环境中确定的所述收听者与所述SR对象之间的所述关系用于设定所述关系参数,所述关系参数用于动态地变换所述音频资源在所述SR应用程序中的渲染方式。


6.根据前述权利要求中任一项所述的计算机实现的方法,其中,在其内编码了所述声音的所述音频数据包括以下各项中的任何一者或多者:
对个体声音的单耳记录;
对声音环境的多信道记录,包括使用麦克风阵列产生的记录、多个声音来源的所记录混频(包括多个离散声音的混频)以及保留所记录声音的空间特征的记录中的任一者;和
用于产生一个或多个声音的合成音频数据。


7.根据前述权利要求中任一项所述的方法,其中,包含在所述音频资源中的所述资源元数据包括:
用于所述音频资源的全局元数据;和
用于所述音频资源的任何一个或多个信道的信道元数据。


8.根据前述权利要求中任一项所述的方法,其中,描述所述声音如何被编码的元数据描述与所述声音如何被捕获相关联的一个或多个特征,并且其中,描述如何渲染所述音频资源的所述元数据包括以下各项中的任何一者或多者:
所述声音的位置,包括离散位置或使用高阶高保真度立体声响复制(HOA)格式编码的位置;
所述声音的每音频数据信道的至少一个方向特征;
所述声音的取向,包括每音频数据信道的取向;
所述声音的初始声压水平(SPL)或者另选的声音功率水平,包括捕获所述SPL或所述声音功率水平时所处的距离;
所述声音的大小或形状,所述声音的所述大小或所述形状通过多边形网格或体积大小表达;和
所述声音的回放速率,包括用于所有音频数据信道的全局回放速率,
其中,所述资源元数据还包括用于在渲染所述音频资源以供所述收听者体验之前变换所述资源元数据的变换参数,所述变换参数包括表示由所述SR应用程序提供的SR环境中的所述收听者与所述音频资源所附加至的SR对象之间的关系的关系参数。


9.根据权利要求8所述的方法,其中,与所述声音如何被编码相关联的所述一个或多个特征包括对用于捕获所述声音的记录系统的描述,包括对麦克风阵列的描述。


10.根据前述权利要求中任一项所述的方法,还包括:
编辑所述音频资源以添加元数据,所述元数据描述所述音频资源在所述SR应用程序中如何被使用,包括标识所述音频资源所附加至的SR对象。


11.一种用于为模拟现实(SR)环境创作声音的计算机实现的方法,所述方法包括:
检索存储在音频库中的音频资源,其中,所述音频资源包含音频数据和资源元数据,所述音频数据根据资源元数据或者如资源元数据中所指定在其内对声音进行编码,所述资源元数据进一步描述所述音频资源在SR应用程序中将如何被渲染;以及
将所检索到的音频资源创作到所述SR应用程序中,所述创作包括
根据所述资源元数据预览所述音频资源在所述SR应用程序中将如何被渲染;
编辑所述音频资源,以实现所述资源元数据在所述SR应用程序中的动态变换,从而更改所述音频资源在所述SR应用程序中的渲染方式,以及
将经编辑的音频资源附加到所述SR应用程序中的SR对象。


12.根据权利要求11所述的计算机实现的方法,其中,所述音频资源在所述SR应用程序中如何被渲染包括如何在声音回放系统中使用双耳渲染模拟空间声音。


13.根据前述权利要求中任一项所述的计算机实现的方法,其中,编辑所述音频资源以实现所述资源元数据在所述SR应用程序中的动态变换包括将一个或多个变换参数添加到所述资源元数据,所述一个或多个变换参数包括关系参数,所述关系参数用于基于由所述SR应用程序提供的SR环境中的收听者与SR对象之间的关系动态地变换所述音频资源被渲染的方...

【专利技术属性】
技术研发人员:M·S·康诺利C·T·尤班克S·E·平托T·霍尔曼
申请(专利权)人:苹果公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1