对音频对象进行聚类制造技术

技术编号:39249249 阅读:17 留言:0更新日期:2023-10-30 12:01
一种用于对音频对象进行聚类的方法可以涉及识别多个音频对象,其中,该多个音频对象中的每个音频对象与指示相应空间位置信息的相应元数据和相应渲染元数据相关联。该方法可以涉及将该多个音频对象中的音频对象指派到多个渲染元数据类别中的渲染元数据类别,其中,至少一个渲染元数据类别包括要保持的多个渲染元数据类型。该方法可以涉及确定多个音频对象簇到每个渲染元数据类别的分配。该方法可以涉及基于指示空间位置信息的元数据并且基于音频对象到渲染元数据类别的指派,将该多个音频对象中的音频对象渲染到经分配的多个音频对象簇。频对象簇。频对象簇。

【技术实现步骤摘要】
【国外来华专利技术】对音频对象进行聚类
[0001]相关申请的交叉引用
[0002]本申请要求以下优先申请的优先权:于2021年2月20日提交的国际专利申请PCT/CN2021/077110;于2021年3月24日提交的美国临时专利申请63/165,220;于2021年6月2日提交的美国临时专利申请63/202,227;以及于2021年6月8日提交的欧洲专利申请21178179.4,这些专利申请均通过引用特此并入。


[0003]本公开涉及用于对音频对象进行聚类的系统、方法和介质。
[0004]背景
[0005]能够呈现空间定位的音频内容的音频内容呈现设备正变得越来越流行。例如,这样的音频内容呈现设备可以能够呈现被感知为处于收听者的三维环境内的各种空间位置处的音频内容。尽管一些现有的音频内容呈现方法和设备在一些条件下提供了可接受的性能,但是改进的方法和设备也会是令人期望的。
[0006]符号和术语
[0007]贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),该多个换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,一个或多个扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
[0008]贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作(例如,对信号或数据进行滤波、缩放、变换或应用增益)的表达来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。
[0009]贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,该子系统生成M个输入,而其他X

M个输入是从外部源接收的)也可以被称为解码器系统。
[0010]贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
[0011]贯穿本公开,包括在权利要求中,术语“一个簇”或“多个簇”用于意指音频对象簇。术语“簇”和“音频对象簇”应当被理解为同义并且可互换使用。音频对象簇是具有一个或多个相似属性的音频对象(比如具有相似空间位置和/或相似渲染元数据的音频对象)的组合。在一些情况下,音频对象可以被指派到单个簇中,而在其他情况下,音频对象可以被指
派到多个簇中。

技术实现思路

[0012]本公开的至少一些方面可以经由方法来实施。一些方法可以涉及识别多个音频对象,其中,该多个音频对象中的每个音频对象与指示相应空间位置信息的相应元数据和相应渲染元数据相关联。一些方法可以涉及将该多个音频对象中的音频对象指派到多个渲染元数据类别中的渲染元数据类别,其中,至少一个渲染元数据类别包括要保持的多个渲染元数据类型。一些方法可以涉及确定多个音频对象簇到每个渲染元数据类别的分配,其中,音频对象簇包括该多个音频对象中具有相似属性的一个或多个音频对象。一些方法可以涉及基于指示空间位置信息的元数据并且基于音频对象到渲染元数据类别的指派来将该多个音频对象中的音频对象渲染到经分配的多个音频对象簇。
[0013]在一些示例中,渲染元数据类别包括旁路模式类别和虚拟化类别。在一些示例中,包括在虚拟化类别中的多个渲染元数据类型包括多个虚拟化类型,各自表示从头部中心到音频对象的距离。
[0014]在一些示例中,渲染元数据类别包括区域类别或捕捉类别之一。
[0015]在一些示例中,被指派到第一渲染元数据类别的音频对象禁止被指派到该多个音频对象簇中被分配到第二渲染元数据类别的音频对象簇。
[0016]在一些示例中,确定该多个音频对象簇到每个渲染元数据类别的分配涉及:(i)确定初始多个音频对象簇到每个渲染元数据类别的初始分配;(ii)基于指示空间位置信息的元数据并且基于音频对象到渲染元数据类别的指派,将音频对象指派到初始多个音频对象簇;(iii)针对每个渲染元数据类别,确定将音频对象指派到初始多个音频对象簇的类别成本;(iv)至少部分地基于每个渲染元数据类别的类别成本来确定初始多个音频对象簇到每个渲染元数据类别的更新分配;以及(iv)重复(ii)至(iv),直到达到停止标准为止。在一些示例中,确定将音频对象指派到初始多个音频对象簇的类别成本是基于分配到渲染元数据类别的音频对象簇的位置和被指派到分配到该渲染元数据类别的音频对象簇的音频对象的位置。在一些示例中,类别成本基于相对于音频对象已被指派到的音频对象簇的左右放置的该音频对象的左右放置。在一些示例中,确定将音频对象指派到初始多个音频对象簇的类别成本是基于音频对象的响度。在一些示例中,确定将音频对象指派到初始多个音频对象簇的类别成本是基于音频对象到该音频对象已被指派到的音频对象簇的距离。在一些示例中,确定将音频对象指派到初始多个音频对象簇的类别成本是基于音频对象的渲染元数据类型与该音频对象已被指派到的音频对象簇的渲染元数据类型的相似度。在一些示例中,方法可以涉及基于每个渲染元数据类别的类别成本来确定全局成本,其中,初始多个音频对象簇的更新分配是基于全局成本的。在一些示例中,确定更新分配包括改变分配到多个渲染元数据类别中的至少一个渲染元数据类别的音频对象簇的数量。在一些示例中,方法可以进一步涉及基于每个渲染元数据类别的类别成本来确定全局成本,其中,音频对象簇的数量是基于全局成本来确定的。在一些示例中,确定音频对象簇的数量包括在指示可以添加的音频对象簇的最大数量的对音频对象簇的数量的约束下最小化全局成本。
[0017]在一些示例中,将该多个音频对象中的音频对象渲染到经分配的多个音频对象簇包括确定该多个音频对象中的每个音频对象在被渲染到被分配到该音频对象被指派到的
渲染元数据类别的一个或多个音频对象簇时的对象到簇增益。在一些示例中,单独于被指派到该多个渲染元数据类别中的第二类别的音频对象的对象到簇增益来确定被指派到该多个渲染元数据类别中的第一类别的音频对象的对象到簇增益。在一些示例中,联合确定被指派到该多个渲染元数据类别中的第一类别的音频对象的对象到簇增益和被指派到该多个渲染元数据类别中的第二类别的音频对象的对象到簇增益。
[0018]本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这样的非暂态介质可以包括如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对音频对象进行聚类的方法,所述方法包括:识别多个音频对象,其中,所述多个音频对象中的音频对象与指示相应空间位置信息的相应元数据和相应渲染元数据相关联;将所述多个音频对象中的音频对象指派到多个渲染元数据类别中的渲染元数据类别,其中,至少一个渲染元数据类别包括要保持的多个渲染元数据类型;确定多个音频对象簇到每个渲染元数据类别的分配,其中,音频对象簇包括所述多个音频对象中具有相似属性的一个或多个音频对象;基于指示空间位置信息的所述元数据并且基于所述音频对象到所述渲染元数据类别的指派,将所述多个音频对象中的音频对象渲染到经分配的多个音频对象簇。2.如权利要求1所述的方法,其中,所述渲染元数据类别包括旁路模式类别和虚拟化类别。3.如权利要求2所述的方法,其中,被包括在所述虚拟化类别中的所述多个渲染元数据类型包括多个虚拟化类型,所述多个虚拟化类型各自表示从头部中心到所述音频对象的距离。4.如权利要求1所述的方法,其中,所述渲染元数据类别包括区域类别或捕捉类别之一。5.如权利要求1至4中任一项所述的方法,其中,被指派到第一渲染元数据类别的音频对象禁止被指派到所述多个音频对象簇中被分配到第二渲染元数据类别的音频对象簇。6.如权利要求1至5中任一项所述的方法,进一步包括传输音频信号,所述音频信号包括与所述经分配的多个音频对象簇中的每个音频对象簇相关联的空间信息和增益信息,其中,所述音频信号相比于包括与其中被指派到所述第一渲染元数据类别的音频对象被指派到与所述第二渲染元数据类别相关联的音频对象簇的音频对象簇相关联的空间信息和增益信息的音频信号具有更少的空间失真。7.如权利要求1至6中任一项所述的方法,其中,确定所述多个音频对象簇到每个渲染元数据类别的所述分配包括:(i)确定初始多个音频对象簇到每个渲染元数据类别的初始分配;(ii)基于指示空间位置信息的所述元数据并且基于所述音频对象到所述渲染元数据类别的指派,将所述音频对象指派到所述初始多个音频对象簇;(iii)针对每个渲染元数据类别,确定将所述音频对象指派到所述初始多个音频对象簇的类别成本;(iv)至少部分地基于每个渲染元数据类别的所述类别成本来确定所述初始多个音频对象簇到每个渲染元数据类别的更新分配;以及(iv)重复(ii)至(iv),直到达到停止标准为止。8.如权利要求7所述的方法,其中,确定将所述音频对象指派到所述初始多个音频对象簇的所述类别成本基于分配到所述渲染元数据类别的音频对象簇的位置和被指派到分配到所述渲染元数据类别的音频对象簇的音频对象的位置。9.如权利要求8所述的方法,其中,所述类别成本基于相对于音频对象已被指派到的音频对象簇的左右放置的所述音频对象的左右放置。10.如权利要求7至9中任一项所述的方法,其中,确定将所述音频对象指派到所述初始
多个音频对象簇...

【专利技术属性】
技术研发人员:杨子瑜芦烈
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1