多通道空间音频格式输入信号的处理制造技术

技术编号：23352408 阅读：16 留言：0更新日期：2020-02-15 07:08

本发明专利技术提供用于处理多通道空间音频格式输入信号的设备、计算机可读媒体和方法。举例来说，一种此类方法包括基于所接收的空间音频格式输入信号确定对象方位元数据；和基于所述所接收的空间音频格式输入信号提取对象音频信号，其中所述基于所述所接收的空间音频格式输入信号提取对象音频信号包含确定对象音频信号和残余音频信号。

Processing of multi-channel spatial audio format input signal

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】多通道空间音频格式输入信号的处理相关申请案的交叉引用本申请案主张2017年12月13申请的美国临时专利申请案第62/598,068号、2017年7月3日申请的欧洲专利申请案第17179315.1号和2017年5月9日申请的美国临时专利申请案第62/503,657号的优先权益，所述申请案中的每一个以引用的方式并入本文中。
本公开涉及沉浸式音频格式转换，包含空间音频格式(例如，立体混响、高阶立体混响或B格式)转换成基于对象的格式(例如杜比全景声(Dolby'sAtmos)格式)。
技术实现思路
本文献解决将空间音频格式(例如，立体混响、高阶立体混响或B格式)转换成基于对象的格式(例如，杜比全景声格式)的技术问题。在这点上，如在整个说明书和权利要求书中所使用的术语“空间音频格式”特定地涉及提供与扩音器无关的信号的音频格式，所述与扩音器无关的信号表示在一或多个方位处记录的声场的方向特性。此外，如在整个说明书和权利要求书中所使用的术语“基于对象的格式”特定地涉及提供表示声音源的与扩音器无关的信号的音频格式。本文献的方面涉及一种处理多通道空间格式输入音频信号(即，包含多个通道的空间格式(空间音频格式)的音频信号)的方法。所述空间格式(空间音频格式)可为例如立体混响、高阶立体混响(HOA)或B格式。所述方法可包含分析所述输入音频信号以确定包含在所述输入音频信号中的音频对象的多个对象方位。对象方位可为例如由笛卡尔或球面坐标中的3向量指示的空间方位。替代地，取决于应用，可在两个维度中指示对象方位。>所述方法可另外包含对于输入音频信号的多个频率子频带中的每一个，针对每一对象方位，确定所述频率子频带和所述对象方位的混频增益。为此目的，所述方法可包含将时间-频率变换应用于输入音频信号并且将所得频率系数布置到频率子频带中。替代地，所述方法可包含将滤波器组应用于输入音频信号。混频增益可以被称作对象增益。所述方法可另外包含对于每一频率子频带，针对每一对象方位，基于输入音频信号、所述频率子频带和所述对象方位的混频增益以及空间格式的空间映射函数，产生频率子频带输出信号。空间映射函数可为空间解码函数，例如空间解码函数DS(loc)。所述方法可另外包括针对每一对象方位，通过在所述对象方位的频率子频带输出信号上进行求和，产生输出信号。所述总和可为加权总和。所述对象方位可输出为对象方位元数据(例如，可产生和输出指示对象方位的对象方位元数据)。输出信号可以被称作对象信号或对象通道。可在每一预定时间段内(例如，战每一时间块，或时间-频率变换的每一变换窗内)执行上述处理。通常，用于从空间格式到基于对象的格式的格式转换的已知方法当提取与主方向集相关联的音频对象信号时应用宽频带方法。相比之下，所提议的方法应用用于确定音频对象信号的基于子频带的方法。如此配置的所提议方法可提供每子频带的明确平移/控制决策。进而，可达成音频对象方向的增加的离散性，且在所得音频对象中存在较小“拖尾(smearing)”。举例来说，在确定主方向(可能地使用宽频带方法或使用基于子频带的方法)之后，结果可能是特定音频对象在第一频率子频带中平移到一个主方向，但在第二频率子频带平移到另一主方向。音频对象在不同子频带中的此不同平移行为不被已知用于格式转换的方法捕获，其代价为减小的方向离散性和增加的拖尾。在一些实例中，对象方位的混频增益可为频率相依的。在一些实例中，空间格式可定义多个通道。接着，空间映射函数可为用于从空间格式的多个通道提取给定方位处的音频信号的空间格式的空间解码函数。举例来说，在给定方位处意味着从给定方位入射。在一些实例中，空间格式的空间平移函数可为用于将源方位处的源信号映射到由空间格式定义的多个通道的函数。举例来说，在源方位处应意味着从源方位入射。映射可以被称作平移。空间解码函数可定义成使得空间平移函数和空间解码函数的连续应用产生单位球面上的所有方位的单位增益。空间解码函数可进一步定义成使得平均解码功率最小化。在一些实例中，确定给定频率子频带和给定对象方位的混频增益可基于给定对象方位和给定频率子频带中的输入音频信号的协方差矩阵。在一些实例中，给定频率子频带和给定对象方位的混频增益可取决于在给定对象方位处评估的给定频率子频带中的输入音频信号的控制函数。在一些实例中，控制函数可基于给定频率子频带中的输入音频信号的协方差矩阵。在一些实例中，确定给定频率子频带和给定对象方位的混频增益可进一步基于给定对象方位随时间的变化率。混频增益可取决于给定对象方位的变化率而衰减。举例来说，混频增益可在变化率为高的情况下衰减，并且可针对静态对象方位不衰减。在一些实例中，针对每一频率子频带并且针对每一对象方位，产生频率子频带输出信号可涉及将增益矩阵和空间解码矩阵应用于输入音频信号。可依次应用增益矩阵和空间解码矩阵。增益矩阵可包含所确定的所述频率子频带的混频增益。举例来说，增益矩阵可为对角矩阵，具有经适当地排序的混频增益作为其对角元素。空间解码矩阵可包含多个映射向量，每一对象方位一个映射向量。可通过评估相应对象方位处的空间解码函数获得每一映射向量。举例来说，空间解码函数可为向量值函数(例如，在多通道空间格式输入音频信号定义为ns×1列向量的情况下产生1×ns行向量，)。在一些实例中，所述方法可另外包含将多个输出信号重新编码成空间格式以获得多通道空间格式音频对象信号。所述方法可另外包括从所述输入音频信号减去所述音频对象信号以获得多通道空间格式残余音频信号。空间格式残余信号可与输出信号和方位元数据(如果存在的话)一起输出。在一些实例中，所述方法可另外包含将降混应用于残余音频信号以获得经降混残余音频信号。所述经降混残余音频信号的通道的数目可小于所述输入音频信号的通道的数目。经降混空间格式残余信号可与输出信号和方位元数据(如果存在的话)一起输出。在一些实例中，分析输入音频信号可涉及针对每一频率子频带，确定一或多个主声音到达方向的集。分析输入音频信号可另外涉及确定确定多个频率子频带的一或多个主方向的集的并集。分析输入音频信号可另外涉及将集群算法应用于所述集的并集以确定多个对象方位。在一些实例中，确定主声音到达方向集可涉及以下中的至少一个：从频率子频带中的输入音频信号的协方差矩阵提取元素，以及确定频率子频带中的输入音频信号的投影函数的局部最大值。投影函数可基于输入音频信号的协方差矩阵和空间格式的空间平移函数。在一些实例中，每一主方向可具有相关联权重。接着，集群算法可执行主方向的加权集群。每一权重可指示例如其主方向的置信度值。置信度值可指示音频对象是否实际上位于对象方位处的可能性。在一些实例中，集群算法可为k均值算法、经加权k均值算法、期望最大化算法和经加权均值算法中的一个。在一些实例中，所述方法可另外包含产生指示对象方位的对象方位元数据。对象方位元数据可与输出信号和(经降混)空间格式残余信号(如果存在的话)一起输出。本文献的另一方面涉及一种用于处理多通道空间格式输入音频信本文档来自技高网...

【技术保护点】
1.一种用于处理多通道空间格式输入音频信号的方法，所述方法包括/n基于所述输入音频信号确定对象方位；和/n基于所述所确定的对象方位，从所述输入音频信号提取对象音频信号，/n其中所述确定对象方位包括针对数个频率子频带中的每一个，确定一或多个主声音到达方向。/n

【技术特征摘要】
【国外来华专利技术】20170703 EP 17179315.1;20170509 US 62/503,657;20171.一种用于处理多通道空间格式输入音频信号的方法，所述方法包括
基于所述输入音频信号确定对象方位；和
基于所述所确定的对象方位，从所述输入音频信号提取对象音频信号，
其中所述确定对象方位包括针对数个频率子频带中的每一个，确定一或多个主声音到达方向。

2.根据权利要求1所述的方法，其中所述基于所述所确定的对象方位从所述输入音频信号提取对象音频信号包括：
对于所述输入音频信号的所述数个频率子频带中的每一个，针对每一对象方位，确定所述频率子频带和所述对象方位的混频增益；
对于所述数个频率子频带中的每一个，针对每一对象方位，基于所述输入音频信号、所述频率子频带和所述对象方位的所述混频增益以及所述空间格式的空间映射函数，产生频率子频带输出信号；和
针对每一对象方位，通过在所述对象方位的所述频率子频带输出信号上进行求和，产生输出信号。

3.根据权利要求2所述的方法，其中所述对象方位的所述混频增益是频率相依的。

4.根据权利要求2或3所述的方法，
其中所述空间格式定义多个通道；且
所述空间映射函数是所述空间格式的空间解码函数，其用于从所述空间格式的所述多个所述通道提取给定方位处的音频信号。

5.根据权利要求4所述的方法，
其中所述空间格式的空间平移函数是用于将源方位处的源信号映射到由所述空间格式定义的所述多个通道的函数；且
所述空间解码函数定义成使得所述空间平移函数和所述空间解码函数的连续应用产生单位球面上的所有方位的单位增益。

6.根据权利要求2所述的方法，其中确定给定频率子频带和给定对象方位的所述混频增益是基于所述给定对象方位和所述给定频率子频带中的所述输入音频信号的协方差矩阵。

7.根据权利要求6所述的方法，其中所述给定频率子频带和所述给定对象方位的所述混频增益取决于在所述给定对象方位处评估的所述给定频率子频带中的所述输入音频信号的控制函数。

8.根据权利要求7所述的方法，其中所述控制函数是基于所述给定频率子频带中的所述输入音频信号的协方差矩阵。

9.根据权利要求6到8中任一权利要求所述的方法，其中确定所述给定频率子频带和所述给定对象方位的所述混频增益进一步基于所述给定对象方位随时间的变化率，其中所述混频增益取决于所述给定对象方位的所述变化率而衰减。

10.根据权利要求2所述的方法，其中针对每一频率子频带并且针对每一对象方位，产生所述频率子频带输出信号涉及：
将增益矩阵和空间解码矩阵应用于所述输入音频信号，其中所述增益矩阵包含所述频率子频带的所述所确定的混频增益；且
所述空间解码矩阵包含多个映射向量，其中每...

【专利技术属性】
技术研发人员：D·S·麦格拉思，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人