空间音频参数编码和相关联的解码制造技术

技术编号:33261975 阅读:20 留言:0更新日期:2022-04-30 23:11
一种方法,包括:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。帧的每个第一音频方向参数值的比特高效编码。帧的每个第一音频方向参数值的比特高效编码。

【技术实现步骤摘要】
【国外来华专利技术】空间音频参数编码和相关联的解码


[0001]本专利技术涉及声场相关参数编码,但非排他地涉及用于音频编码器和解码器的时频域方向相关参数编码。

技术介绍

[0002]参数空间音频处理是使用一组参数来描述声音的空间方面的音频信号处理领域。例如,在从麦克风阵列进行参数化空间音频捕获时,从麦克风阵列信号估计一组参数是一种典型且有效的选择,该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知,这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可以相应地在空间声音的合成中使用,以用于双耳式耳机、扬声器、或诸如全景环绕声(Ambisonics)之类的其他格式。
[0003]因此,频带中的方向和直接与总能量比(direct

to

total energy ratio) 是对空间音频捕获特别有效的参数化。
[0004]包括频带中的方向参数和频带中的能量比率参数(指示声音的方向性) 的参数集也可以被用作用于音频编解码器的空间元数据(其还可以包括其他参数,诸如相干性(coherence)、扩展相干性(spread coherence)、方向数量、距离等)。例如,这些参数可以从麦克风阵列捕获的音频信号来估计,并且例如可以从麦克风阵列信号生成立体声信号以与空间元数据一起传送。立体声信号例如可以用AAC编码器来编码。解码器可以将音频信号解码成PCM信号,并(使用空间元数据)处理频带中的声音以获得空间输出,例如,双耳输出。
[0005]前述解决方案尤其适合于对来自(例如,移动电话、VR相机、独立麦克风阵列中的)麦克风阵列的捕获空间声音进行编码。然而,可期望这种编码器除了麦克风阵列捕获的信号之外还具有其他输入类型,例如,扬声器信号、音频对象信号、或Ambisonics信号。
[0006]分析一阶Ambisonics(FOA)输入用于空间元数据提取已经在与定向音频编码(DirAC)和谐波平面波展开(Harpex)有关的科学文献中进行了详尽的记录。这是因为存在直接提供FOA信号(更准确地:其变体,B 格式信号)的麦克风阵列,并因此分析这种输入已经成为该领域的研究重点。
[0007]用于编码器的另一输入也是多通道扬声器输入,诸如5.1或7.1通道环绕声输入。
[0008]上述过程可以涉及通过时频域中的多通道分析获得诸如方位角和仰角之类的定向参数以及能量比率作为空间元数据。另一方面,可以在单独的处理链中处理各个音频对象的定向元数据。然而,如果元数据是被单独处理的,那么在处理这两种类型的元数据时可能的协同作用没有得到有效利用。

技术实现思路

[0009]现在已专利技术了一种改进的方法和实现该方法的技术设备,由此缓解了上述问题。各个方面包括一种方法、装置以及包括存储在其中的计算机程序或信号的非暂时性计算机可读介质,其特征在于独立权利要求中所述的内容。在从属权利要求以及对应的附图和描
述中公开了实施例的各种细节。
[0010]本专利技术的各种实施例所寻求的保护范围由独立权利要求阐述。在本说明书中所描述的没有落入独立权利要求的范围下的实施例和特征(如果有的话)将被解释为对理解本专利技术的各种实施例有用的示例。
[0011]根据第一方面,提供了一种装置,其包括用于执行以下操作的部件:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。
[0012]根据实施例,所述第一音频方向参数和第二音频方向参数被定义为在球体的表面上的点。
[0013]根据实施例,第一音频方向参数值包括针对子帧的每个子带的至少一个方位角值和至少一个仰角值,第二音频方向参数值包括针对每个音频对象的至少一个方位角值和至少一个仰角值。
[0014]根据实施例,一个或多个音频对象与音频信号的帧的子帧相关联,或者与音频信号的帧相关联。
[0015]根据实施例,用于第一音频方向参数值的所述比特高效编码包括:响应于音频对象的所述第二音频方向参数值与所述第一音频方向参数值的相似度低于预定阈值,将所述音频对象的索引编码为第一音频方向参数值;或者响应于所述音频对象的所述第二音频方向参数值与所述第一音频方向参数值的相似度高于所述预定阈值,将第一音频方向参数值编码为经量化的第一音频方向参数值。
[0016]根据实施例,用于确定用于第一音频方向参数值的比特高效编码的所述部件进一步包括用于执行以下操作的部件:针对每个子带和子帧,确定原始第一音频方向参数值与经量化的第一音频方向参数值之间的方向性差异;针对每个子带和子帧,确定原始第一音频方向参数值与所述音频对象的第二音频方向参数值之间的方向性差异;确定原始第一音频方向参数值与所述音频对象的第二音频方向参数值之间的方向性差异的最小值;以及在第一音频方向参数值与第二音频方向参数值之间的相似度比较中使用该最小值。
[0017]根据实施例,该装置进一步包括用于执行以下操作的部件:在比特流中或随同比特流对指示进行编码,该指示用于指示是否允许音频对象的索引被编码为第一音频方向参数值。
[0018]根据实施例,所述指示是音频帧特定的。
[0019]根据实施例,所述第一音频方向参数值进一步包括针对每个子带和子帧的信号能量值,所述第二音频方向参数值进一步包括每个音频对象的针对每个子帧的信号能量值;该装置进一步包括用于执行以下操作的部件:基于针对子帧和子带的信号能量值以及音频对象的针对所述子帧的信号能量值,确定掩蔽(masking)参数,所述掩蔽参数定义该音频对象的方向是否充分对应于该帧的所述子帧和所述子带的方向。
[0020]根据实施例,该装置进一步包括用于执行以下操作的部件:响应于掩蔽参数指示音频对象的方向充分对应于该帧的所述子帧和所述子带的方向,跳过将第一音频方向参数值编码为经量化的第一音频方向参数值。
[0021]根据实施例,该装置进一步包括用于执行以下操作的部件:通过加权函数来调整掩蔽参数,所述加权函数调整音频对象的方向与该帧的所述子帧和所述子带的方向充分对应所需的角度。
[0022]根据实施例,该装置进一步包括用于执行以下操作的部件:在比特流中或随同比特流对指示进行编码,该指示用于指示是否允许跳过将第一参数值编码为经量化的第一参数值。
[0023]根据实施例,所述指示是音频帧特定的。
[0024]根据实施例,用于确定用于第一音频方向参数值的比特高效编码的所述部件包括用于执行以下操作的部件:当将第一音频方向参数值编码为经量化的第一音频方向参数值时,使用至少一个音频对象的第二音频方向参数值作为参考。
[0025]根据实施例,该装置进一步包括用于执行以下操作的部件:估计将第一音频方向参数值编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括用于执行以下操作的部件:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对所述音频信号的所述帧的所述子帧的第二音频方向参数值;以及基于针对每个子带的所述第一音频方向参数值与针对所述一个或多个音频对象的所述第二音频方向参数值之间的相似度,确定用于所述子帧的每个第一音频方向参数值的比特高效编码。2.根据权利要求1所述的装置,其中,所述第一音频方向参数和所述第二音频方向参数被定义为在球体的表面上的点。3.根据权利要求1或2所述的装置,其中,所述第一音频方向参数值包括针对所述子帧的每个子带的至少一个方位角值和至少一个仰角值,所述第二音频方向参数值包括针对每个音频对象的至少一个方位角值和至少一个仰角值。4.根据权利要求1

3中任一项所述的装置,其中,所述一个或多个音频对象与所述音频信号的所述帧的所述子帧相关联,或者与所述音频信号的所述帧相关联。5.根据权利要求1

4中任一项所述的装置,其中,用于所述第一音频方向参数值的所述比特高效编码包括:响应于音频对象的所述第二音频方向参数值与所述第一音频方向参数值的相似度低于预定阈值,将所述音频对象的索引编码为第一音频方向参数值;或者响应于所述音频对象的所述第二音频方向参数值与所述第一音频方向参数值的所述相似度高于所述预定阈值,将所述第一音频方向参数值编码为经量化的第一音频方向参数值。6.根据权利要求5所述的装置,其中,用于确定用于所述第一音频方向参数值的比特高效编码的所述部件进一步包括用于执行以下操作的部件:针对每个子带和子帧,确定原始第一音频方向参数值与所述经量化的第一音频方向参数值之间的方向性差异;针对每个子带和子帧,确定所述原始第一音频方向参数值与所述音频对象的所述第二音频方向参数值之间的方向性差异;确定所述原始第一音频方向参数值与所述音频对象的所述第二音频方向参数值之间的所述方向性差异的最小值;以及在所述第一音频方向参数值与所述第二音频方向参数值之间的相似度比较中使用所述最小值。7.根据前述权利要求中任一项所述的装置,进一步包括用于执行以下操作的部件:在比特流中或随同比特流对指示进行编码,所述指示用于指示是否允许音频对象的索引被编码为所述第一音频方向参数值。8.根据前述权利要求中任一项所述的装置,其中,所述第一音频方向参数值进一步包括针对每个子带和子帧的信号能量值,所述第二音频方向参数值进一步包括每个音频对象的针对每个子帧的信号能量值;所述装置进一步包括用于执行以下操作的部件:基于针对子帧和子带的信号能量值以及音频对象的针对所述...

【专利技术属性】
技术研发人员:J
申请(专利权)人:诺基亚技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1