对多个音频对象进行编码的装置和方法以及使用两个或更多个相关音频对象进行解码的装置和方法制造方法及图纸

技术编号:38376634 阅读:15 留言:0更新日期:2023-08-05 17:37
一种用于对多个音频对象进行编码的装置,包括:对象参数计算器(100),被配置为:针对与时间帧相关的多个频率区间中的一个或多个频率区间,计算至少两个相关音频对象的参数数据,其中,至少两个相关音频对象的数量低于多个音频对象的总数;以及输出接口(200),被配置为输出编码音频信号,该编码音频信号包括关于一个或多个频率区间的至少两个相关音频对象的参数数据的信息。的参数数据的信息。的参数数据的信息。

【技术实现步骤摘要】
【国外来华专利技术】对多个音频对象进行编码的装置和方法以及使用两个或更多个相关音频对象进行解码的装置和方法


[0001]本专利技术涉及音频信号(例如,音频对象)的编码和编码音频信号(例如,编码音频对象)的解码。

技术介绍

[0002]引言
[0003]本文档描述了一种使用定向音频编码(DirAC)以低比特率对基于对象的音频内容进行编码和解码的参数化方法。所呈现的实施例用作3GPP沉浸式语音和音频服务(IVAS)编解码器的一部分,并且其中提供了对低比特率的具有元数据的独立流(ISM)模式(一种离散编码方法)的有利替代。
[0004]现有技术
[0005]对象的离散编码
[0006]对基于对象的音频内容进行编码的最直接方法是单独地编码并将对象和对应的元数据一起发送。该方法的主要缺点是:随着对象数量的增加,对对象进行编码所需的比特消耗过高。该问题的简单解决方案是采用“参数化方法”,其中,一些相关参数是根据输入信号计算的,与组合若干个对象波形的合适下混信号一起进行量化和发送。
[0007]空间音频对象编码(SAOC)
[0008]空间音频对象编码[SAOC_STD、SAOC_AES]是一种参数化方法,其中,编码器基于某个下混矩阵D和参数集来计算下混信号,并将这两者发送给解码器。这些参数表示所有各个对象的心理声学相关属性和关系。在解码器处,使用渲染矩阵R将下混渲染到特定扬声器布局。
[0009]SAOC的主要参数是大小为N*N的对象协方差矩阵E,其中,N是指对象的数量。将该参数作为对象级别差异(OLD)和可选的对象间协方差(IOC)传输给解码器。
[0010]矩阵E的各个元素e
i,j
由下式给出:
[0011][0012]对象级别差异(OLD)被定义为
[0013][0014]其中,和绝对对象能量(NRG)被描述为
[0015][0016]以及
[0017][0018]其中,i和j分别是对象x
i
和x
j
的对象索引,n指示时间索引,以及k指示频率索引。l指示时间索引集,并且m指示频率索引集。ε是避免被零除的附加常数,例如ε=10。
[0019]输入对象(IOC)的相似度测量值可以例如由互相关给出:
[0020][0021]大小为N_dmx*N的下混矩阵D由元素d
i,j
来定义,其中,i是指下混信号的通道索引,并且j是指对象索引。对于立体声下混(N_dmx=2),d
i,j
根据参数DMG和DCLD被计算为
[0022][0023][0024]其中,DMG
i
和DCLD
i
由下式给出:
[0025][0026][0027]对于单声道下混(N_dmx=1)情况,d
i,j
仅根据DMG参数被计算为
[0028][0029]其中,
[0030][0031]空间音频对象编码

3D(SAOC

3D)
[0032]空间音频对象编码3D音频再现(SAOC

3D)[MPEGH_AES、MPEGH_IEEE、MPEGH_STD、
SAOC_3D_PAT]是上述MPEG SAOC技术的扩展,MPEG SAOC技术以比特率非常高效的方式对通道和对象信号进行压缩和渲染。
[0033]与SAOC的主要差异是:
[0034]·
虽然原始SAOC仅支持多达两个下混通道,但SAOC

3D可以将多对象输入映射到任意数量的下混通道(和关联的辅助信息)。
[0035]·
与已经使用MPEG环绕声作为多通道输出处理器的经典SAOC相比,直接渲染到多通道输出。
[0036]·
丢弃了一些工具,例如残差编码工具。
[0037]尽管存在这些差异,但从参数角度来看,SAOC

3D与SAOC相同。SAOC

3D解码器——类似于SAOC解码器——接收多通道下混X、协方差矩阵E、渲染矩阵R和下混矩阵D。
[0038]渲染矩阵R由输入通道和输入对象来定义,并且分别从格式转换器(通道)和对象渲染器(对象)接收。
[0039]下混矩阵D由元素d
i,j
来定义,其中,i是指下混信号的通道索引,并且j是指对象索引并根据下混增益(DMG)进行计算:
[0040][0041]其中,
[0042][0043]大小为N_out*N_out的输出协方差矩阵C被定义为:
[0044]C=RER
*
[0045]相关方案
[0046]存在与SAOC本质上相似但存在以下细微差异的若干个其他方案:
[0047]·
针对对象的双耳提示编码(BCC)已经在例如[BCC2001]中进行了描述,并且是SAOC技术的前身。
[0048]·
联合对象编码(JOC)和高级联合对象编码(A

JOC)执行与SAOC类似的功能,同时在解码器侧提供大致分离的对象,而不将它们渲染到特定输出扬声器布局[JOC_AES,AC4_AES]。该技术将上混矩阵的元素从下混发送给分离对象作为参数
[0049](而不是OLD)。
[0050]定向音频编码(DirAC)
[0051]另一种参数化方法是定向音频编码。DirAC[Pulkki2009]是空间声音的感知驱动再现。假设:在一个时间实例并针对一个临界频带,人类听觉系统的空间分辨率仅限于对一个方向线索和另一耳间相干性线索进行解码。
[0052]基于这些假设,DirAC通过淡入淡出两个流来表示一个频带中的空间声音:非定向扩散流和定向非扩散流。DirAC处理分两个阶段执行:分析和合成,如图12a和图12b所示。
[0053]在DifAC分析阶段,将B格式的一阶重合麦克风视为输入,并在频域中分析声音的扩散度和到达方向。
[0054]在DifAC合成级中,声音被划分为两个流,即非扩散流和扩散流。使用幅度平移(panning)将非扩散流再现为点源,这可以通过使用向量基幅度平移(VBAP)[Pulkki1997]来进行。扩散流负责产生包围感,并且是通过向扬声器传送相互解相关信号来产生的。
[0055]图12a中的分析级包括带滤波器1000、能量估计器1001、强度估计器1002、时间平均元件999a和999b、扩散度计算器1003和方向计算器1004。所计算的空间参数是每个时间/频率区的介于0和1之间的扩散度值和由块1004生成的每个时间/频率区的到达方向参数。在图12a中,方向参数包括方位角和仰角,该方位角和仰角指示声音相对于参考或收听位置并且具体地相对于麦克风所在位置的到达方向,从该位置收集输入到带滤波器1000的四个分量信号。在图12a中,这些分量信号是一阶环绕声分量,该一阶环绕声分量包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对多个音频对象进行编码的装置,包括:对象参数计算器(100),被配置为:针对与时间帧相关的多个频率区间中的一个或多个频率区间,计算至少两个相关音频对象的参数数据,其中,所述至少两个相关音频对象的数量低于所述多个音频对象的总数,以及输出接口(200),被配置为输出编码音频信号,所述编码音频信号包括关于所述一个或多个频率区间的所述至少两个相关音频对象的参数数据的信息。2.根据权利要求1所述的装置,其中,所述对象参数计算器(100)被配置为:将所述多个音频对象中的每个音频对象转换(120)为具有多个频率区间的频谱表示,计算(122)所述一个或多个频率区间的每个音频对象的选择信息,以及基于所述选择信息,导出(124)对象标识作为指示所述至少两个相关音频对象的参数数据,以及其中,所述输出接口(200)被配置为将关于所述对象标识的信息引入到所述编码音频信号中。3.根据权利要求1或2所述的装置,其中,所述对象参数计算器(100)被配置为:对所述一个或多个频率区间中的相关音频对象的一个或多个幅度相关测量值或从幅度相关测量值导出的一个或多个组合值进行量化和编码(212),作为所述参数数据,以及其中,所述输出接口(200)被配置为将经量化的一个或多个幅度相关测量值或经量化的一个或多个组合值引入到所述编码音频信号中。4.根据权利要求2或3所述的装置,其中,所述选择信息是所述音频对象的诸如幅度值、功率值或响度值、或提高到不同于1的功率的幅度之类的幅度相关测量值,以及其中,所述对象参数计算器(100)被配置为计算(127)组合值,例如相关音频对象的幅度相关测量值与相关音频对象的两个或更多个幅度相关测量值之和的比率,以及其中,所述输出接口(200)被配置为:将关于所述组合值的信息引入到所述编码音频信号中,其中,所述编码音频信号中关于所述组合值的信息项的数量至少等于1且小于所述一个或多个频率区间的相关音频对象的数量。5.根据权利要求2至4之一所述的装置,其中,所述对象参数计算器(100)被配置为基于所述一个或多个频率区间中的所述多个音频对象的选择信息的顺序来选择所述对象标识。6.根据权利要求2至5之一所述的装置,其中,所述对象参数计算器(100)被配置为:计算(122)信号功率作为所述选择信息,针对每个频率区间分别导出(124)对应一个或多个频率区间中的具有最大信号功率值的两个或更多个音频对象的对象标识,计算(126)具有所述最大信号功率值的两个或更多个音频对象的信号功率之和与具有所导出的对象标识的音频对象中的每个音频对象的信号功率之间的功率比作为所述参数数据,以及对所述功率比进行量化和编码(212),以及其中,所述输出接口(200)被配置为将经量化和编码的功率比引入到所述编码音频信号中。
7.根据权利要求1至6之一所述的装置,其中,所述输出接口(200)被配置为将以下内容引入到所述编码音频信号中:一个或多个编码传输通道,作为所述参数数据的、所述时间帧中的多个频率区间中的一个或多个频率区间中的每个频率区间的相关音频对象的两个或更多个编码对象标识,以及一个或多个编码组合值或编码幅度相关测量值,以及所述时间帧中的每个音频对象的经量化和编码的方向数据,所述方向数据对于所述一个或多个频率区间中的所有频率区间是恒定的。8.根据权利要求1至7之一所述的装置,其中,所述对象参数计算器(100)被配置为:计算所述一个或多个频率区间中的至少最主要对象和第二最主要对象的参数数据,或其中,所述多个音频对象中的音频对象的数量是三个或更多个,所述多个音频对象包括第一音频对象、第二音频对象和第三音频对象,以及其中,所述对象参数计算器(100)被配置为:针对所述一个或多个频率区间中的第一频率区间,仅计算诸如所述第一音频对象和所述第二音频对象的第一组音频对象作为所述相关音频对象;以及针对所述一个或多个频率区间中的第二频率区间,仅计算诸如所述第二音频对象和所述第三音频对象或所述第一音频对象和所述第三音频对象的第二组音频对象作为所述相关音频对象,其中,所述第一组音频对象至少在一个组成员方面不同于所述第二组音频对象。9.根据权利要求1至8之一所述的装置,其中,所述对象参数计算器(100)被配置为:计算具有第一时间或频率分辨率的原始参数化数据,并将所述原始参数化数据组合为具有比所述第一时间或频率分辨率低的第二时间或频率分辨率的组合参数化数据,并且相对于具有所述第二时间或频率分辨率的组合参数化数据计算所述至少两个相关音频对象的参数数据,或确定具有与所述多个音频对象的时间或频率分解中使用的第一时间或频率分辨率不同的第二时间或频率分辨率的参数带,并且针对具有所述第二时间或频率分辨率的参数带计算所述至少两个相关音频对象的参数数据。10.根据前述权利要求之一所述的装置,其中,所述多个音频对象包括指示关于所述多个音频对象的方向信息(810)的相关元数据,以及其中,所述装置还包括:下混器(400),用于对所述多个音频对象进行下混以获得一个或多个传输通道,其中,所述下混器(400)被配置为:响应于关于所述多个音频对象的方向信息而对所述多个音频对象进行下混;以及传输通道编码器(300),用于对一个或多个传输通道进行编码以获得一个或多个编码传输通道;以及其中,所述输出接口(200)被配置为:将所述一个或多个传输通道引入到所述编码音频信号中。11.根据权利要求10所述的装置,其中,所述下混器(400)被配置为:生成两个传输通道作为两个虚拟麦克风信号,所述两个虚拟麦克风信号布置在相同位置处并具有不同取向、或布置在相对于诸如虚拟听者位置或取向的参考位置或取向的两个
不同位置处,或生成三个传输通道作为三个虚拟麦克风信号,所述三个虚拟麦克风信号布置在相同位置处并具有不同取向、或布置在相对于诸如虚拟听者位置或取向的参考位置或取向的三个不同位置处,或生成四个传输通道作为四个虚拟麦克风信号,所述四个虚拟麦克风信号布置在相同位置处并具有不同取向、或布置在相对于诸如虚拟听者位置或取向之类的参考位置或取向的四个不同位置处,或其中,所述虚拟麦克风信号是虚拟一阶麦克风信号、或虚拟心形麦克风信号、或虚拟8字形或偶极或双向麦克风信号、或虚拟定向麦克风信号、或虚拟亚心形麦克风信号、或虚拟单向麦克风信号、或虚拟超心形麦克风信号、或虚拟全向麦克风信号。12.根据权利要求10或11所述的装置,其中,所述下混器(400)被配置为:针对所述多个音频对象中的每个音频对象,使用对应音频对象的方向信息来导出(402)针对每个传输通道的加权信息;使用针对特定传输通道的音频对象的加权信息对所述对应音频对象进行加权(404),以获得针对所述特定传输通道的对象贡献,以及组合(406)所述多个音频对象对所述特定传输通道的对象贡献,以获得所述特定传输通道。13.根据权利要求10至12之一所述的装置,其中,所述下混器(400)被配置为:计算所述一个或多个传输通道作为一个或多个虚拟麦克风信号,所述一个或多个虚拟麦克风信号布置在相同位置处并且具有不同取向、或布置在相对于诸如虚拟听者位置或取向之类的参考位置或取向的不同位置处,所述方向信息与所述参考位置或取向相关,其中,所述不同位置或取向在中心线上或所述中心线的左侧和中心线上或中心线的右侧,或者其中,所述不同位置或取向均匀或不均匀地分布到水平位置或取向,例如相对于所述中心线+90度或

90度,或相对于所述中心线

120度、0度和+120度,或者其中,所述不同位置或取向包括相对于虚拟听者所在的水平面向上或向下指向的至少一个位置或取向,其中,关于所述多个音频对象的方向信息与所述虚拟听者位置或参考位置或取向相关。14.根据权利要求10至13之一所述的装置,还包括:参数处理器(110),用于对指示关于所述多个音频对象的方向信息的元数据进行量化,以获得针对所述多个音频对象的量化方向项,其中,所述下混器(400)被配置为:响应于作为所述方向信息的量化方向项进行操作,以及其中,所述输出接口(200)被配置为:将关于所述量化方向项PA231...

【专利技术属性】
技术研发人员:安德里亚
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1