System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 使用不同的时间/频率分辨率来编码或解码定向音频编码参数的装置和方法制造方法及图纸_技高网

使用不同的时间/频率分辨率来编码或解码定向音频编码参数的装置和方法制造方法及图纸

技术编号:40050843 阅读:5 留言:0更新日期:2024-01-16 21:11
一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置和方法。该装置包括:参数计算器(100),用于计算具有第一时间或频率分辨率的扩散度参数并用于计算具有第二时间或频率分辨率的方向参数;以及量化器和编码器处理器(200),用于产生扩散度参数和方向参数的经量化且经编码的表示。还公开了用于解码包括定向音频编码参数的经编码的音频信号的解码器和方法以及计算机可读存储介质。

【技术实现步骤摘要】

本专利技术涉及音频信号处理,并且具体涉及诸如dirac元数据之类的定向音频编码参数的有效编码方案。


技术介绍

1、本专利技术旨在提出用于来自由定向音频编码(dirac)(一种用于空间音频处理的感知激励技术)进行的3d音频场景分析的编码空间元数据的低比特率编码解决方案。

2、发送三维的音频场景需要处理多个声道,这通常引起发送大量数据。定向音频编码(directional audio coding;dirac)技术[1]是用于分析音频场景并以参数方式对其进行表示的有效方法。dirac基于针对每个频带测量的到达方向(doa)和扩散度来使用声场的感知激励表示。其是依据如下假设来建立的:在一个时刻并且对于一个临界频带,听觉系统的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。然后通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在频域中再现空间声音。

3、本专利技术公开了基于dirac声音表示和再现的3d音频编码方法来实现低比特率下的沉浸式音频内容的传输。

4、dirac是感知激励空间声音再现。假设在一个时刻并且对于一个临界频带,听觉系统的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。

5、基于这些假设,dirac通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在一个频带中表示空间声音。dirac处理在如下两个阶段中执行:如图10a和图10b中所描绘的分析阶段和合成阶段。

6、在dirac分析阶段中,具有b格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。

7、在dirac合成阶段中,声音被分成两个流,即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源,可以通过使用向量基幅度平移(vbap)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。

8、dirac参数(在下文中也称为空间元数据或dirac元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示,而扩散度是位于0与1之间的标量因子。

9、图10a示出了接收b格式输入信号的滤波器组130。执行能量分析132和强度分析134。执行在136处指示的能量结果的时间平均和在138处指示的强度结果的时间平均,并且根据平均数据,如110处所指示地计算各个时间段/频段的扩散度值。通过框120来计算由滤波器组130的时间或频率分辨率给定的时间段/频段的方向值。

10、在图10b中所示的dirac合成中,再次使用分析滤波器组431。例如,应用虚拟麦克风处理框421,其中虚拟麦克风与例如5.1扬声器装置的扬声器位置相对应。扩散度元数据由用于扩散度的对应的处理框422和由框423处指示的向量基幅度平移(vbap)增益表来处理。扬声器平均框424被配置为执行增益平均,并且对应的归一化框425被应用以便在各个最终扬声器信号中具有对应的定义的响度等级。在框426中执行麦克风补偿。

11、所得信号一方面用于产生包括去相关阶段的扩散流427,并且另外也产生不扩散流428。针对对应的子带在加法器429中使两个流相加,并且在框431中,执行与其他子带的相加(即,频率到时间转换)。因此,框431也可以被视为合成滤波器组。对于来自特定扬声器装置的其他声道进行类似的处理操作,其中对于不同声道,框421中的虚拟麦克风的设定将是不同的。

12、在dirac分析阶段中,具有b格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。

13、在dirac合成阶段中,声音被分成两个流,即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源,可以通过使用向量基幅度平移(vbap)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。

14、dirac参数(在下文中也称为空间元数据或dirac元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示,而扩散度是位于0与1之间的标量因子。

15、如果stft被视为具有20毫秒的时间分辨率(这通常在若干论文中建议)并且在相邻分析窗之间具有50%的重叠的时间-频率变换,则针对以48khz采样的输入,dirac分析将产生每秒288000个值,如果在8个比特上量化角度,则这对应于约2.3mbit/s的总比特率。该数据量并不适合于实现低比特率空间音频编码,并且因此需要dirac元数据的有效编码方案。

16、关于元数据的减小的先前工作主要集中于电话会议情形,其中dirac的性能被极大地减小以便允许其参数的最小数据速率[4]。实际上,提出将定向分析限制于水平面中的方位角以便仅再现2d音频场景。此外,仅发送至多7khz的扩散度和方位角,从而将通信限制于宽带语音。最终,基于一个或两个比特粗略量化扩散度,从而在合成阶段中仅有时接通或断开扩散流,这在考虑多个音频源和背景噪声上的大于单个语音时是不够通用的。在[4]中,在3比特上量化方位角并且假设源(在该情况下为扬声器)具有非常静态的位置。因此,仅通过50毫秒的更新频率来发送参数。基于这些许多有力的假设,对比特的需求可以减小至约3kbit/s。


技术实现思路

1、本专利技术的目的是提供改进的空间音频编码概念。

2、此目的是通过本申请示例实施例的用于编码定向音频编码参数的装置、本申请示例实施例的用于编码定向音频编码参数的方法、本申请示例实施例的用于解码经编码的音频信号的解码器、本申请示例实施例的用于解码的方法或本申请示例实施例的计算机程序来实现的。

3、根据一个方面,本专利技术基于以下发现:当一方面扩散度参数和另一方面方向参数被提供有不同分辨率并且具有不同分辨率的不同参数被量化和编码以获得经编码的定向音频编码参数时,一方面获得增强的质量,同时另一方面获得用于编码空间音频编码参数的减小的比特率。

4、在实施例中,扩散度参数的时间或频率分辨率低于定向参数的时间或频率分辨率。在另一实施例中,不仅在频率上而且还在时间上执行分组。例如,计算具有高分辨率(即针对高分辨率时间段/频段来计算)最初的扩散度/定向音频编码参数,并且执行分组并且优选地通过平均来执行分组,以便计算具有低时间或频率分辨率的所得扩散度参数以及计算具有中等时间或频率分辨率(即,位于扩散度参数的时间或频率分辨率与最初的高分辨率之间的时间或频率分辨率)的所得定向参数,已经计算了最初原始参数的最初的高分辨率。

5、在实施例中,第一和第二时间分辨率是不同的而第一和第二频率分辨率是相同的,或反之亦然,也就是说,第一和第二频率分辨率是不同的而第一和第二时间分辨率是相同的。在另一实施例中,第一和第二时间分辨率二者是不同的并且第一和第二频率分辨率也是不同的。因此,第一时间或频率分辨率也可以被认为是第一时间-频率分辨率并且第二时间或频率分辨率也可以被认为是第二时间-频率分辨率。

本文档来自技高网...

【技术保护点】

1.一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置,包括:

2.根据权利要求1所述的装置,其中所述参数计算器(100)被配置用于计算所述扩散度参数和所述方向参数,以使得所述第二时间或频率分辨率不同于所述第一时间或频率分辨率。

3.根据权利要求1或2所述的装置,其中所述参数计算器(100)被配置为计算所述扩散度参数和所述方向参数,以使得所述第一时间分辨率低于所述第二时间分辨率,或所述第二频率分辨率高于所述第一频率分辨率,或所述第一时间分辨率低于所述第二时间分辨率并且所述第一频率分辨率等于所述第二频率分辨率。

4.如前述权利要求中的一项所述的装置,

5.如前述权利要求中的一项所述的装置,

6.根据权利要求5所述的装置,

7.根据权利要求5或6所述的装置,

8.根据权利要求5至7中的任一项所述的装置,

9.根据权利要求8所述的装置,

10.根据权利要求5至9中的任一项所述的装置,

11.根据权利要求5至9中的任一项所述的装置,

12.根据前述权利要求中的一项所述的装置,

13.根据前述权利要求中的一项所述的装置,还包括:

14.根据权利要求6至13中的一项所述的装置,

15.根据前述权利要求中的一项所述的装置,

16.根据前述权利要求中的一项所述的装置,其中用于产生所述扩散度参数和所述方向参数的经量化和经编码的表示的所述量化器和编码器处理器(200)包括用于量化所述扩散度参数和所述方向参数的参数量化器和根据上述示例1至26中的任一项中所限定的用于编码经量化的扩散度参数和经量化的方向参数的参数编码器。

17.一种用于编码包括扩散度参数和方向参数的定向音频编码参数的方法,包括:

18.一种用于解码包括定向音频编码参数的经编码的音频信号的解码器,所述定向音频编码参数包括经编码的扩散度参数和经编码的方向参数,所述解码器包括:

19.根据权利要求18所述的解码器,还包括在谱域中操作的音频渲染器(420),针对帧,所述谱域包括第一数量的时隙和第二数量的频带,以使得帧包括等于所述第一数量和所述第二数量的相乘结果的数个时间段/频段,其中所述第一数量和所述第二数量限定所述第三时间或频率分辨率。

20.根据权利要求18或19所述的解码器,还包括在谱域中操作的音频渲染器(420),针对帧,所述谱域包括第一数量的时隙和第二数量的频带,以使得帧包括等于所述第一数量和所述第二数量的相乘结果的数个时间段/频段,其中所述第一数量及所述第二数量限定第四时间-频率分辨率,其中所述第四时间或频率分辨率等于或高于所述第三时间或频率分辨率。

21.根据权利要求18至20中的一项所述的解码器,

22.根据权利要求18至21中的一项所述的解码器,

23.根据权利要求18至22中的一项所述的解码器,其中所述经编码的音频信号包括经编码的音频输送信号,其中所述解码器包括:

24.根据权利要求18至23中的一项所述的解码器,包括:

25.根据权利要求18至24中的一项所述的解码器,

26.根据权利要求18至25中的一项所述的解码器,

27.根据权利要求18至26中的一项所述的解码器,

28.根据权利要求18至27中的一项所述的解码器,

29.根据权利要求18至28中的一项所述的解码器,

30.根据权利要求18至29中的一项所述的解码器,

31.根据权利要求18至30中的一项所述的解码器,

32.一种用于解码包括定向音频编码参数的经编码的音频信号的方法,所述定向音频编码参数包括经编码的扩散度参数和经编码的方向参数,所述方法包括:

33.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序当计算机或处理器上运行时,用于执行根据权利要求17或32所述的方法。

...

【技术特征摘要】

1.一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置,包括:

2.根据权利要求1所述的装置,其中所述参数计算器(100)被配置用于计算所述扩散度参数和所述方向参数,以使得所述第二时间或频率分辨率不同于所述第一时间或频率分辨率。

3.根据权利要求1或2所述的装置,其中所述参数计算器(100)被配置为计算所述扩散度参数和所述方向参数,以使得所述第一时间分辨率低于所述第二时间分辨率,或所述第二频率分辨率高于所述第一频率分辨率,或所述第一时间分辨率低于所述第二时间分辨率并且所述第一频率分辨率等于所述第二频率分辨率。

4.如前述权利要求中的一项所述的装置,

5.如前述权利要求中的一项所述的装置,

6.根据权利要求5所述的装置,

7.根据权利要求5或6所述的装置,

8.根据权利要求5至7中的任一项所述的装置,

9.根据权利要求8所述的装置,

10.根据权利要求5至9中的任一项所述的装置,

11.根据权利要求5至9中的任一项所述的装置,

12.根据前述权利要求中的一项所述的装置,

13.根据前述权利要求中的一项所述的装置,还包括:

14.根据权利要求6至13中的一项所述的装置,

15.根据前述权利要求中的一项所述的装置,

16.根据前述权利要求中的一项所述的装置,其中用于产生所述扩散度参数和所述方向参数的经量化和经编码的表示的所述量化器和编码器处理器(200)包括用于量化所述扩散度参数和所述方向参数的参数量化器和根据上述示例1至26中的任一项中所限定的用于编码经量化的扩散度参数和经量化的方向参数的参数编码器。

17.一种用于编码包括扩散度参数和方向参数的定向音频编码参数的方法,包括:

18.一种用于解码包括定向音频编码参数的经编码的音频信号的解码器,所述定向音频编码参数包括经编码的扩散度参数和经编码...

【专利技术属性】
技术研发人员:纪尧姆·福克斯于尔根·赫勒法比安·库奇斯蒂芬·朵拉马库斯·马特拉斯奥利弗·迪尔加特奥利弗·维博尔特弗罗林·吉多斯特凡·拜尔乌尔夫冈·雅吉斯
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1