用于低延迟对象元数据编码的装置及方法制造方法及图纸

技术编号:26224661 阅读:36 留言:0更新日期:2020-11-04 10:59
提供一种用于生成一个或多个音频声道的装置。该装置包括:根据控制信号从一个或多个经处理的元数据信号生成一个或多个重建的元数据信号的元数据解码器,其中一个或多个重建的元数据信号中的每个指示与一个或多个音频对象信号中的音频对象信号相关联的信息,其中元数据解码器用于通过确定用于一个或多个重建的元数据信号中的每个的多个重建的元数据样本,生成一个或多个重建的元数据信号。此外该装置包括用于根据一个或多个音频对象信号以及根据一个或多个重建的元数据信号生成一个或多个音频声道的音频声道生成器。

【技术实现步骤摘要】
用于低延迟对象元数据编码的装置及方法本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年7月16日、申请号为201480041461.1、专利技术名称为“用于低延迟对象元数据编码的装置及方法”的分案申请。
本专利技术涉及音频编码/解码,特别涉及空间音频编码和空间音频对象编码,更特别涉及用于有效的对象元数据编码的装置和方法。
技术介绍
在本
中,空间音频编码工具是众所周知的并且,例如,在环绕MPEG标准中已被标准化。空间音频编码从诸如在再现装备(setup)中通过其布置而识别的五个或七个声道(即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道)的原始输入声道开始。空间音频编码器通常从原始声道得到一个或多个降混合声道,以及此外,得到关于空间线索(cues)的参数化数据,例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混合声道与指示空间线索的参数化边信息一起被传输至空间音频解码器,该空间音频解码器对降混合声道和相关联的参数化数据进行解码以最终获得输出声道,该输出声道为原始输入声道的近似版本。声道在输出装备中的布置通常为固定的且为,例如5.1声道格式或7.1声道格式等。此种基于声道的音频格式被广泛用于储存或传输多声道音频内容,其中每个声道涉及在给定位置处的特定扬声器。这些种类的格式的忠实再现需要扬声器装备,其中扬声器放置在与音频信号产生期间所使用的扬声器相同的位置。而增加扬声器数量可改进真正拟真的三维音频场景的再现,但是达到此要求变得越来越困难,尤其是在诸如客厅的家庭环境中。通过基于对象的方法可以克服对特定扬声器装备的需求,在基于对象的方法中特别针对播放装备渲染扬声器信号。例如,空间音频对象编码工具在此
中是众所周知的且在MPEGSAOC(SAOC=空间音频对象编码)标准中被标准化。相比于空间音频编码从原始声道开始,空间音频对象编码从非自动专用于特定渲染再现装备的音频对象开始。另外,音频对象在再现场景中的布置是灵活的,且可由用户通过将特定渲染信息输入至空间音频对象编码解码器来确定。可选地或此外地,渲染信息,即在再现装备中特定音频对象通常随时间待被放置的位置处的信息,可被传输作为附加的边信息或元数据。为了获得特定的数据压缩,通过SAOC编码器对多个音频对象进行编码,SAOC编码器通过根据特定的降混合信息对对象进行降混合以从输入对象计算一个或多个传输声道。此外,SAOC编码器计算表示对象间线索的参数化边信息,例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中,针对个别的时间/频率平铺(time/frequencytiles)(即,针对包括例如1024或2048个样本的音频信号的特定帧,24、32或64等)计算对象间参数化数据,考虑频带以使得最后对于每个帧和每个频带都存在参数化数据。作为示例,当音频片具有20个帧且每个帧被细分成32个频带时,时间/频率平铺的数量为640。在基于对象的方法中,通过离散音频对象描述声场。此需要对象元数据,其描述每个声源在3D空间中的时变位置。现有技术中的第一元数据编码概念为空间声音描述交换格式(SpatDIF),尚在发展中的音频场景描述格式[1]。音频场景描述格式被设计为用于基于对象的声音场景的交换格式,且其并没有提供任何用于对象轨迹的压缩方法。SpatDIF使用基于文本的开放式声音控制(OSC)格式以构造对象元数据[2]。然而,简单的基于文本的表示并不是用于对象轨迹的经压缩的传输的选项。现有技术中的另一个元数据概念为音频场景描述格式(ASDF)[3],其和基于文本的解决方案具有相同的缺点。由同步多媒体集成语言(SMIL)的扩展构造数据,该同步多媒体集成语言(SMIL)为可扩展标记语言(XML)[4,5]的子集。现有技术中的另一个元数据概念为用于场景的音频二进制格式(AudioBIFS),二进制格式是MPEG-4规范[6,7]的一部分。它与基于XML的虚拟现实建模语言(VRML)密切相关,基于XML的虚拟现实建模语言被开发用于音频虚拟3D场景的描述和交互式虚拟现实应用[8]。复杂的AudioBIFS规范使用场景图以指定对象移动的路径。AudioBIFS的主要缺点在于,它并非被设计用于要求有限的系统延迟和随机访问数据流的实时操作。此外,对象位置的编码没有运用听者的有限定位能力。对于音频虚拟场景中的固定的听者位置,可以利用较低数目的比特[9]来量化对象数据。因此,应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。因此,如果能提供改进的有效的对象元数据编码概念,将会获得高度的赞赏。
技术实现思路
本专利技术的目的在于提供用于对象元数据编码的改进技术。提供一种用于生成一个或多个音频声道的装置,该装置包括:元数据解码器,用于根据控制信号(b)从一个或多个经处理的元数据信号(z1,…,zN)生成一个或多个重建的元数据信号(x1’,…,xN’),其中一个或多个重建的元数据信号(x1’,…,xN’)中的每个指示与一个或多个音频对象信号的音频对象信号相关联的信息,其中元数据解码器用于通过确定用于一个或多个重建的元数据信号(x1’,…,xN’)中的每个的多个重建的元数据样本(x1’(n),…,xN’(n))以生成一个或多个重建的元数据信号(x1’,…,xN’)。此外,该装置包括:音频声道生成器,用于根据一个或多个音频对象信号以及根据一个或多个重建的元数据信号(x1’,…,xN’)生成一个或多个音频声道。元数据解码器用于接收一个或多个经处理的元数据信号(z1,…,zN)中的每个的多个经处理的元数据样本(z1(n),…,zN(n))。此外,元数据解码器用于接收控制信号(b)。此外,元数据解码器用于确定一个或多个重建的元数据信号(x1’,…,xN’)中的每个重建的元数据信号(xi’)的多个重建的元数据样本(xi’(1),…xi’(n-1),xi’(n))中的每个重建的元数据样本(xi’(n)),以使得当控制信号(b)指示第一状态(b(n)=0)时,所述重建的元数据样本(xi’(n))为一个或多个经处理的元数据信号中的一个(zi)的经处理的元数据样本中的一个(zi(n))与所述重建的元数据信号(xi’)的另一个已生成的重建的元数据样本(xi’(n-1))的和,并使得当控制信号指示不同于第一状态的第二状态(b(n)=1)时,所述重建的元数据样本(xi’(n))为一个或多个经处理的元数据信号(z1,…,zN)中的所述一个(zi)的经处理的元数据样本(zi(1)),…,zi(n))中的所述一个(zi(n))。此外,提供一种用于生成包括一个或多个编码的音频信号和一个或多个经处理的元数据信号的编码的音频信息的装置。此装置包括:元数据编码器,用于接收一个或多个原始元数据信号,以及用于确定一个或多个经处理的元数据信号,其中一个或多个原始元数据信号中的每个包括多个原始元数据样本,其中一个或多个原始元数据信号中的每个的原始元数据样本指示与一个或多本文档来自技高网
...

【技术保护点】
1.一种用于生成一个或多个音频声道的装置(100),其中所述装置包括:/n元数据解码器(110;901),用于根据控制信号(b)从一个或多个经处理的元数据信号(z

【技术特征摘要】
20130722 EP EP13177365;20130722 EP EP13177367;20131.一种用于生成一个或多个音频声道的装置(100),其中所述装置包括:
元数据解码器(110;901),用于根据控制信号(b)从一个或多个经处理的元数据信号(z1,…,zN)生成一个或多个重建的元数据信号(x1’,…,xN’),其中所述一个或多个重建的元数据信号(x1’,…,xN’)中的每个指示与一个或多个音频对象信号中的音频对象信号相关联的信息,其中所述元数据解码器(110;901)用于通过确定用于所述一个或多个重建的元数据信号(x1’,…,xN’)中的每个的多个重建的元数据样本(x1’(n),…,xN’(n))以生成所述一个或多个重建的元数据信号(x1’,…,xN’),以及
音频声道生成器(120),用于根据所述一个或多个音频对象信号以及根据所述一个或多个重建的元数据信号(x1’,…,xN’)生成所述一个或多个音频声道,
其中所述元数据解码器(110;901)用于接收所述一个或多个经处理的元数据信号(z1,…,zN)中的每个的多个经处理的元数据样本(z1(n),…,zN(n)),
其中所述元数据解码器(110;901)用于接收所述控制信号(b),
其中所述元数据解码器(110;901)用于确定所述一个或多个重建的元数据信号(x1’,…,xN’)中的每个重建的元数据信号(xi’)的所述多个重建的元数据样本(xi’(1),…xi’(n-1),xi’(n))中的每个重建的元数据样本(xi’(n)),以使得当所述控制信号(b)指示第一状态(b(n)=0)时,所述重建的元数据样本(xi’(n))为所述一个或多个经处理的元数据信号中的一个(zi)的经处理的元数据样本中的一个(zi(n))与所述重建的元数据信号(xi’)的另一个已生成的重建的元数据样本(xi’(n-1))的和,并使得当所述控制信号指示不同于所述第一状态的第二状态(b(n)=1)时,所述重建的元数据样本(xi’(n))为所述一个或多个经处理的元数据信号(z1,…,zN)中的所述一个(zi)的经处理的元数据样本(zi(1)),…,zi(n))中的所述一个(zi(n))。


2.根据权利要求1所述的装置(100),
其中所述元数据解码器(110;901)用于接收所述经处理的元数据信号(z1,…,zN)中的两个或更多,并用于生成所述重建的元数据信号(x1’,…,xN’)中的两个或更多,
其中所述元数据解码器(110;901)包括两个或更多元数据解码器子单元(911,…,91N),
其中所述两个或更多元数据解码器子单元(911,…,91N)中的每个(91i;91i’)被配置为包括加法器(910)和选择器(930),
其中所述两个或更多元数据解码器子单元(911,…,91N)中的每个(91i;91i’)用于接收所述两个或更多经处理的元数据信号(z1,…,zN)中的一个(zi)的所述多个经处理的元数据样本(zi(1),…zi(n-1),zi(n))并用于生成所述两个或更多重建的元数据信号(z1,…,zN)中的一个(zi),
其中所述元数据解码器子单元(91i;91i’)的所述加法器(910)用于将所述两个或更多经处理的元数据信号(zi(1),…zi(n))中的所述一个(zi)的所述经处理的元数据样本(zi(1),…zi(n))中的一个(zi(n))与所述两个或更多重建的元数据信号(z1,…,zN)中的所述一个(zi)的另一个已生成的重建的元数据样本(xi’(n-1))相加,以获得总和值(si(n)),以及
其中所述元数据解码器子单元(91i;91i’)的所述选择器(930)用于接收所述经处理的元数据样本中的一个(zi(n))、所述总和值(si(n))以及所述控制信号,且其中所述选择器(930)用于确定所述重建的元数据信号(xi’)的所述多个元数据样本(xi’(1),…xi’(n-1),xi’(n))中的一个,以使得当所述控制信号(b)指示所述第一状态(b(n)=0)时,所述重建的元数据样本(xi’(n))为所述总和值(si(n)),并使得当所述控制信号(b)指示所述第二状态(b(n)=1)时,所述重建的元数据样本(xi’(n))为所述经处理的元数据样本(zi(1),…,zi(n))中的所述一个(zi(n))。


3.根据权利要求1所述的装置(100),
其中所述一个或多个重建的元数据信号(x1’,…,xN’)中的至少一个指示所述一个或多个音频对象信号中的一个的位置信息,且
其中所述音频声道生成器(120)用于根据所述一个或多个音频对象信号中的所述一个以及根据所述位置信息,生成所述一个或多个音频声道中的至少一个。


4.根据权利要求1所述的装置(100),
其中所述一个或多个重建的元数据信号(x1’,…,xN’)中的至少一个指示所述一个或多个音频对象信号中的一个的音量,且
其中所述音频声道生成器(120)用于根据所述一个或多个音频对象信号中的所述一个以及根据所述音量,生成所述一个或多个音频声道中的至少一个。


5.一种用于对编码的音频数据进行解码的装置,包括:
输入接口(1100),用于接收所述编码的音频数据,所述编码的音频数据包括多个编码的声道、多个编码的对象或与所述多个对象相关的经压缩的元数据,以及
根据权利要求1所述的装置(100),
其中根据权利要求1所述的装置(100)的所述元数据解码器(110;901)为用于解压缩所述经压缩的元数据的元数据解压缩器(400),
其中根据权利要求1所述的装置(100)的所述音频声道生成器(120)包括用于对所述多个编码的声道和所述多个编码的对象进行解码的核心解码器(1300),
其中所述音频声道生成器(120)还包括用于使用经解压缩的元数据,处理多个解码的对象以从所述对象和解码的声道中获得包括音频数据的多个输出声道(1205)的对象处理器(1200),且
其中所述音频声道生成器(120)还包括用于将所述多个输出声道(1205)转换成输出格式的后处理器(1700)。


6.一种用于生成包括一个或多个编码的音频信号和一个或多个经处理的元数据信号的编码的音频信息的装置(250),其中所述装置包括:
元数据编码器(210;801;802),用于接收一个或多个原始元数据信号,以及用于确定所述一个或多个经处理的元数据信号,其中所述一个或多个原始元数据信号中的每个包括多个原始元数据样本,其中所述一个或多个原始元数据信号中的每个的所述原始元数据样本指示与一个或多个音频对象信号中的音频对象信号相关联的信息,以及
音频编码器(220),用于对所述一个或多个音频对象信号进行编码以获得所述一个或多个编码的音频信号,
其中所述元数据编码器(210;801;802)用于确定所述一个或多个经处理的元数据信号(z1,…,zN)中的每个经处理的元数据信号(zi)的多个经处理的元数据样本(zi(1),…zi(n-1),zi(n))中的每个经处理的元数据样本(zi(n)),以使得当所述控制信号(b)指示第一状态(b(n)=0)时,所述重建的元数据样本(zi(n))指示所述一个或多个原始元数据信号中的一个(xi)的多个原始元数据样本中的一个(xi(n))与所述经处理的元数据信号(zi)的另一个已生成的经处理的元数据样本之间的差值或量化差值;并使得当所述控制信号指示不同于所述第一状态的第二状态(b(n)=1)时,所述经处理的元数据样本(zi(n))为所述一个或多个经处理的元数据信号中的所述一个(xi)的所述原始元数据样本(xi(1),…,xi(n))中的所述一个(xi(n))或为所述原始元数据样本(xi(1),…,xi(n))中的所述一个(xi(n))的量化表示(qi(n))。


7.根据权利要求6所述的装置(250),

【专利技术属性】
技术研发人员:克里斯蒂安·鲍斯克里斯蒂安·埃特尔约翰内斯·希勒佩特
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1