用于增强的空间音频对象编码的装置及方法制造方法及图纸

技术编号:13279997 阅读:69 留言:0更新日期:2016-05-19 04:09
提供一种用于生成一个或多个音频输出声道的装置。该装置包括:用于计算混合信息的参数处理器(110),以及用于生成一个或多个音频输出声道的降混合处理器(120)。降混合处理器(120)用于接收包括一个或多个音频传输声道的音频传输信号。一个或多个音频声道信号被混合在音频传输信号中,以及一个或多个音频对象信号被混合在音频传输信号中,且其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。参数处理器(110)用于接收指示一个或多个音频声道信号和一个或多个音频对象信号如何被混合在一个或多个音频传输声道中的信息的降混合信息,且其中参数处理器(110)用于接收协方差信息。此外,参数处理器(110)用于根据降混合信息以及根据协方差信息,计算混合信息。降混合处理器(120)用于根据混合信息,从音频传输信号生成一个或多个音频输出声道。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对的一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。

【技术实现步骤摘要】
【国外来华专利技术】用于增强的空间音频对象编码的装置及方法
本专利技术涉及音频编码/解码,特别涉及空间音频编码和空间音频对象编码,更特别地涉及用于增强的空间音频对象编码的装置和方法。
技术介绍
在本
中,空间音频编码工具是众所周知的并且,例如,在环绕MPEG标准中已被标准化。空间音频编码从诸如在再现装备(setup)中通过其布置而识别的五个或七个声道(即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道)的原始输入声道开始。空间音频编码器通常从原始声道得到一个或多个降混声道,以及此外,得到关于空间线索(cues)的参数化数据,例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混合声道与指示空间线索的参数化边信息一起被传输至空间音频解码器。该空间音频解码器对降混合声道和相关联的参数化数据进行解码以最终获得输出声道,该输出声道为原始输入声道的近似版本。声道在输出装备的布置通常为固定的且为,例如5.1声道格式或7.1声道格式等等。此种基于声道的音频格式被广泛用于储存或传输多声道音频内容,其中每个声道涉及在给定位置处的特定扬声器。这些种类的格式的忠实再现需要扬声器装备,其中扬声器放置在与音频信号产生期间所使用的扬声器相同的位置。而增加扬声器数量可改进真正拟真的三维音频场景的再现,但是达到此要求变得越来越困难,尤其是在诸如客厅的家庭环境中。通过基于对象的方法可以克服对特定扬声器装备的需求,在基于对象的方法中特别针对播放装备渲染扬声器信号。例如,空间音频对象编码工具在此
中是众所周知的且在MPEGSAOC(SAOC=空间音频对象编码)标准中被标准化。相比于空间音频编码从原始声道开始,空间音频对象编码从非自动专用于特定渲染再现装备的音频对象开始。另外,音频对象在再现场景中的布置是灵活的,且可由用户通过将特定渲染信息输入至空间音频对象编码解码器来确定。可选地或此外地,渲染信息,即在再现装备中特定音频对象通常随时间待被放置的位置处的信息,可被传输作为附加的边信息或元数据。为了获得特定的数据压缩,通过SAOC编码器对多个音频对象进行编码,SAOC编码器通过根据特定的降混合信息对对象进行降混合以从输入对象计算一个或多个传输声道。此外,SAOC编码器计算表示对象间线索的参数化边信息,例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中,针对参数时间/频率平铺(time/frequencytiles)(即,针对包括例如1024或2048个样本的音频信号的特定帧,28、20、14或10等)计算对象间参数化数据,考虑处理频带以使得最后对于每个帧和每个处理频带都存在参数化数据。作为示例,当音频片具有20个帧且每个帧被细分成28个处理频带时,参数时间/频率平铺的数量为560。在基于对象的方法中,通过离散音频对象描述声场。此需要对象元数据,其描述每个声源在3D空间中的时变位置。现有技术中的第一元数据编码概念为空间声音描述交换格式(SpatDIF),尚在发展中的音频场景描述格式[M1]。音频场景描述格式被设计为用于基于对象的声音场景的交换格式,其并没有提供任何用于对象轨迹的压缩方法。SpatDIF使用基于文本的开放式声音控制(OSC)格式以构造对象元数据[M2]。然而,简单的基于文本的表示并不是用于对象轨迹的经压缩的传输的选项。现有技术中的另一个元数据概念为音频场景描述格式(ASDF)[M3],其和基于文本的解决方案具有相同的缺点。由同步多媒体集成语言(SMIL)的扩展构造数据,该同步多媒体集成语言(SMIL)为可扩展标记语言(XML)[M4,M5]的子集。现有技术中的另一个元数据概念为用于场景的音频二进制格式(AudioBIFS),二进制格式是MPEG-4规范[M6,M7]的一部分,其与基于XML的虚拟现实建模语言(VRML)密切相关,基于XML的虚拟现实建模语言被开发用于音频虚拟3D场景的描述和交互式虚拟现实应用[M8]。复杂的AudioBIFS规范使用场景图以指定对象移动的路径。AudioBIFS的主要缺点在于,它并非被设计用于要求有限的系统延迟和随机访问数据流的实时操作。此外,对象位置的编码没有运用听者的有限定位能力。对于音频虚拟场景中的固定的听者位置,可以利用较低数目的比特[M9]来量化对象数据。因此,应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。
技术实现思路
本专利技术的目的在于提供用于空间音频对象编码的改进概念,通过以下描述的装置、系统、方法以及计算机程序实现本专利技术的目的。提供一种用于生成一个或多个音频输出声道的装置,该装置包括用于计算混合信息的参数处理器和用于生成一个或多个音频输出声道的降混合处理器。降混合处理器用于接收包括一个或多个音频传输声道的音频传输信号。一个或多个音频声道信号被混合在音频传输信号中,且一个或多个音频对象信号被混合在音频传输信号中,以及其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。参数处理器用于接收降混合信息,该降混合信息指示一个或多个音频声道信号和一个或多个音频对象信号如何被混合在一个或多个音频传输声道中的信息,且其中参数处理器用于接收协方差信息。此外,参数处理器用于根据降混合信息以及根据协方差信息,计算混合信息。降混合处理器用于根据混合信息从音频传输信号生成一个或多个音频输出声道。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。此外,提供一种用于生成包括一个或多个音频传输声道的音频传输信号的装置。该装置包括用于生成音频传输信号的一个或多个音频传输声道的声道/对象混合器以及输出接口。声道/对象混合器用于根据指示一个或多个音频声道信号以及一个或多个音频对象信号如何必须被混合在一个或多个音频传输声道中的信息的降混合信息,通过将一个或多个音频声道信号以及一个或多个音频对象信号混合在音频传输信号中,生成包括一个或多个音频传输声道的音频传输信号,其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。输出接口用于输出音频传输信号、降混合信息以及协方差信息。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。此外,提供一种系统。该系统包括如上所述的用于生成音频传输信号的装置,以及如上所述的用于生成一个或多个音频输出声道的装置。用于生成一个或多个音频输出声道的装置用于从用于生成音频传输信号的装置接收音频传输信号、降混合信息以及协方差信息。此外,用于生成音频输出声道的装置用于根据降混合信息以及根据协方差信息,从音频传输信号生成一个或多个音频输出声道。此外,明提供一种用于生成一个或多个音频输出声道的方法。该方法包括:-接收包括一个或多个音频传输声道的音频传输信号,本文档来自技高网
...

【技术保护点】
一种用于生成一个或多个音频输出声道的装置,其中所述装置包括:参数处理器(110),用于计算混合信息,以及降混合处理器(120),用于生成所述一个或多个音频输出声道,其中所述降混合处理器(120)用于接收包括一个或多个音频传输声道的音频传输信号,其中一个或多个音频声道信号被混合在所述音频传输信号中,其中一个或多个音频对象信号被混合在所述音频传输信号中,以及其中所述一个或多个音频传输声道的数目小于所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,其中所述参数处理器(110)用于接收降混合信息,所述降混合信息指示所述一个或多个音频声道信号以及所述一个或多个音频对象信号如何被混合在所述一个或多个音频传输声道中的信息,且其中所述参数处理器(110)用于接收协方差信息,其中所述参数处理器(110)用于根据所述降混合信息以及根据所述协方差信息,计算所述混合信息,以及其中所述降混合处理器(120)用于根据所述混合信息,从所述音频传输信号生成所述一个或多个音频输出声道,其中所述协方差信息指示用于所述一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的至少一个的水平差信息,以及其中所述协方差信息并不指示用于任意一对的所述一个或多个音频声道信号中的一个和所述一个或多个音频对象信号中的一个的相关性信息。...

【技术特征摘要】
【国外来华专利技术】2013.07.22 EP EP13177357;2013.07.22 EP EP13177371;1.一种用于生成一个或多个音频输出声道的装置,其中所述装置包括:参数处理器(110),用于计算混合信息,以及降混合处理器(120),用于生成所述一个或多个音频输出声道,其中所述降混合处理器(120)用于接收包括音频传输信号的音频传输声道的数据流,其中一个或多个音频声道信号被混合在所述音频传输信号中,其中一个或多个音频对象信号被混合在所述音频传输信号中,以及其中所述音频传输声道的数目小于所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,其中所述参数处理器(110)用于接收降混合信息,所述降混合信息指示所述一个或多个音频声道信号以及所述一个或多个音频对象信号如何被混合在所述音频传输声道中的信息,且其中所述参数处理器(110)用于接收协方差信息,以及其中所述参数处理器(110)用于根据所述降混合信息以及根据所述协方差信息,计算所述混合信息,以及其中所述降混合处理器(120)用于根据所述混合信息,从所述音频传输信号生成所述一个或多个音频输出声道,其中所述协方差信息指示用于所述一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的至少一个的水平差信息,以及其中所述协方差信息并不指示用于任意一对的所述一个或多个音频声道信号中的一个和所述一个或多个音频对象信号中的一个的相关性信息;其中所述一个或多个音频声道信号被混合在第一组的所述音频传输声道中的一个或多个中,其中所述一个或多个音频对象信号被混合在第二组的所述音频传输声道中的一个或多个中,其中所述第一组中的每个音频传输声道不被所述第二组所包括,且其中所述第二组中的每个音频传输声道不被所述第一组所包括,以及其中所述降混合信息包括第一降混合子信息,所述第一降混合子信息指示所述一个或多个音频声道信号如何被混合在所述第一组的音频传输声道中的信息,且其中所述降混合信息包括第二降混合子信息,所述第二降混合子信息指示所述一个或多个音频对象信号如何被混合在所述第二组的一个或多个音频传输声道中的信息,其中所述参数处理器(110)用于根据所述第一降混合子信息、根据所述第二降混合子信息以及根据所述协方差信息,计算所述混合信息,以及其中所述降混合处理器(120)用于根据所述混合信息,从所述第一组的音频传输声道以及从所述第二组的音频传输声道生成所述一个或多个音频输出信号;其中所述降混合处理器(120)用于接收第一声道计数数目,所述第一声道计数数目指示所述第一组的音频传输声道中的音频传输声道的数目,且其中所述降混合处理器(120)用于接收第二声道计数数目,所述第二声道计数数目指示所述第二组的音频传输声道中的音频传输声道的数目,以及其中所述降混合处理器(120)用于根据所述第一声道计数数目或根据所述第二声道计数数目或根据所述第一声道计数数目和所述第二声道计数数目,识别所述数据流内的音频传输声道是否属于所述第一组或所述第二组。2.根据权利要求1所述的装置,其中所述协方差信息指示用于所述一个或多个音频声道信号中的每个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的每个的水平差信息。3.根据权利要求1所述的装置,其中两个或更多音频对象信号被混合在所述音频传输信号中,且其中两个或更多音频声道信号被混合在所述音频传输信号中,其中所述协方差信息指示用于一对或多对的所述两个或更多音频声道信号中的第一个和所述两个或更多音频声道信号中的第二个的相关性信息,或其中所述协方差信息指示用于一对或多对的所述两个或更多音频对象信号中的第一个和所述两个或更多音频对象信号中的第二个的相关性信息,或其中所述协方差信息指示用于一对或多对的所述两个或更多音频声道信号中的第一个和所述两个或更多音频声道信号中的第二个的相关性信息,并指示用于一对或多对的所述两个或更多音频对象信号中的第一个和所述两个或更多音频对象信号的第二个的相关性信息。4.根据权利要求1所述的装置,其中所述协方差信息包括大小为NxN的协方差矩阵EX的多个协方差系数,其中N指示所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,其中所述协方差矩阵EX是根据以下公式而被定义:其中指示大小为NChannelsxNChannels的第一协方差子矩阵的系数,其中NChannels指示所述一个或多个音频声道信号的数目,其中指示大小为NObjectsxNObjects的第二协方差子矩阵的系数,其中NObjects指示所述一个或多个音频对象信号的数目,其中0指示零矩阵,其中所述参数处理器(110)用于接收所述协方差矩阵EX的所述多个协方差系数,以及其中所述参数处理器(110)用于将所述协方差矩阵EX的不被所述参数处理器(110)所接收的所有系数设定为0。5.根据权利要求1所述的装置,其中所述降混合信息包括大小为NDmxChxN的降混合矩阵D的多个降混合系数,其中NDmxCh指示所述音频传输声道的数目,以及其中N指示所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,其中所述降混合矩阵D是根据以下公式而被定义:其中Dch指示大小为的第一降混合子矩阵的系数,其中指示所述第一组的音频传输声道中的音频传输声道的数目,以及其中NChannels指示所述一个或多个音频声道信号的数目,其中Dobj指示大小为的第二降混合子矩阵的系数,其中指示所述第二组的音频传输声道中的音频传输声道的数目,以及其中NObjects指示所述一个或多个音频声道信号的数目,其中0指示零矩阵,其中所述参数处理器(110)用于接收所述降混合矩阵D的所述多个降混合系数,以及其中所述参数处理器(110)用于将所述降混合矩阵D的不被所述参数处理器(110)所接收的所有系数设定为0。6.根据权利要求1所述的装置,其中所述参数处理器(110)用于接收渲染信息,所述渲染信息指示所述一个或多个音频声道信号和所述一个或多个音频对象信号如何被混合在所述一个或多个音频输出声道中的信息,其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息以及根据所述渲染信息,计算所述混合信息。7.根据权利要求6所述的装置,其中所述参数处理器(110)用于接收渲染矩阵R的多个系数作为所述渲染信息,以及其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息以及根据所述渲染矩阵R,计算所述混合信息。8.根据权利要求6所述的装置,其中所述参数处理器(110)用于接收元数据信息作为所述渲染信息,其中所述元数据信息包括位置信息,其中所述位置信息指示所述一个或多个音频对象信号中的每个的位置,其中所述位置信息不指示所述一个或多个音频声道信号中的任一个的位置,其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息以及根据所述位置信息,计算所述混合信息。9.根据权利要求8所述的装置,其中所述元数据信息还包括增益信息,其中所述增益信息指示用于所述一个或多个音频对象信号中的每个的增益值,其中所述增益信息不指示用于所述一个或多个音频声道信号中的任一个的增益值,其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息、根据所述位置信息以及根据所述增益信息,计算所述混合信息。10.根据权利要求8所述的装置,其中所述参数处理器(110)用于计算混合矩阵S作为所述混合信息,其中所述混合矩阵S是根据以下公式而被定义:S=RG其中G为取决于所述降混合信息和取决于所述协方差信息的解码矩阵,其中R为取决于所述元数据信息的渲染矩阵,其中所述降混合处理器(120)用于通过应用以下公式以生成所述音频输出信号的所述一个或多个音频输出声道:Z=SY,其中Z为所述音频输出信号,且其中Y为所述音频传输信号。11.根据权利要求1所述的装置,其中两个或更多音频对象信号被混合在所述音频...

【专利技术属性】
技术研发人员:于尔根·赫勒艾德里安·穆尔塔扎约尼·鲍卢斯萨沙·迪克哈拉尔德·福斯奥立夫·赫尔穆特法尔科·里德布施里昂·特伦蒂夫
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1