高效率对象元数据编码的装置及方法制造方法及图纸

技术编号:13145287 阅读:66 留言:0更新日期:2016-04-10 08:25
提供了一种用于产生至少一个音频声道的装置(100)。装置(100)包含用于接收至少一个压缩元数据信号的元数据解码器(110)。每一压缩元数据信号包含多个第一元数据样本。每一压缩元数据信号的第一元数据样本指示与至少一个音频对象信号中的音频对象信号相关联的信息。元数据解码器(110)用于产生至少一个重建元数据信号,使得每一重建元数据信号包含至少一个压缩元数据信号中的一个压缩元数据信号的第一元数据样本以及进一步包含多个第二元数据样本。而且,元数据解码器(110)根据重建元数据信号的至少两个第一元数据样本来产生每一重建元数据信号的每一第二元数据样本。而且,装置(100)包含音频声道发生器(120),其根据至少一个音频对象信号以及至少一个重建元数据信号而产生至少一个音频声道。此外,提供了一种用于产生编码音频信息的装置,编码音频信息包含至少一个编码音频信号以及至少一个压缩元数据信号。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频编码/解码,特别地涉及空间音频编码以及空间音频对象编码,更 特别地涉及高效率对象元数据编码。
技术介绍
空间音频编码工具是此
中所熟知的,例如,在环绕MPEG标准中已有标准 化规范。空间音频编码从原始输入声道开始,例如在再现装备中根据其位置而识别的五个 或七个声道,即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空 间音频编码器通常从原始声道得到至少一个降混合声道,以及另外得到关于空间线索的参 数数据,例如声道相干数值的声道间水平差异、声道间相位差异、声道间时间差异等等。至 少一个降混合声道与指示空间线索的参数化辅助信息(parametric side information,或 称为参数边信息、参数侧信息或参数侧边信息)一起传送到空间音频解码器,空间音频解码 器解码降混声道以及相关联的参数数据,最后获得为原始输入声道的近似版本的输出声 道。声道在输出装备中的放置通常为固定,例如,5.1声道格式或7.1声道格式等等。 此种基于声道的音频格式广泛使用于储存或者传送多声道音频内容,而每一个声 道关于在给定位置的特定扬声器。这些种类格式的忠实再现,需要扬声器设备,其中扬声器 放置在与音频信号生产期间使用的扬声器相同的位置。增加扬声器数量可改进真实三维虚 拟现实场景,但是满足此要求是越来越困难的,尤其是在家庭环境中,像是客厅。 可用于对象为基础的方法来克服对特殊扬声器设备的需求,在以对象为基础的方 法中扬声器信号特别针对播放方案来渲染。 例如,空间音频对象编码工具是此
中所熟知的且在MPEG SAOC(SA0C = spatial audio object coding空间音频对象编码)标准中已成标准。相比于空间音频编码 从原始声道开始,空间音频对象编码从非自动专为特定渲染再现装备的音频对象开始。代 替地,音频对象在再现场景中的位置可变化,且可由使用者通过将特定的渲染信息输入至 空间音频对象编码解码器来确定。可选地或另外,渲染信息,即在再现装备中特定音频对象 待放置的位置信息,以额外的辅助信息或元数据来传送。为了获得特定的数据压缩,由SA0C 编码器来编码多个音频对象,SA0C编码器根据特定的降混合信息来降混合对象以从输入对 象计算至少一个传输声道。此外,SA0C编码器计算参数化辅助信息,其代表对象间线索,例 如对象水平差异(0LD)、对象相干数值等等。当在空间音频编码(SAC)中,对象间参数数据针 对单独时间平铺/频率平铺来计算,即,针对音频信号的特定帧(例如,1024或2048个样本), 考虑多个频带(例如24、32或64个频带等等),使得对于每一帧以及每一频带皆存在参数数 据。作为举例,当音频片具有20个帧且当每一帧细分成32个频带,则时间/频率平铺的数量 为640。 在以对象为基础的方法中,以分离式音频对象来描述音场。此需要对象元数据,其 描述在3D空间中每一个声源的时变位置。 在现有技术中,第一元数据编码编码概念为空间声音描述交换格式(SpatDIF),而 音频场景描述格式目前尚在开发中。音频场景描述格式为以对象为基础的声音场景交 换格式,其并没有提供任何压缩对象轨迹的方法。SpatDIF将以文字为基础的开放性声音控 制(OSC)格式使用于对象元数据的结构。然而,简单以文字为基础的表现并非为对象轨 迹的压缩传输的选项。 在现有技术中,另一个元数据概念为音频场景描述格式(ASDF),其是具有相同 的缺点的以文字为基础的解决方案。此数据通过同步多介质集成语言(SMIL)的延伸所建 构,该同步多介质集成语言(SMIL)为可延伸标记式语言(XML)的子集合。 在现有技术中的另一个元数据概念为场景的音频二进制格式(AudioBIFS),为 MPEG-4标准的一部分的二进制格式。其高度关于基于XML的虚拟现实建模语言 (VRML),其已开发应用于音频虚拟3D场景以及交互式虚拟现实。复杂的AudioBIFS标准 使用场景图以指定对象移动的路径。AudioBIFS主要的缺点在于并非设计用于实时操作,其 中会使有限的系统延迟并且需要随机读取数据流。此外,对象位置的编码不运用受限的听 者的定位能力。在音频虚拟场景中的听者有固定位置时,则对象数据可量化成较低的位数 。因此,应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。 如果能提供改善的高效率的对象元数据编码概念,将会获得高度的赞赏。
技术实现思路
本专利技术的目的用于提供改善的高效率的对象元数据编码的概念。本专利技术的目的通 过权利要求1的装置、权利要求8的装置、权利要求14的系统、权利要求15的方法、权利要求 16的方法以及权利要求17的计算机程序来达成。 本专利技术提供一种用于产生至少一个音频声道的装置。该装置包含元数据解压缩 器,用于接收至少一个压缩元数据信号。每一个压缩元数据信号包含多个第一元数据样本。 每一个压缩元数据信号中的第一元数据样本指示与至少一个音频对象信号中的音频对象 信号相关联的信息。元数据解码器用于产生至少一个重建元数据信号,使得每一个重建元 数据信号包含至少一个压缩元数据信号中的其中一个的多个第一元数据样本以及进一步 包含多个第二元数据样本。元数据解码器用于根据重建元数据信号的至少两个第一元数据 样本,产生每一个重建元数据信号的每一个第二元数据样本。此外,该装置包含音频声道发 生器,音频声道发生器用于根据至少一个音频对象信号以及至少一个重建元数据信号而产 生至少一个音频声道。 此外,本专利技术提供一种用于产生编码音频信息的装置,该编码音频信息包含至少 一个编码音频信号以及至少一个压缩元数据信号。此装置包含:元数据编码器,用于接收至 少一个原始元数据信号。每一个原始元数据信号包含多个元数据样本。每一个原始元数据 信号中的元数据样本指示与至少一个音频对象信号中的音频对象信号相关联的信息。元数 据编码器用于产生至少一个压缩元数据信号,使得每一压缩元数据信号包含一个原始元数 据信号的至少两个元数据样本的第一组,以及使得压缩元数据信号不包含所述一个原始元 数据信号的另外至少两个元数据样本的第二组的任何元数据样本。此外,该装置包含音频 编码器,该音频编码器用于编码至少一个音频对象信号以获得至少一个编码音频信号。 此外,提供了一种系统。该系统包含用于产生编码音频信息的装置,该编码音频信 息包含至少一个编码音频信号以及至少一个压缩元数据信号,如上所述。此外,该系统包含 用于接收至少一个编码音频信号以及至少一个压缩元数据信号的装置,该装置用于根据至 少一个编码音频信号以及至少一个压缩元数据信号产生至少一个音频声道,如上所述。 根据实施例,提供用于对象元数据的数据压缩概念,其达成用于具有限的数据速 率的传输声道为有效的压缩机制。此外,对于纯方位变化的良好压缩率得以实现,例如照相 机旋转。此外,该提供的概念支持不连续的轨迹,例如位置的跳跃。此外,也能实现低解码复 杂度。此外,可实现有限的重新初始化时间下的随机存取。 此外,本专利技术提供一种用于产生至少一个音频声道的方法。该方法包含: -接收至少一个压缩元数据信号,其中每一个压缩元数据信号包含多个第一元数 据样本,其中每一个压缩元数据信号中的第本文档来自技高网
...

【技术保护点】
一种用于产生一个或多个音频声道的装置(100),其中该装置包含:元数据解码器(110),用于接收一个或多个压缩元数据信号,其中每一所述一个或多个压缩元数据信号包含多个第一元数据样本,其中每一所述一个或多个压缩元数据信号的所述第一元数据样本指示与一个或多个音频对象信号中的音频对象信号相关联的信息,其中所述元数据解码器(110)用于产生一个或多个重建元数据信号,使得每一所述一个或多个重建元数据信号包含所述一个或多个压缩元数据信号中的其中一个的所述第一元数据样本以及进一步包含多个第二元数据样本,其中所述元数据解码器(110)用于根据所述重建元数据信号的至少两个所述第一元数据样本,产生每一所述一个或多个重建元数据信号的每一所述第二元数据样本;以及音频声道发生器(120),用于根据所述一个或多个音频对象信号以及所述一个或多个重建元数据信号而产生所述一个或多个音频声道。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:克里斯蒂安·鲍斯克里斯蒂安·埃特尔
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1