用于空间音频对象编码中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法技术

技术编号:12576159 阅读:74 留言:0更新日期:2015-12-23 16:14
提供一种用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码两个或更多个音频对象信号。解码器包括用于确定多个分析窗的窗序列产生器(134),其中分析窗中的每个包括降混信号的多个时域降混样本。多个分析窗中的每个分析窗具有指示分析窗的时域降混样本的数目的窗长度。窗序列产生器(134)用于确定多个分析窗,以便分析窗中的每个的窗长度取决于两个或更多个音频对象信号中的至少一个的信号属性。此外,解码器包括t/f分析模块(135),用于根据多个分析窗中的每个分析窗的窗长度将分析窗的多个时域降混样本从时域变换至时频域,以获得变换后的降混。此外,解码器包括解混单元(136),用于基于关于两个或更多个音频对象信号的参数边信息对变换后的降混进行解混,以获得音频输出信号。此外,提供一种编码器。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频信号编码、音频信号解码及音频信号处理,特别地,涉及一种用于 空间音频对象编码(SAOC)中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方 法。
技术介绍
在现代数字音频系统中,允许在接收器侧上对所传输的内容进行与音频对象有关 的修改为主要趋势。这些修改包括音频信号的选定部分的增益修改和/或通过空间分布式 扬声器在多声道回放的情况下对专用音频对象的空间重定位。这可通过分别地将音频内容 的不同部分传递至不同扬声器来实现。 换言之,在音频处理、音频传输及音频存储的技术中,存在允许关于面向对象式音 频内容播放的用户交互的增加需求,以及存在利用多声道播放的扩展可能性分别地渲染音 频内容或其部分以便改善听觉印象的要求。由此,多声道音频内容的使用为用户带来显著 的改善。例如,可获得三维听觉印象,其在娱乐应用中带来改善的用户满意度。然而,多声 道音频内容也适用于专业环境,例如,电话会议应用,因为通过使用多声道音频播放可以改 善讲话者的可懂度。另一可能应用为使得音乐作品的收听者分别地调整不同部分(也称为 "音频对象")或乐曲(诸如,声乐部分或不同乐器)的播放级别和/或空间位置。使用者 可因为个人品味、为了更易于转录来自音乐作品的一个或多个部分、教育目的、伴唱、排演 等原因而执行这种调整。 所有数字多声道或多对象音频内容的直接离散传输(例如,脉冲编码调制(PCM) 数据的形式或者甚至压缩音频格式)需要非常高的比特率。然而,也需要按比特率有效的 方式传输及存储音频数据。因此,人们乐于接受音频质量与比特率要求之间的合理权衡以 便避免由多声道/多对象应用造成的过多资源负荷。 近来,在音频编码的领域中,用于多声道/多对象音频信号的比特率有效传输/存 储的参数技术已由例如运动图像专家组(MPEG)及其他人介绍。一个示例为作为面向声道 的方法的MPEG环绕(MPS),或作为面向对象的方法 的MPEG空间音频对象编码(SAOC)。另一面向对象的方法被称为"知情源分离(informed source s印aration) " 。这些技术旨在基于声道 / 对 象与额外边信息(描述传输/存储的音频场景和/或音频场景中的音频源对象)的降混重 建期望的输出音频场景或期望的音频源对象。 按时频选择性方式在这种系统中进行声道/对象相关的边信息的估计及应用。因 此,这种系统使用时频变换,诸如,离散傅立叶变换(DFT)、短时傅立叶变换(STFT)或滤波 器组如正交镜相滤波器(QMF)组等。使用MPEG SAOC的示例,在图3中描述这种系统的基 本原理。 在STFT的情况下,时间维度由时间块号码表示,空间维度由频谱系数("仓"号) 捕获。在QMF的情况下,时间维度由时槽号码表示,空间维度由子带号码捕获。如果QMF的 空间分辨率被随后应用的第二滤波器阶段改善,则将整个滤波器组称为混合QMF,且将精细 分辨率子带称为混合子带。 如上所述,在SAOC中,按时频选择性方式进行一般的处理,且可如下在每个频带 内描述,如图3中所示: -使用由元素 Cl1,广dN,P组成的降混矩阵将N个输入音频对象信号s 化降混成P 个声道χΓ··χΡ,作为编码器处理的部分。此外,编码器提取描述输入音频对象的特征的边信 息(边信息估计器(SIE)模块)。对于MPEG SA0C,对象功率w.r.t关于彼此的关系为这种 边信息的最基本形式。 -传输/存储降混信号及边信息。为此,可压缩降混音频信号,例如,使用熟知的感 知音频编码器,如MPEG-1/2层II或III (又称为mp3)、MPEG-2/4高级音频编码(AAC)等。 -在接收端,解码器在概念上尝试使用传输的边信息从(解码的)降混信号恢复原 始对象信号("对象分离")。然后使用由图3中的系数Γ?ι1···Γ_描述的渲染矩阵将这些近 似对象信号為备·混合成由M个音频输出声道J5i 表示的目标场景。在极端情况下, 期望的目标场景可以为来自混合的仅仅一个源信号的渲染(源分离情景),但也可以为由 传输的对象组成的任何其他任意声学场景。例如,输出可以为单声道、2声道立体声或5. 1 多声道目标场景。 基于时频的系统可利用具有静态时间及频率分辨率的时频(t/f)变换。选择某一 固定t/f分辨率网格典型地涉及时间与频率分辨率之间的权衡。 固定t/f分辨率的效果可在音频信号混合中的典型对象信号的示例上演示。例 如,音调声音的频谱展现具有基本频率及若干泛音的谐波相关结构。这种信号的能量集中 于某些频率区域。对于这种信号,所利用的t/f表示的高频分辨率对于将窄频音调频谱区 域与信号混合物分开是有益的。相反地,瞬态信号(如鼓音)通常具有不同的时间结构:大 量能量仅在短时间周期内存在,且在广泛的频率范围上散布开。对于这些信号,所利用的t/ f表示的高时间分辨率对于将瞬态信号部分与信号混合分开是有利的。 当前音频对象编码方案仅提供SAOC处理的时频选择性的有限可变性。例如,MPEG SA0C 限于可通过使用所谓的混合正交镜相滤波器组(混合QMF)及 其随后的分群成参数频带而获得的时频分辨率。因此,标准SAOC (MPEG SA0C,如在 中标准化)中的对象恢复经常具有混合QMF的粗频率分辨率,从而导致来自其他音频对象 的声音调制串扰(例如,语音中的含糊其辞的假象或音乐中的听觉粗糙度假象)。 音频对象编码方案,如双耳线索编码和音频源的参数联合编码,也受 限于使用一个固定分辨率滤波器组。固定分辨率滤波器组或变换的实际选择总是涉及编码 方案的时间与频谱属性之间的预限定之取舍(就最适性而言)。 在知情源分离(ISS)的领域中,已建议动态地使时频变换长度适宜于信号的属性 ,如自感知音频编码方案(例如,高级音频编码(AAC) )所熟知。
技术实现思路
本专利技术的目标为提供用于音频对象编码的改进的概念。本专利技术的目标由如权利要 求1的解码器、如权利要求5的解码器、如权利要求6的编码器、如权利要求12的编码器、 如权利要求13的用于解码的方法、如权利要求14的用于编码的方法、如权利要求15的用 于解码的方法、如权利要求16的用于编码的方法及如权利要求17的计算机程序解决。 与现有技术的SAOC相比,提供按反向兼容方式动态地使时频分辨率适宜于信号 的实施例,以便 -源自标准SAOC编码器(MPEG SA0C,如在中标准化)的SAOC参数比特流 仍可由具有与通过标准解码器获得的感知质量相当的感知质量的增强型解码器解码, -可通过增强型解码器按最佳质量解码增强型SAOC参数比特流,且 -可将标准与增强型SAOC参数比特流混合(例如,在多点控制单元(MCU)情境中) 成可通过标准或增强型解码器解码的一个普通比特流。 对于以上提到的属性,提供可按时频分辨率动态适应以支持新颖增强型SAOC数 据的解码且同时支持传统标准SAOC数据的反向兼容映射的普通滤波器组/变换表示是有 用的。给定此普通表示,增强型SAOC数据与标准SAOC数据的合并是可能的。 可通过动态地使用于估计或用于合成音频对象线索的滤波器组或变换的时频分 辨率适宜于输入音频对象的特定属性来获得增强型SAOC感知质量。例如,如果在某一时间 跨度期间音频对象为准静止的,则对粗时间本文档来自技高网
...

【技术保护点】
一种用于从包括多个时域降混样本的降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器,其中所述降混信号编码两个或更多个音频对象信号,其中所述解码器包括:窗序列产生器(134),用于确定多个分析窗,其中所述分析窗中的每个包括所述降混信号的多个时域降混样本,其中所述多个分析窗中的每个分析窗具有指示所述分析窗的所述时域降混样本的数目的窗长度,其中所述窗序列产生器(134)用于确定所述多个分析窗,以便所述分析窗中的每个的所述窗长度取决于所述两个或更多个音频对象信号中的至少一个的信号属性,t/f分析模块(135),用于根据所述多个分析窗中的每个分析窗的窗长度将所述分析窗的所述多个时域降混样本从时域变换至时频域,以获得变换后的降混,以及解混单元(136),用于基于关于所述两个或更多个音频对象信号的参数边信息对所述变换后的降混进行解混,以获得所述音频输出信号。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:萨沙·迪施约尼·鲍卢斯贝恩德·埃德勒奥立夫·赫尔穆特于尔根·赫勒索尔斯腾·科斯特
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1