用于空间音频对象编码中信号相依缩放变换的编码器、解码器及方法技术

技术编号:11765743 阅读:88 留言:0更新日期:2015-07-23 17:11
提供一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码一个或多个音频对象信号。解码器包括用于根据一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态的控制单元(181)。此外,解码器包括用于变换解混信号以获得包括多个第一子带声道的第一变换后的降混的第一分析模块(182)。此外,解码器包括第二分析模块(183),用于当激活指示被设定成激活状态时,通过变换第一子带声道中的至少一个获得第二子带声道而产生第二变换后的降混,其中第二变换后的降混包括尚未被第二分析模块变换的第一子带声道及第二子带声道。此外,解码器包括解混单元(184),其中解混单元(184)用于当激活指示被设定成激活状态时,基于关于一个或多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号,以及当激活指示未被设定成激活状态时,基于关于一个或多个音频对象信号的参数边信息度第一变换后的降混进行解混以获得音频输出信号。此外,提供一种编码器。

【技术实现步骤摘要】
【国外来华专利技术】用于空间音频对象编码中信号相依缩放变换的编码器、解码器及方法
本专利技术涉及音频信号编码、音频信号解码及音频信号处理,特别地,涉及一种用于空间音频对象编码(SAOC)中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法。
技术介绍
在现代数字音频系统中,允许在接收器侧上对所传输的内容进行与音频对象有关的修改为主要趋势。这些修改包括音频信号的选定部分的增益修改和/或通过空间分布式扬声器在多声道回放的情况下对专用音频对象的空间重定位。这可通过分别地将音频内容的不同部分传递至不同扬声器来实现。换言之,在音频处理、音频传输及音频存储的技术中,存在允许关于面向对象式音频内容播放的用户交互的增加需求,以及存在利用多声道播放的扩展可能性分别地渲染音频内容或其部分以便改善听觉印象的要求。由此,多声道音频内容的使用为用户带来显著的改善。例如,可获得三维听觉印象,其在娱乐应用中带来改善的用户满意度。然而,多声道音频内容也适用于专业环境,例如,电话会议应用,因为通过使用多声道音频播放可以改善讲话者的可懂度。另一可能应用为使得音乐作品的收听者分别地调整不同部分(也称为“音频对象”)或乐曲(诸如,声乐部分或不同乐器)的播放级别和/或空间位置。使用者可因为个人品味、为了更易于转录来自音乐作品的一个或多个部分、教育目的、伴唱、排演等原因而执行这种调整。所有数字多声道或多对象音频内容的直接离散传输(例如,脉冲编码调制(PCM)数据的形式或者甚至压缩音频格式)需要非常高的比特率。然而,也需要按比特率有效的方式传输及存储音频数据。因此,人们乐于接受音频质量与比特率要求之间的合理权衡以便避免由多声道/多对象应用造成的过多资源负荷。近来,在音频编码的领域中,用于多声道/多对象音频信号的比特率有效传输/存储的参数技术已由例如运动图像专家组(MPEG)及其他人介绍。一个示例为作为面向声道的方法[MPS、BCC]的MPEG环绕(MPS),或作为面向对象的方法[JSC、SAOC、SAOC1、SAOC2]的MPEG空间音频对象编码(SAOC)。另一面向对象的方法被称为“知情源分离(informedsourceseparation)”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术旨在基于声道/对象与额外边信息(描述传输/存储的音频场景和/或音频场景中的音频源对象)的降混重建期望的输出音频场景或期望的音频源对象。按时频选择性方式在这种系统中进行声道/对象相关的边信息的估计及应用。因此,这种系统使用时频变换,诸如,离散傅立叶变换(DFT)、短时傅立叶变换(STFT)或滤波器组如正交镜相滤波器(QMF)组等。使用MPEGSAOC的示例,在图3中描述这种系统的基本原理。在STFT的情况下,时间维度由时间块号码表示,空间维度由频谱系数(“仓”号)捕获。在QMF的情况下,时间维度由时槽号码表示,空间维度由子带号码捕获。如果QMF的空间分辨率被随后应用的第二滤波器阶段改善,则将整个滤波器组称为混合QMF,且将精细分辨率子带称为混合子带。如上所述,在SAOC中,按时频选择性方式进行一般的处理,且可如下在每个频带内描述,如图3中所示:-使用由元素d1,1…dN,P组成的降混矩阵将N个输入音频对象信号s1…sN降混成P个声道x1…xP,作为编码器处理的部分。此外,编码器提取描述输入音频对象的特征的边信息(边信息估计器(SIE)模块)。对于MPEGSAOC,对象功率w.r.t关于彼此的关系为这种边信息的最基本形式。-传输/存储降混信号及边信息。为此,可压缩降混音频信号,例如,使用熟知的感知音频编码器,如MPEG-1/2层II或III(又称为mp3)、MPEG-2/4高级音频编码(AAC)等。-在接收端,解码器在概念上尝试使用传输的边信息从(解码的)降混信号恢复原始对象信号(“对象分离”)。然后使用由图3中的系数r1,1…rN,M描述的渲染矩阵将这些近似对象信号混合成由M个音频输出声道表示的目标场景。在极端情况下,期望的目标场景可以为来自混合的仅仅一个源信号的渲染(源分离情景),但也可以为由传输的对象组成的任何其他任意声学场景。例如,输出可以为单声道、2声道立体声或5.1多声道目标场景。基于时频的系统可利用具有静态时间及频率分辨率的时频(t/f)变换。选择某一固定t/f分辨率网格典型地涉及时间与频率分辨率之间的权衡。固定t/f分辨率的效果可在音频信号混合中的典型对象信号的示例上演示。例如,音调声音的频谱展现具有基本频率及若干泛音的谐波相关结构。这种信号的能量集中于某些频率区域。对于这种信号,所利用的t/f表示的高频分辨率对于将窄频音调频谱区域与信号混合物分开是有益的。相反地,瞬态信号(如鼓音)通常具有不同的时间结构:大量能量仅在短时间周期内存在,且在广泛的频率范围上散布开。对于这些信号,所利用的t/f表示的高时间分辨率对于将瞬态信号部分与信号混合分开是有利的。当前音频对象编码方案仅提供SAOC处理的时频选择性的有限可变性。例如,MPEGSAOC[SAOC][SAOC1][SAOC2]限于可通过使用所谓的混合正交镜相滤波器组(混合QMF)及其随后的分群成参数频带而获得的时频分辨率。因此,标准SAOC(MPEGSAOC,如在[SAOC]中标准化)中的对象恢复经常具有混合QMF的粗频率分辨率,从而导致来自其他音频对象的声音调制串扰(例如,语音中的含糊其辞的假象或音乐中的听觉粗糙度假象)。音频对象编码方案,如双耳线索编码[BCC]和音频源的参数联合编码[JSC],也受限于使用一个固定分辨率滤波器组。固定分辨率滤波器组或变换的实际选择总是涉及编码方案的时间与频谱属性之间的预限定之取舍(就最适性而言)。在知情源分离(ISS)的领域中,已建议动态地使时频变换长度适宜于信号的属性[ISS7],如自感知音频编码方案(例如,高级音频编码(AAC)[AAC])所熟知。
技术实现思路
本专利技术的目标为提供用于音频对象编码的改进的概念。本专利技术的目标由解码器、编码器、用于解码的方法、用于编码的方法、及计算机程序解决。根据本专利技术实施例提供一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器,其中所述降混信号编码一个或多个音频对象信号,其中所述解码器包括:控制单元,用于根据所述一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态,第一分析模块,用于变换所述降混信号以获得包括多个第一子带声道的第一变换后的降混,第二分析模块,用于当所述激活指示被设定成所述激活状态时,通过变换所述第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的降混,其中所述第二变换后的降混包括尚未被所述第二分析模块变换的所述第一子带声道及所述第二子带声道,以及解混单元,其中所述解混单元用于当所述激活指示被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号,以及当所述激活指示未被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。根据本专利技术实施例提供一种用于编码输入音频对象信号的编码器,其中所述编码器包括:控制单元,用于根本文档来自技高网
...

【技术保护点】
一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器,其中所述降混信号编码一个或多个音频对象信号,其中所述解码器包括:控制单元(181),用于根据所述一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态,第一分析模块(182),用于变换所述降混信号以获得包括多个第一子带声道的第一变换后的降混,第二分析模块(183),用于当所述激活指示被设定成所述激活状态时,通过变换所述第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的降混,其中所述第二变换后的降混包括尚未被所述第二分析模块变换的所述第一子带声道及所述第二子带声道,以及解混单元(184),其中所述解混单元(184)用于当所述激活指示被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号,以及当所述激活指示未被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。

【技术特征摘要】
【国外来华专利技术】2013.05.13 EP 13167487.1;2012.10.05 US 61/710,1331.一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器,其中所述降混信号编码一个或多个音频对象信号,其中所述解码器包括:控制单元(181),用于根据所述一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态,第一分析模块(182),用于变换所述降混信号以获得包括多个第一子带声道的第一变换后的降混,第二分析模块(183),用于当所述激活指示被设定成所述激活状态时,通过变换所述第一子带声道中的至少一个获得多个第二子带声道而产生第二变换后的降混,其中所述第二变换后的降混包括尚未被所述第二分析模块变换的所述第一子带声道及所述第二子带声道,以及解混单元(184),其中所述解混单元(184)用于当所述激活指示被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号,以及当所述激活指示未被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。2.如权利要求1所述的解码器,其中所述控制单元(181)用于根据所述一个或多个音频对象信号中的至少一个中的瞬态的存在,将所述激活指示设定成所述激活状态,其中所述瞬态指示所述一个或多个音频对象信号中的至少一个的信号改变。3.如权利要求1或2所述的解码器,其中子带变换指示被分配给所述第一子带声道中的每个,其中所述控制单元(181)用于根据所述一个或多个音频对象信号中的至少一个的所述信号属性,将所述第一子带声道中的每个的所述子带变换指示设定成子带变换状态,以及其中所述第二分析模块(183)用于变换所述第一子带声道中的每个以获得所述多个第二子带声道,以及用于不变换所述第二子带声道中的每个,其中所述第一子带声道中的每个的所述子带变换指示被设定成所述子带变换状态,所述第二子带声道中的每个的所述子带变换指示未被设定成所述子带变换状态。4.如权利要求1所述的解码器,其中所述第一分析模块(182)用于通过使用正交镜相滤波器变换所述降混信号,以获得包括所述多个第一子带声道的所述第一变换后的降混。5.如权利要求1所述的解码器,其中所述第一分析模块(182)用于根据第一分析窗长度变换所述降混信号,其中所述第一分析窗长度取决于所述信号属性,或其中所述第二分析模块(183)用于当所述激活指示被设定成所述激活状态时,通过根据第二分析窗长度变换所述第一子带声道中的至少一个,产生所述第二变换后的降混,其中所述第二分析窗长度取决于所述信号属性。6.如权利要求1所述的解码器,其中所述解码器用于从所述降混信号产生包括一个或多个音频输出声道的所述音频输出信号,其中所述降混信号编码两个或更多个音频对象信号,其中所述控制单元(181)用于根据所述两个或更多个音频对象信号中的至少一个的所述信号属性,将所述激活指示设定成所述激活状态,以及其中所述解混单元(184)用于当所述激活指示被设定成所述激活状态时,基于关于所述一个或多个音频对象信号的参数边信息对所述第二变换后的降混进行解混以获得所述音频输出信号,以及当所述激活指示未被设定成所述激活状态时,基于关于所述两个或更多个音频对象信号的所述参数边信息对所述第一变换后的降混进行解混以获得所述音频输出信号。7.一种用于编码输入音频对象信号的编码器,其中所述编码器包括:控制单元(191),用于根据所述输入音频对象信号的信号属性,将激活指示设定成激活状态,第一分析模块(192),用于变换所述输入音频对象信号以获得第一变换后的音频对象信号,其中所述第一变换后的音频对象信号包括多个第一子带声道,第二分析模块(193),用于当所述激活指示被设定成所述激活状态时,通过变换所述多个第一子带声道中的至少一个获得多个第二子带声道,而产生第二变换后的音频对象信号,其中所述第二变换后的音频对象信号包括尚未被所述第二分析模块变换的所述第一子带声道及所述第二子带声道,以及PSI估计单元(194),其中所述PSI估计单元(194)用于当所述激活指示被设定成所述激活状态时,基于所述第二变换后的音频对象信号确定参数边信息,以及当所述激活指示未被设定成所述激活状态时,基于所述第一变换后的音频对象信号确定所述...

【专利技术属性】
技术研发人员:萨沙·迪施约尼·鲍卢斯贝恩德·埃德勒奥立夫·赫尔穆特于尔根·赫勒索尔斯腾·科斯特
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1