针对音频声道及音频对象的音频编码及解码的概念制造技术

技术编号:15118203 阅读:100 留言:0更新日期:2017-04-09 15:46
一种音频编码器,用于编码音频输入数据(101)以取得音频输出数据(501),其包含:输入接口(100),用于接收多个音频声道、多个音频对象以及关于多个音频对象中的一个或多个音频对象的元数据;混合器(200),用于混合多个对象以及多个声道以获得多个预混合声道,每一预混合声道包含声道的音频数据以及至少一个对象的音频数据;核心编码器(300),用于核心编码核心编码器输入数据;以及元数据压缩器(400),用于压缩关于多个音频对象中的一个或多个音频对象的元数据,其中音频编码器用于在一组两种模式的至少一个种模式下操作,该两种模式包含第一模式以及第二模式,在第一模式下该核心编码器用于编码多个音频声道和多个音频对象,多个音频声道和多个音频对象由输入接口所接收以作为核心编码器输入数据,在第二模式下核心编码器(300)用于接收由混合器(200)所产生的多个预混合声道,以作为核心编码器输入数据。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频编码/解码,特别是涉及空间音频编码以及空间音频对象编码。
技术介绍
空间音频编码工具是此
中所熟知的,例如,在环绕MPEG标准中已有标准化规范。空间音频编码从原始输入声道开始,例如在再现设定中依照其位置而识别的五个或七个声道,即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空间音频编码器通常从原始声道得到至少一个降混声道,以及另外得到关于空间线索的参数数据,例如声道相干数值的声道间水平差异、声道间相位差异、声道间时间差异等等。至少一个降混声道与指示空间线索的参数化辅助信息(parametricsideinformation,或称为参数边信息、参数侧信息或参数侧边信息)一起传送到空间音频解码器,空间音频解码器解码降混声道以及相关联的参数数据,最后取得为原始输入声道的近似版本的输出声道。声道在输出设定的放置通常为固定,例如,5.1声道格式或7.1声道格式等等。此外,空间音频对象编码工具是此
中所熟知的且在MPEGSAOC(SAOC=spatialaudioobjectcoding空间音频对象编码)标准中已成标准。相比于空间音频编码从原始声道开始,空间音频对象编码从非自动专为特定渲染再现装备的音频对象开始。代替地,音频对象在再现场景中的位置可变化,且可由使用者通过将特定的渲染信息输入至空间音频对象编码解码器来确定。可选地或另外,渲染信息,即在再现装备中特定音频对象待放置的位置信息,以额外的辅助信息或元数据来传送。为了获得特定的数据压缩,由SAOC编码器来编码多个音频对象,SAOC编码器根据特定的降混合信息来降混合对象以从输入对象计算至少一个传输声道。此外,SAOC编码器计算参数化辅助信息,其代表对象间线索,例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中,对象间参数数据针对单独时间平铺/频率平铺来计算,即,针对音频信号的特定帧(例如,1024或2048个取样值),考虑多个频带(例如24、32或64个频带等等)使得对于每一帧以及每一频带皆存在参数数据。作为举例,当音频片具有20个帧且当每一帧细分成32个频带,则时间/频率平铺的数量为640。到目前为止并不存在弹性化的技术以一方面结合声道编码以及在另一方面结合对象编码,使得在低比特率可以获得可接受的音频质量。
技术实现思路
本专利技术的目的在于提供对于音频编码及音频解码的改善概念。此目的可以通过如权利要求1所述的音频编码器、权利要求8所述的音频解码器、权利要求22所述的音频编码的方法、权利要求23所述的音频解码的方法或权利要求24所述的计算机程序来达到。本专利技术是基于以下发现,在最佳系统上的特性为一方面可灵活运行且另一方面可提供在良好音频质量上的良好压缩效率,可以由结合空间音频编码与空间音频对象编码实现,其中空间音频编码即为基于声道的音频编码,空间音频对象编码即为基于对象的编码。特别是,提供混合器用于混合在编码器端上混合对象及声道,以提供良好的灵活度,尤其是针对低比特率的应用,因为任何对象传输之后可以为非必要或所需传输的对象数目可以被减少。另一方面来说,灵活度可使得音频编码器可控制在两种不同模式下,例如,其中在一种模式下,此对象在被核心编码前即与声道进行混合,而当在另一模式下,其中一方面的对象数据以及另一方面的声道数据直接进行核心编码而不将其进行混合。此将确保用户能够在编码器端上分开所处理的对象以及声道,使得在解码器端上可以获得完整的灵活度,但是这必须付出加强比特率的代价。另一方面,当比特率需求变成较严格时,本专利技术允许在此编码器端上执行混合/预渲染,例如,混合一些或全部的音频对象与声道,使得核心编码器只能编码声道数据,以及不需要传送音频对象数据所需要的任何位,其中此音频对象数据可为降混合形式或参数化数据间对象的形式。在解码器端,因为相同的音频解码器允许在两种不同模式下操作,用户再次具有高度灵活度,举例来说,在第一模式中,单独或分开的声道及对象编码发生且解码器具有完整的灵活度以渲染对象及混合声道数据。另一方面,当在编码器端上已发生混合/预渲染时,解码器用于执行不含任何中间对象处理的后置处理。另一方面,此后置处理也能应用在其他模式中的数据,例如,发生在解码器端上的对象渲染/混合。因此,本专利技术允许处理任务框架,来允许大量资源在编码器端及在解码器端上的重复使用。此后置处理可以参考降混合以及立体化或其他处理,以获得最终声道场景,例如欲再现布局。此外,在非常低比特率需求的情形下,本专利技术为使用者提供足够的灵活度来反应此低比特率需求,例如,通过在编码器端上的预渲染,而付出一些灵活度的代价,然而在解码器端上可以获得非常良好的音频信号,由于不再从编码器提供任何对象数据至解码器,因此可以被节省而且能够妥善的用于编码声道数据,例如当有足够的位可使用时,通过良好量化此声道数据或通过其他方式以改善音频质量或用于减少编码损失。在本专利技术的优选实施方式中,此编码器额外包含SAOC编码器,不仅允许编码对象输入至编码器,也允许编码SAOC编码声道数据,以在较低需求比特率下取得良好的音频质量。此外,本专利技术的其他实施方式中也允许后置处理功能,其包含立体渲染器和/或格式转换器。此外,优选的是,针对在较大数目的扬声器,如在22或32声道的扬声器装备,在解码器端上的全部处理已全部发生。然而,举例来说,此格式转换器确定只在5.1声道输出,如针对再现布局的输出,且此再现布局的声道数目少于声道的最大数目,然后优选的是,此格式转换器控制USAC解码器或SAOC解码器或者是以上两者,来限制核心解码操作以及SAOC解码操作。到最后,使得任何降混合至格式转换的声道不会在解码时被产生。一般来说,升混合声道的产生需要解相关处理,且每一解相关处理产生一些水平加工品。因此,通过控制核心解码器和/或SAOC解码器由最后所需的输出格式,大量附加的解相关处理被储存来与情况相比,此情况为当不存在交互而导致音频改善以及导致减少解码器的复杂度,到最后,降低的功率消耗对于容纳本专利技术编码器或解码器的移动装置特别有用。然而,本专利技术的编码器/解码器不仅能在移动装置中采用,如移动电话、智能手机、笔记本电脑或卫星导航装置,也能直接地被使用在台式计算机或其他非移动家电中。上述的实施方式,例如,为了不产生一些声道,因为一些信息可能会遗失,故可能不是优化的(例如在声道间的水平差将会被降混合)。如果此降混合应用不同的降混合增益到升混合声道中,此水平差信息可能不是重要的,但是其可能本文档来自技高网
...

【技术保护点】
一种音频编码器,用于编码音频输入数据(101)以获得音频输出数据(501),所述音频编码器包含:输入接口(100),用于接收多个音频声道、多个音频对象以及关于所述多个音频对象中的一个或多个音频对象的元数据;混合器(200),用于混合所述多个对象以及所述多个声道以获得多个预混合声道,每一预混合声道包含声道的音频数据以及至少一个对象的音频数据;核心编码器(300),用于核心编码核心编码器输入数据;以及元数据压缩器(400),用于压缩关于所述多个音频对象中的所述一个或多个音频对象的所述元数据;其中所述音频编码器用于在一组至少两种模式的两种模式下操作,所述两种模式包含第一模式以及第二模式,在所述第一模式下所述核心编码器用于编码所述多个音频声道和所述多个音频对象,所述多个音频声道和所述多个音频对象由所述输入接口所接收以作为核心编码器输入数据,在所述第二模式下所述核心编码器(300)用于接收由所述混合器(200)所产生的所述多个预混合声道,以作为所述核心编码器输入数据。

【技术特征摘要】
【国外来华专利技术】2013.07.22 EP 13177378.01.一种音频编码器,用于编码音频输入数据(101)以获得音频输出数据(501),所述
音频编码器包含:
输入接口(100),用于接收多个音频声道、多个音频对象以及关于所述多个音频对象中
的一个或多个音频对象的元数据;
混合器(200),用于混合所述多个对象以及所述多个声道以获得多个预混合声道,每一
预混合声道包含声道的音频数据以及至少一个对象的音频数据;
核心编码器(300),用于核心编码核心编码器输入数据;以及
元数据压缩器(400),用于压缩关于所述多个音频对象中的所述一个或多个音频对象的
所述元数据;
其中所述音频编码器用于在一组至少两种模式的两种模式下操作,所述两种模式包含第
一模式以及第二模式,在所述第一模式下所述核心编码器用于编码所述多个音频声道和所述
多个音频对象,所述多个音频声道和所述多个音频对象由所述输入接口所接收以作为核心编
码器输入数据,在所述第二模式下所述核心编码器(300)用于接收由所述混合器(200)所
产生的所述多个预混合声道,以作为所述核心编码器输入数据。
2.如权利要求1所述的音频编码器,进一步包含空间音频对象编码器(800),用于从
空间音频对象编码器输入数据产生一个或多个传输声道以及参数化数据;其中所述音频编码
器额外以第三模式进行操作,在所述第三模式下所述核心编码器(300)编码从空间音频对
象编码器输入数据得到的所述一个或多个传输声道,所述空间音频对象编码器输入数据包含
所述多个音频对象,或另外地或可选择地,所述空间音频对象编码器输入数据包含所述多个
音频声道中的两个或更多个音频声道。
3.如权利要求1或2所述的音频编码器,进一步包含空间音频对象编码器(800),用
于从空间音频对象编码器输入数据产生一个或多个传输声道以及参数化数据;其中所述音频
编码器额外以第四模式进行操作,在所述第四模式下所述核心编码器对由所述空间音频对象
编码器(800)从所述预混合声道所得到的传输声道进行编码,以作为所述空间音频对象编
码器输入数据。
4.如前述权利要求中任一项所述的音频编码器,进一步包含:
连接器,用于在所述第一模式下,连接所述输入接口(100)的输出至所述核心编码器
(300)的输入,以及用于在所述第二模式下,连接所述输入接口(100)的所述输出至所述

\t混合器(200)的输入以及连接所述混合器(200)的输出至所述核心编码器(300)的所述
输入;以及
模式控制器(600),用于根据模式指示以控制所述连接器,所述模式指示从用户接口接
收到或从所述音频输入数据(101)所提取出。
5.如前述权利要求中任一项所述的音频编码器,进一步包含输出接口(500),用于提
供输出信号以作为所述音频输出数据(501),在所述第一模式下,所述输出信号包含所述核
心编码器(300)的输出以及压缩元数据,在所述第二模式下,所述输出信号包含所述核心
编码器(300)的输出且不具有任何元数据,在所述第三模式下,所述输出信号包含所述核
心编码器(300)的输出、SAOC辅助信息以及所述压缩元数据,以及在所述第四模式下,
所述输出信号包含所述核心编码器(300)的输出以及所述SAOC辅助信息。
6.如前述权利要求中任一项所述的音频编码器,其中所述混合器(200)用于使用所述
元数据和在回放设定下每一声道位置的指示来预渲染所述多个音频对象,所述多个声道与其
相关联,其中在所述回放设定中由所述元数据确定放置所述音频对象于所述至少两个音频声
道之间时,所述混合器(200)用于使用至少两个音频声道以及包含所述至少两个音频声道
的音频声道的所述总数目来混合音频对象。
7.如前述权利要求中任一项所述的音频编码器,进一步包含元数据解压缩器(420),
用于解压缩由所述元数据压缩器(400)输出的压解元数据,以及其中所述混合器(200)根
据解压缩元数据以混合所述多个对象,其中所述元数据压缩器(400)执行的压缩操作为包
含量化步骤的有损压缩操作。
8.一种音频解码器,用于解码编码音频数据,所述音频解码器包含:
输入接口(1100),用于接收所述编码音频数据,所述编码音频数据包含多个编码声道、
多个编码对象或关于所述多个对象的压缩元数据;
核心解码器(1300),用于解码所述多个编码声道以及所述多个编码对象;
元数据解压缩器(1400),用于解压缩所述压缩元数据;
对象处理器(1200),用于使用所述解压缩元数据处理所述多个解码对象,以获得多个
输出声道(1205),所述输出声道包含来自于所述对象以及所述解码声道的音频数据;以及
后置处理器(1700),用于转换所述多个输出声道(1205)至输出格式;
其中当所述编码音频数据不包含任何音频对象时,所述音频解码器用于绕过所述对象处
理器并馈入多个解码声道至所述后置处理器(1700),当所述编码音频数据包含编码声道以
及编码对象时,所述音频解码器馈入所述多个解码对象以及所述多个解码声道到所述对象处

\t理器(1200)。
9.如权利要求8所述的音频解码器,其中所述后置处理器(1700)用于转换所述多个
输出声道(1205)至立体表现或者再现格式,所述再现格式具有比输出声道的所述数目更少
的声道的数目,其中所述音频解码器用于根据从用户接口得到或者从所述编码音频信号提取
的控制输入控制所述后置处理器(1700)。
10.如权利要求8或9所述的音频解码器,其中所述对象处理器包含:
对象渲染器,用于使用解压缩元数据渲染解码对象;以及
混合器(1220),用于混合渲染对象以及解码声道以获得所述多个输出声道(1205)。
11.如权利要求8至10中任一项所述的音频解码器,其中所述对象处理器(1200)包
含:空间音频对象编码解码器,用于解码一个或多个传输声道以及表示编码音频对象的相关
参数化辅助信息,其中所述空间音频对象编码解码器用于根据关于所述音频对象的放置的渲
染信息渲染所述解码音频对象,并控制所述对象处理器混合渲染的所述音频对象以及所述解
码音频声道以获得所述多个输出声道(1205)。
12.如权利要求8至10中任一项所述的音频解码器,其中所述对象处理器(1200)包
含空间音频对象编码解码器(1800),用于解码一个或多个传输声道以及表示编码音频对象
及编码音频声道的相关参数化辅助信息,其中所述空间音频对象编码解码器用于使用所述一
个或多个传输声道以及所述参数化辅助信息解码所述编码音频对象以及所述编码音频声道,
且其中所述对象处理器用于使用所述解压缩元数据渲染所述多个音频...

【专利技术属性】
技术研发人员:亚历山大·阿达米克里斯蒂安·鲍斯萨沙·迪克克里斯蒂安·厄特尔西蒙·菲格于尔根·赫勒约翰内斯·希勒佩特安德烈·赫尔策迈克尔·卡拉舒曼法比安·卡驰阿西姆·孔茨艾德里安·穆尔塔扎简·普洛格施蒂斯安德烈·希尔兹勒汉内·斯滕泽尔
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1