音频解码器和解码方法技术

技术编号:18582551 阅读:27 留言:0更新日期:2018-08-01 15:20
一种用于将音频声道或对象的第二呈现表示为数据流的方法,该方法包括以下步骤:(a)提供基本信号的集合,基本信号表示音频声道或对象的第一呈现;(b)提供变换参数的集合,变换参数意图将第一呈现变换为第二呈现;变换参数进一步是针对至少两个频带指定的,并且包括用于频带中的至少一个的多抽头卷积矩阵参数的集合。

Audio decoder and decoding method

A method for representing the second presentation of an audio channel or object as a data stream, which includes the following steps: (a) providing a set of basic signals, a basic signal representing the first presentation of an audio channel or an object; (b) providing a set of transformation parameters, transforming the parameters intent to transform the first presentation to second; The parameters are further specified for at least two bands and include a set of multi-tap convolution matrix parameters for at least one of the bands.

【技术实现步骤摘要】
【国外来华专利技术】音频解码器和解码方法相关申请的交叉引用本申请要求2015年8月25日提交的美国临时申请No.62/209,742和2015年10月8日提交的欧洲专利申请No.15189008.4的权益,每篇申请特此全文通过引用并入。
本专利技术涉及信号处理领域,具体地,公开了一种用于高效地发送具有空间化分量的音频信号的系统。
技术介绍
整个说明书中
技术介绍
的任何讨论决不应被认为是承认这样的技术是众所周知的或者形成本领域中的公知常识的一部分。音频的内容创建、编码、分发和再现传统上是以基于声道的格式执行的,也就是说,一个特定的目标回放系统是针对整个内容生态系统的内容预想的。这样的目标回放系统音频格式的示例是单声道、立体声、5.1、7.1等。如果内容要在与预期的回放系统不同的回放系统上再现,则可以应用下混或上混处理。例如,5.1内容可以通过利用特定的下混方程来通过立体声回放系统再现。另一示例是立体声编码的内容通过7.1扬声器设置的回放,该回放可以包括所谓的上混处理,该上混处理可以由立体声信号中存在的信息指导或者可以不由立体声信号中存在的信息指导。能够上混的系统是杜比实验室公司的DolbyProLogic(RogerDressler,“DolbyProLogic环绕解码器,操作原理(DolbyProLogicSurroundDecoder,PrinciplesofOperation)”,www.Dolby.com)。当立体声或多声道内容要通过耳机再现时,常常期望的是借助于头部相关脉冲响应(HRIR)或双耳房间脉冲响应(BRIR)来模拟多声道扬声器设置,HRIR或BRIR分别模拟消声的或拟声的(被模拟)环境中的从每个扩音器到耳鼓的声学路径。具体地说,音频信号可以被与HRIR或BRIR卷积以恢复耳间声强差(inter-auralleveldifferences)(ILD)、耳间时间差(ITD)和频谱线索,ILD、ITD和频谱线索使得收听者可以确定每个单个的声道的位置。声学环境(混响)的模拟还帮助实现某个感知的距离。声源局部化和虚拟扬声器模拟当立体声、多声道或基于对象的内容要通过耳机再现时,常常期望的是借助于与头部相关脉冲响应(HRIR)或双耳房间脉冲响应(BRIR)的卷积来模拟多声道扬声器设置或离散的虚拟声学对象的集合,HRIR或BRIR分别模拟消声的或拟声的(被模拟)环境中的从每个扩音器到耳鼓的声学路径。具体地说,音频信号被与HRIR或BRIR卷积以恢复耳间声强差(ILD)、耳间时间差(ITD)和频谱线索,ILD、ITD和频谱线索使得收听者可以确定每个单个的声道或对象的位置。声学环境(早期反射和后期混响)的模拟还帮助实现某个感知的距离。翻到图1,示出了用于渲染两个对象或声道信号xi13、11的处理流程的示意性概览10,这两个信号从内容储存器12被读出以用于用4个HRIR(例如14)处理。HRIR输出然后被针对每个声道信号求和15、16,以便产生用于经由耳机18向收听者回放的耳机扬声器输出。HRIR的基本原理例如在Wightman等人的文献(1989)中有说明。HRIR/BRIR卷积方法伴随有几个缺点,这些缺点中的一个是耳机回放所需要的大量处理。需要对每一个输入对象或声道单独地应用HRIR或BRIR卷积,因此复杂度通常随着声道或对象的数量线性地增长。因为耳机通常是与电池供电的便携式设备结合使用的,所以高计算复杂度是不期望的,因为它将大幅缩短电池寿命。而且,随着基于对象的音频内容(其可以包括多于100个的同时作用的对象)的引入,HRIR卷积的复杂度可以远高于传统的基于声道的内容。参数化编码技术计算复杂度不是用于在涉及内容创作、分发和再现的生态系统内递送基于声道或对象的内容的唯一问题。在许多实际的情况下,尤其是对于移动应用,可用于内容递送的数据速率受到严重约束。消费者、广播组织和内容提供者已经使用无损感知音频编解码器来以48和192kbits/s之间的典型位速率递送立体声(两声道)音频内容。这些常规的基于声道的音频编解码器(比如MPEG-1层3(Brandenberg等人,1994年)、MPEGAAC(Bosi等人,1997年)和DolbyDigital(Andersen等人,2004年))具有随声道数量近似线性缩放的位速率。结果,数十个或者甚至数百个对象的递送导致对于消费者递送目的不切实际或者甚至不可用的位速率。为了使得可以以与使用常规的感知音频编解码器的立体声内容递送所需的位速率可比的位速率递送复杂的基于对象的内容,所谓的参数化方法在过去十年已经受到研究和开发。这些参数化方法使得可以从相对少量的基本信号重构大量声道或对象。这些基本信号可以通过使用补充有使得可以重构原始对象或声道的附加(参数化)信息的常规音频编解码器从发送器传递到接收器。这样的技术的示例是参数化立体声(Schuijer等人,2004年)、MPEG环绕(Herre等人,2008年)和MPEG空间音频对象编码(Herre等人,2012年)。比如参数化立体声和MPEG环绕的技术的重要的方面是,这些方法旨在单个预定呈现(例如,参数化立体声中的立体声扩音器和MPEG环绕中的5.1扩音器)的参数化重构。在MPEG环绕的情况下,耳机虚拟器可以集成在生成用于耳机的虚拟5.1扩音器设置的解码器中,在该设置中,虚拟5.1扬声器对应于用于扩音器回放的5.1扩音器设置。因此,这些呈现不是独立的,因为耳机呈现表示与扩音器呈现相同的(虚拟)扩音器布局。另一方面,MPEG空间音频对象编码旨在需要后续渲染的对象的重构。现在翻到图2,将概括地描述支持声道和对象的参数化系统20。该系统被划分为编码器21和解码器22部分。编码器21接收声道和对象23作为输入,并且生成具有有限数量的基本信号的下混24。另外,计算一系列对象/声道重构参数25。信号编码器26对来自下混器24的基本信号进行编码,并且包括计算的参数25以及对象元数据27,对象元数据27指示对象在所得的位流中应该被如何渲染。解码器22首先对基本信号进行解码29,接着在发送的重构参数31的帮助下进行声道和/或对象重构30。所得信号可以被直接再现(如果这些是声道),或者可以被渲染32(如果这些是对象)。对于后者,每个重构的对象信号根据其相关联的对象元数据33被渲染。这样的元数据的一个示例是位置矢量(例如,对象在3维坐标系中的x、y和z坐标)。解码器矩阵化对象和/或声道重构30可以通过时间和频率变化的矩阵运算来实现。如果解码的基本信号35用zs[n]来表示,其中,s是基本信号索引,n是采样索引,则第一步通常包括借助于变换或滤波器组对基本信号进行变换。可以使用多种多样的变换和滤波器组,比如离散傅立叶变换(DFT)、修正离散余弦变换(MDCT)或正交镜像滤波器(QMF)组。这样的变换或滤波器组的输出用Zs[k,b]来表示,其中,b是子带或频谱索引,k是帧、时隙或子带时间或采样索引。在大多数情况下,子带或频谱索引被映射到参数带p的较小的集合,这些参数带p共享共用的对象/声道重构参数。这可以用b∈B(p)来表示。换句话说,B(p)表示属于参数带索引p的连续子带b的集合。相反,p(b)是指子带b被映射到的参数带索引p。然后通过用矩阵M[p(b)]本文档来自技高网...

【技术保护点】
1.一种用于将音频声道或对象的第二呈现表示为数据流的方法,所述方法包括以下步骤:(a)提供基本信号,所述基本信号表示音频声道或对象的第一呈现;(b)提供变换参数,所述变换参数意图将所述第一呈现的基本信号变换为所述第二呈现的输出信号;每个所述变换参数是针对至少两个频带指定的,并且包括用于频带中的至少一个频带的多抽头卷积矩阵参数的集合;所述第一呈现意图用于扩音器回放,并且所述第二呈现意图用于耳机回放,或者反过来。

【技术特征摘要】
【国外来华专利技术】2015.10.08 EP 15189008.4;2015.08.25 US 62/209,7421.一种用于将音频声道或对象的第二呈现表示为数据流的方法,所述方法包括以下步骤:(a)提供基本信号,所述基本信号表示音频声道或对象的第一呈现;(b)提供变换参数,所述变换参数意图将所述第一呈现的基本信号变换为所述第二呈现的输出信号;每个所述变换参数是针对至少两个频带指定的,并且包括用于频带中的至少一个频带的多抽头卷积矩阵参数的集合;所述第一呈现意图用于扩音器回放,并且所述第二呈现意图用于耳机回放,或者反过来。2.根据权利要求1所述的方法,其中,所述多抽头卷积矩阵参数指示有限脉冲响应(FIR)滤波器。3.根据前述权利要求中任一项所述的方法,其中,所述基本信号被划分为一系列时间段,并且对每个时间段提供变换参数。4.根据前述权利要求中任一项所述的方法,其中,所述多抽头卷积矩阵参数包括作为复值的至少一个系数。5.根据前述权利要求中任一项所述的方法,其中提供所述基本信号包括使用第一渲染参数来从音频声道或对象确定基本信号;所述方法包括使用第二渲染参数来从音频声道或对象确定所述第二呈现的期望输出信号;以及提供所述变换参数包括通过最小化输出信号与所述期望输出信号的偏差来确定变换参数。6.根据权利要求5所述的方法,其中,确定变换参数包括:使用编码器滤波器组来确定B个频带的子带域基本信号;使用编码器滤波器组来确定所述B个频带的子带域期望输出信号;以及确定用于所述B个频带中的至少两个相邻频带的多抽头卷积矩阵参数的相同集合。7.根据权利要求6所述的方法,其中编码器滤波器组包括混合滤波器组,所述混合滤波器组提供所述B个频带中的低频带,所述低频带具有比所述B个频带中的高频带高的频率分辨率;并且所述至少两个相邻频带是低频带。8.根据权利要求7所述的方法,其中,确定变换参数包括确定用于至少两个相邻高频带的相同的实值变换参数。9.根据前述权利要求中任一项所述的方法,其中所述至少两个频带包括低频带和高频带,对高频带指定的变换参数不修改基本信号的信号相位,并且对低频带指定的变换参数修改基本信号的信号相位。10.根据前述权利要求中任一项所述的方法,其中,所述多抽头卷积矩阵参数用于处理低频带。11.根据前述权利要求中任一项所述的方法,其中,所述基本信号和所述变换参数被组合以形成所述数据流。12.根据前述权利要求中任一项所述的方法,其中所述变换参数包括用于所述基本信号的高频部分的矩阵运算的高频音频矩阵系数。13.根据权利要求12所述的方法,其中,对于所述基本信号的高频部分的中间频率部分,矩阵运算包括复值变换参数。14.一种用于对编码的音频信号进行解码的解码器,编码的音频信号包括:第一呈现,所述第一呈现包括意图用于以第一音频呈现格式再现编码的音频信号的音频基本信号;以及变换参数,所述变换参数用于将所述第一呈现格式的所述音频基本信号变换为第二呈现格式的输出信号,所述变换参数包括高频音频变换参数和低频音频变换参数,其中低频变换参数包括多抽头卷积矩阵参数,所述第一呈...

【专利技术属性】
技术研发人员:D·J·布瑞巴特D·M·库珀L·J·萨米尔森
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1