使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序技术

技术编号:28843231 阅读:33 留言:0更新日期:2021-06-11 23:42
使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序。一种用于基于编码的音频信息(110;210;310)提供解码的音频信息(112;212;312)的音频解码器,该音频解码器包括:线性预测域解码器(120;220;320),用于基于在线性预测域中编码的音频帧提供第一解码的音频信息(122;222;322;S

【技术实现步骤摘要】
使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序本申请是申请人为弗劳恩霍夫应用研究促进协会、申请日为2015年7月23日、申请号为201580041724.3、专利技术名称为“使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序”的分案申请,其全部内容通过引用并入于此。1.
根据本专利技术的实施例涉及一种用于基于编码的音频信息提供解码的音频信息的音频解码器。根据本专利技术的另一实施例涉及一种用于基于编码的音频信息提供解码的音频信息的方法。根据本专利技术的另一实施例涉及一种用于执行所述方法的计算机程序。大体而言,根据本专利技术的实施例涉及在切换音频编码中处理从CELP编解码器至基于MDCT的编解码器的过渡。2.
技术介绍
近年来,对于传输及储存编码的音频信息的需求日益增长。对于包括语音及一般音频(如(例如)音乐、背景噪声及类似)的音频信号的音频编码及音频解码的需求也在增长。为了改进编码质量且为了改进比特率效率,已引入在不同写码(coding)方案之间切换的切换(或切换的)音频编解码器,使得(例如)第一帧是使用第一编码概念(例如,基于CELP的写码概念)而被编码的,并使得随后的第二音频帧是使用不同的第二写码概念(例如,基于MDCT的写码概念)而被编码的。换言之,切换可存在于在线性预测写码域中编码(例如,使用基于CELP的写码概念)与在频域中写码(例如,基于诸如(例如)FFT变换、逆FFT变换、MDCT变换或逆MDCT变换的时域至频域变换或频域至时域变换的写码)之间。例如,第一写码概念可为基于CELP的写码概念、基于ACELP的写码概念、基于变换写码激励线性预测域(transform-coded-excitation-linear-prediction-domain)的写码概念或类似。第二写码概念可(例如)为基于FFT的写码概念、基于MDCT的写码概念、基于AAC的写码概念或可被视为基于AAC的写码概念的后继概念的写码概念。下面将描述常规音频写码器(编码器和/或解码器)的一些示例。切换音频编解码器(如(例如)MPEGUSAC)基于两个主音频写码方案。一个写码方案为(例如)针对语音信号的CELP编解码器。另一写码方案为(例如)针对所有其他音频信号(例如,音乐、背景噪声)的基于MDCT的编解码器(下文简称为MDCT)。对于混合内容信号(例如,覆于音乐上的语音),编码器(以及因此的解码器)往往在两个编码方案之间切换。就在从一个模式(或编码方案)切换至另一模式时有必要避免任何人为现象(artifact)(例如,归因于不连续的点击)。切换音频编解码器可(例如)包括由CELP至MDCT的过渡引起的问题。通常,CELP至MDCT的过渡引入两个问题。由于遗失先前MDCT帧,可以引入混叠。由于以低/中等比特率操作的两个写码方案的不完美的波形写码本质,可在CELP帧与MDCT帧之间的边界处引入不连续。已存在解决由CELP至MDCT的过渡引入的问题的若干方法,并将在下文予以论述。在JeremieLecomte、PhilippeGournay、RalfGeiger、BrunoBessette及MaxNeuendorf的文章“Efficientcross-fadewindowsfortransitionsbetweenLPC-basedandnon-LPCbasedaudiocoding”(于第126期AESConvention上提出,2009年5月,第771页)中描述一种可能的方法。此文章在4.4.2章“ACELP至non-LPD模式”中描述一种方法。也可参考(例如)所述文章的图8。首先通过增加MDCT长度(此处从1024增至1152)以使得MDCT左折叠点(foldingpoint)在CELP帧与MDCT帧之间的边界的左侧移动,然后通过改变MDCT窗口的左侧部分以使得重叠减少,及最后通过使用CELP信号及重叠相加操作人工引入遗失混叠来解决混叠问题。通过重叠相加操作同时解决不连续问题。此方法作用良好,但具有在CELP解码器中引入延迟的缺点,该延迟等于重叠长度(此处:128个样本)。另一方法描述于BrunoBessette的标注日期为2014年5月13日且标题为“Forwardtimedomainaliasingcancellationwithapplicationinweightedororiginalsignaldomain”的US8,725,503B2中。在此方法中,未改变MDCT长度(也不改变MDCT窗口形状)。在此通过使用单独的基于变换的编码器对混叠修正信号进行编码来解决混叠问题。将额外旁侧信息比特发送至比特流。该解码器重构混叠修正信号并将其添加至解码的MDCT帧。另外,CELP合成滤波器的零输入响应(ZIR)用于降低混叠修正信号的幅度并提升写码效率。ZIR也有助于显著减少不连续问题。此方法也作用良好,但缺点在于其需要大量额外旁侧信息并且所需比特数通常是可变的,这不适用于恒定比特率编解码器。另一方法描述于StephaneRagot、BalazsKovesi及PierreBerthet的标注日期为2013年10月31日且标题为“Low-delaysound-encodingalternatingbetweenpredictiveencodingandtransformencoding”的美国专利申请US2013/0289981A1中。根据所述方法,不改变MDCT,但改变MDCT窗口的左侧部分以降低重叠长度。为解决混叠问题,使用CELP编解码器对MDCT帧的开始进行写码,且随后使用CELP信号以通过完全替换MDCT信号或通过人工引入遗失混叠分量来抵消混叠(类似于上文所提及的JeremieLecomte等人的文章)。当使用类似于JeremieLecomte等人的文章的方法时通过重叠相加操作解决不连续问题,否则通过CELP信号与MDCT信号之间的简单交叉渐入渐出(cross-fade)操作来解决。类似于US8,725,503B2,此方法通常作用良好,但缺点在于其需要由额外CELP引入的大量旁侧信息。鉴于上面所描述的常规解决方案,需要具有包括用于在不同写码模式之间切换的改进特性(例如,在比特率开销、延迟及复杂度之间的改进权衡)的概念。3.
技术实现思路
根据本专利技术的实施例专利技术一种用于基于编码的音频信息提供解码的音频信息的音频解码器。该音频解码器包括:线性预测域解码器,其用于基于在线性预测域中编码的音频帧提供第一解码的音频信息;以及频域解码器,其用于基于在频域中编码的音频帧提供第二解码的音频信息。音频解码器还包括过渡处理器。过渡处理器用于获得线性预测滤波的零输入响应,其中根据第一解码的音频信息及第二解码的音频信息定义线性预测滤波的初始状态。过渡处理器还用于根据零输入响应修改第二解码的音频信息以获得在第一解码的音频信息与经修改的第二解码的音频信息之间的平滑过渡,其中第二解码的音频信息是基于跟在在线性预测域中编码的音频帧本文档来自技高网
...

【技术保护点】
1.一种用于基于编码的音频信息(110;210;310)提供解码的音频信息(112;212;312)的音频解码器(100;200;300),所述音频解码器包括:/n线性预测域解码器(120;220;320),用于基于在线性预测域中编码的音频帧提供第一解码的音频信息(122;222;322;S

【技术特征摘要】
20140728 EP 14178830.71.一种用于基于编码的音频信息(110;210;310)提供解码的音频信息(112;212;312)的音频解码器(100;200;300),所述音频解码器包括:
线性预测域解码器(120;220;320),用于基于在线性预测域中编码的音频帧提供第一解码的音频信息(122;222;322;SC(n));
频域解码器(130;230;330),用于基于在频域中编码的音频帧提供第二解码的音频信息(132;232;332;SM(n));以及
过渡处理器(140;240;340),
其中所述过渡处理器用于获得线性预测滤波(148;254;346)的零输入响应(150;256;348),其中根据所述第一解码的音频信息及所述第二解码的音频信息定义所述线性预测滤波的初始状态(146;252;344),以及
其中所述过渡处理器用于根据所述零输入响应,修改基于跟在在所述线性预测域中编码的音频帧之后的在所述频域中编码的音频帧所提供的所述第二解码的音频信息(132;232;332;SM(n)),以获得在所述第一解码的音频信息(SC(n))与经修改的第二解码的音频信息之间的平滑过渡。


2.根据权利要求1所述的音频解码器,
其中所述过渡处理器用于响应于由所述第一解码的音频信息(222;SC(n))定义的线性预测滤波器的第一初始状态(244;SC(n))获得线性预测滤波器(246)的第一零输入响应以及
其中所述过渡处理器用于响应于由所述第一解码的音频信息(222,SC(n))的经修改版本定义的线性预测滤波器的第二初始状态(252)获得所述线性预测滤波器(254)的第二零输入响应所述经修改版本具备人工混叠且包括所述第二解码的音频信息(232,SM(n))的贡献部分,或
其中所述过渡处理器用于响应于由所述第一解码的音频信息(122;322;SC(n))及所述第一解码的音频信息(122;322;SC(n))的经修改版本的组合定义的线性预测滤波器的初始状态(146;344)获得所述线性预测滤波器(148;346)的组合零输入响应(150;348),所述经修改版本具备人工混叠且包括所述第二解码的音频信息(132;332;SM(n))的贡献部分;
其中所述过渡处理器用于根据所述第一零输入响应及所述第二零输入响应或根据所述组合零输入响应修改基于跟在在所述线性预测域中编码的音频帧之后的在所述频域中编码的音频帧所提供的所述第二解码的音频信息(132;232;332;SM(n)),以获得在所述第一解码的音频信息(122;222;322;SC(n))与所述经修改的第二解码的音频信息之间的平滑过渡。


3.根据权利要求1所述的音频解码器(100;200;300),其中所述频域解码器(130;230;330)用于执行逆交叠变换,以使得所述第二解码的音频信息(132;232;332)包括混叠。


4.根据权利要求1所述的音频解码器(100;200;300),其中所述频域解码器(130;230;330)用于执行逆交叠变换,以使得所述第二解码的音频信息(132;232;332)在时间部分中包括混叠,所述时间部分在时间上与所述线性预测域解码器(120;220;320)为之提供了第一解码的音频信息(122;222;322)的时间部分重叠,且使得对于跟在所述线性预测域解码器为之提供了第一解码的音频信息的时间部分之后的时间部分,所述第二解码的音频信息是无混叠的。


5.根据权利要求1所述的音频解码器(100;200;300),其中所述第二解码的音频信息(132;232;332)的用于获得所述第一解码的音频信息的经修改版本的部分包括混叠。


6.根据权利要求5所述的音频解码器(100;200;300),其中用于获得所述第一解码的音频信息的经修改版本的人工混叠至少部分补偿所述第二解码的音频信息(132;232;332)的用于获得所述第一解码的音频信息的经修改版本的部分中包括的混叠。


7.根据权利要求1所述的音频解码器(100;200;300),其中所述过渡处理器(140;240;340)用于根据

或根据

获得所述第一零输入响应或所述组合零输入响应的第一分量
其中



M≤L
其中n表示时间索引,
其中对于n=0,...,N-1,表示针对时间索引n的所述第一零输入响应(248)或针对时间索引n的所述组合零输入响应(150;348)的第一分量;
其中对于n=-L,...,-1,表示针对时间索引n的所述第一初始状态(244)或针对时间索引n的所述初始状态(146;344)的第一分量;
其中m表示运行变量,
其中M表示所述线性预测滤波器的滤波器长度;
其中am表示所述线性预测滤波器的滤波器系数;
其中SC(n)表示针对时间索引n的所述第一解码的音频信息(122;222;322)的先前解码值;
其中N表示处理长度。


8.根据权利要求1所述的音频解码器(100;200;300),其中所述过渡处理器(140;240;340)用于对所述第一解码的音频信息(122;222;322;SC(n))施加第一窗口化((w(-n-1)w(-n-1)),以获得所述第一解码的音频信息的窗口化版本,以及对所述第一解码的音频信息(122;222;322;SC(n))的时间镜像版本(SC(-n-L-1))施加第二窗口化(w(n+L)w(-n-1)),以获得所述第一解码的音频信息的时间镜像版本的窗口化版本,以及
其中所述过渡处理器用于组合所述第一解码的音频信息的窗口化版本及所述第一解码...

【专利技术属性】
技术研发人员:伊曼纽尔·拉维利纪尧姆·福斯萨沙·迪施马库斯·缪特拉斯格热戈日·派特拉维克本杰明·舒伯特
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1