用于编码和解码激励模式的方法和装置制造方法及图纸

技术编号:6639336 阅读:252 留言:0更新日期:2012-04-11 18:40
用于编码和解码激励模式的方法和装置。对于音频变换编码器中的谱数据的量化,需要心理声学信息,即,真正的掩蔽阈值的近似值。根据本发明专利技术,对音频信号编码中要量化的每个谱,为长和短窗口/变换长度计算并编码激励模式。在可变尺寸的矩阵中将各激励模式编组在一起。仅仅向激励模式数据矩阵值应用具有固定数目的值的预定的排序顺序,并且通过重新排列顺序形成向矩阵的比特平面应用SPECK编码的方形矩阵。

【技术实现步骤摘要】

本专利技术涉及一种用于编码和解码激励模式的方法和装置,根据该激励模式确定音频信号变换编解码的掩蔽等级。
技术介绍
对于音频变换编码器中的谱数据的量化,需要心理声学的信息,S卩,真正的掩蔽阈值的近似值(approximation)。在对应的音频变换解码器中,相同的近似值用于重构量化后的数据。在编码器侧,使用窗口函数对源信号的重叠部分进行窗口化。在解码器侧,为解码信号窗口执行重叠+添加。为了限制要传送的辅助信息数据量,正在使用像mp3和AAC的已知的变换编解码器作为关键频带的掩蔽信息缩放因子(也被表示为“缩放因子频带”),这意味着在量化处理之前对于一组相邻频率窗口(frequency bin)或者系数使用相同的缩放因子。 Cf. K. Brandenburg, Μ. Bosi 的"ISO/IEC MPEG_2Advanced Audio Coding :0verview and Applications”,第 103 届 AES 大会(103rd AES Convention),1997 年 9 月 26-29 日,纽约, 预印版本No. 4641。然而,缩放因子仅仅代表掩蔽阈值的粗略的(步进的)近似值。掩蔽阈值的这种表示的精度是非常有限的,这是因为(些许)不同的幅值频率窗口的各组将得到相同的缩放因子,并且因此所应用的掩蔽阈值对于显著数目的频率窗口不是最优的。为了改进编码/解码质量,可以如以下所示来计算掩蔽等级S. van de Par,A. Kohlrausch,G. Charestan,R. Heusdens 的“A newpsychoacoustical masking mode 1 for audio coding applications”, ProceedingsICAS SP^ 02, IEEE International Conference on Acoustics, Speech and SignalProcessing, 2002,Orlando, vol. 2,pp. 1805-1808 ;S. van de Par,A. Kohlrausch,R. Heusdens,J. Jensen,S. H. Jen-sen 的 "APerceptual Model for Sinusoidal Audio Coding Based on Spectral Integration”, EURASIP Journal on Applied Signal Processing,vol. 2005 :9,pp. 1292-1304,其中,从要编码的音频信号的功率谱中导出的“激励模式”中导出掩蔽阈值。在2005年5月28-31日巴塞罗那的第118届AES大会0. Niemeyer, B. Edler的 "Efficient Coding of Excitation Patterns Combined with a TransformAudio Coder" 的第6466页中描述了应用这种用于掩蔽目的的激励模式的音频编解码器。对于要编码的每个谱的音频数据块,计算激励模式,其中该激励模式代表人耳的(真正的)依赖于频率的心理声学属性。为了避免与基于缩放因子的掩蔽相比较而显著增加作为结果的数据率,在每个情形下组合了 16个连续的激励模式以便高效地编码这些激励模式。如在2004年11 月白勺 IEEE Transactions on Circuits and Systems for VideoTechnology, vol. 14, no.11, pp.1219-1235 的 W.A. Pearlman, A. Islam, N.Nagaraj, A.Said ^"Efficient,Low-Complexity Image Coding With a Set-PartitioningEmbedded Block Coder"中所描述的对于图像编码应用将激励模式矩阵值进行SPECK (Set Partitioning Embedded bloCK,集合分裂嵌入块)编码。在利用激励模式值建立频率和时间上的2维矩阵和对数尺度矩阵值的2维DCT变换之后执行实际的激励模式编码。对作为结果的变换系数从最高有效的那个开始在比特平面上进行量化和熵编码,由此将SPECK编码的位置和系数的符号传递到音频解码器作为比特流辅助信息。在编码器和解码器侧,为计算要在音频信号编码和解码中应用的掩蔽阈值,对应地解码编码的激励模式,使得计算后的掩蔽阈值在编码器和解码器二者中相同。音频信号量化由作为结果的改进的掩蔽阈值来控制。不同的窗口 /变换长度用于音频信号编码,而固定长度用于激励模式。这种激励模式音频编码处理的缺点是在编码器中为多个块一起编码激励模式造成的处理延迟,但是其可以实现用于编码谱数据的掩蔽阈值的更精确的表示并且由此增加编码/解码质量,同时多个块的组合的激励模式编码仅仅造成辅助信息数据的少量增加。
技术实现思路
在上述的Niemeyer/Edler处理中,从激励模式导出的掩蔽阈值与在音频信号编码中选择的窗口和变换长度无关。替代地,从音频信号的定长部分中导出激励模式。然而, 短的窗口和变换长度代表更高的时间分辨率并且针对最优的编码/解码质量,有关掩蔽阈值的等级应当相应地适配。本专利技术要解决的问题是通过改进掩蔽阈值计算来进一步提高音频信号编码/解码的质量,而不造成辅助信息数据率的增加。通过在权利要求1和5中公开的方法来解决该问题。在权利要求2和6中公开了利用这些方法的装置。根据本专利技术,对于在音频信号的编码中要量化的每个谱,计算并编码激励模式, 即,对于每个较短的窗口 /变换,计算其自身的激励模式并且由此该激励模式的时间分辨率是可变的。在对应的矩阵或者块中将用于长窗口/变换和用于较短的窗口/变换的激励模式编组在一起。激励模式数据量对于长窗口 /变换长度与较短的窗口 /变换长度(即, 对于非瞬态源信号部分和对于瞬态源信号部分)二者是相同的。因此,在每个帧中激励模式矩阵可以具有不同数目的行。关于激励模式编码,在可选的对矩阵值进行的对数计算之后,向二维变换的激励模式数据矩阵值应用预定的扫描或者排序顺序,并且通过重新排序,可以形成方形矩阵,对于该方形矩阵,向其矩阵比特平面直接应用SPECK编码。仅仅编码扫描路径的固定数目的值。原则上,本专利技术的编码方法适合编码激励模式,在对应的激励模式解码之后,根据该激励模式确定用于音频信号编码的掩蔽等级,其中对于所述音频信号编码,使用不同的窗口和谱变换长度连续地处理所述音频信号,并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示相关,所述方法包括以下步骤a)对于所述音频信号的当前帧,在针对对应的一组连续激励模式的情形下形成激励模式矩阵P,其中对于所述不同谱变换长度中的每一个谱变换长度,在所述矩阵P中包括对应的激励模式,并且对每个矩阵P的条目取对数,并且其中,在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下,通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸;b)对取了对数的矩阵P值应用二维变换,产生矩阵Pt ;c)向所述矩阵Pt中本文档来自技高网
...

【技术保护点】
1.一种编码(141)激励模式的方法,在对应的激励模式解码(142)之后,根据该激励模式确定(143)用于音频信号(10)编码(11,12,15)的掩蔽等级,其中对于所述音频信号编码,使用不同的窗口和谱变换长度连续地处理(12,15)所述音频信号,并且代表给定的多个(L个)最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示(12)相关,所述方法包括以下步骤:a)对于所述音频信号(10)的当前帧,在每个针对对应的一组连续激励模式的情形中形成(12,13,31)激励模式矩阵P,其中对于所述不同的谱变换长度中的每一个谱变换长度,在所述矩阵P中包括对应的激励模式,并且对每个矩阵P的条目取对数(32),并且其中,在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下,通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸;b)对取了对数的矩阵P的值应用(33)二维变换,产生矩阵PT;c)向所述矩阵PT中的系数应用(35)预定的排序顺序,所述预定的排序顺序依赖于矩阵尺寸,该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示,以及,从第一个值开始仅仅取得对应的排序路径的固定数目的值,利用这些值形成(35)矩阵PT的方形版本PTq;d)对矩阵PTq执行(36)SPECK编码,其中处理矩阵PTq的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:弗洛里安基勒奥利弗沃博尔特约翰尼斯贝姆
申请(专利权)人:汤姆森特许公司
类型:发明
国别省市:FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1