一种用于AAC编码的窗型判别方法技术

技术编号:4027102 阅读:193 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了基于帧内数据能量方差与帧间时域能量峰值比较的窗型判别方法。其包括:步骤一:将输入的时域信号进行均匀分块;步骤二:对每块信号求总能量并对该帧各块信号能量求方差E_var;布骤三:求出该帧与前一帧中各块的能量峰值E_peak与El_peak;步骤四:通过对步骤二与步骤三中得出的结果进行分析,判断该帧的窗类型。由于本发明专利技术的整个判别过程都是在时域范围内进行,避免了复杂且消耗大量系统资源的时频变换。同时,帧内数据能量方差与帧间数据能量峰值的计算运算复杂度也很低且最终得出的窗型判别结果良好。

【技术实现步骤摘要】

本专利技术涉及音频压缩编码领域,特别是涉及到一种AAC编码过程中使用到的窗型 判别方法。
技术介绍
AAC (Advanced Audio Coding)是 ISO MPEG 组织在 MPEG-2 基础上发展起来的一种 新一代感知音频压缩编码技术,后来MPEG-4标准对该技术进行了进一步的增强。该技术综 合了多种主流音频编码技术的优点,具有信号压缩比高,重建音质好,编解码过程高度模块 化和声道配置灵活等特点。与以往的算法相比,AAC采用了一些新的编码工具,并且为了针 对不同的要求提供不同的服务,MPEG-4 AAC分为了 4个层次的应用,即主层次MAIN (Main), 低复杂度层次LC(low complexity),采样率可分级层次SSR(Scaleable Sampling Rate)和 长时预测层次LTP(Long Time Prediction),各层编、解码复杂度不一样。通常,AAC使用其标准建议的基于感知熵的窗口判决方法,其实现按如下步骤进 行(1)计算输入时域信号的复频谱将当前输入的1024个采样点的时域信号与前一帧的1024个采样点的时域信号按 先后顺序组合为一组2048采样点的叠加信号,对这组信号进行加窗并做FFT变换,得到处 理块的复数谱r(w)和f(w),分别代表幅度部分和相位部分。(2)计算当前处理块的可预测部分r_pred(w) = 2. OXr (t-l)-r (t~2)(1)f_pred(w) = 2. 0 X f (t-1)-f (t~2)(2)式中,t-1指向前一处理块,t-2指向再之前的处理块。(3)计算不可预测性根据之前得出的处理块的可预测部分与复频谱,可以得到不可预测的度量C (w) = ((r (w) X cos (f (w)) -r_pred (w) X cos (f_pred (w)))2+ (r (w) X sin (f (w)) -r_pred (w) Xsin (f_pred (w)))2) 5) /r (w) (3)+abs (r_pred (w))此公式用于短块FFT情况时的计算,对于长块FFT,最低频的6个系数用此公式,而 高频部分全部设为0.4。对于每个掩蔽阈值区间计算分区能量e(b)以及不可预测部分的能量c (b),其中 b是区域的序号,依据AAC标准,不同的采样率对应不同的掩蔽阈值区间划分,e (b)和c (b) 的计算公式如下所示。 (4)计算扩展函数由于各个临界频带的掩蔽效应并不止存在于本频带内,也会在频带之间产生一种 可估计的掩蔽效应,称为扩展掩蔽效应,计算函数如下if j ^ i tmpx = 3. 0(j-i)tmpz = 8 Xmin imun ((tmpx-0. 5)2-2 (tmpx-0. 5,0)tmpy = 15. 811389+7. 5 (tmpx+0. 474)-17. 5(1. 0+(tmpx+0. 474)2)0 5 (6)if tmpy < -100 sprdngf (i, j) = 0else sprdngf (i, j) = 10(5)用扩展函数卷积分区能量和不可预测度mdx _ predictionecb(b) = Yj e(m) χ sprdngf(7) 不可预测度ct (b)与ecb(b)是经过能量加权的,将其重新归一化得到cb (b)与 en (b)ο(6)计算音调索引tb(b)与信噪比SNR(b)tb(b) =-0. 299-0. 431n (cb(b))(9)SNR (b) = tb (b) X TMN (b) + (l_tb (b)) X 匪T (b)(10)其中TMN固定为6dB,匪T固定为18dB。(7)计算能量阈值nb (b) = en (b) X 10"SNE(b)/1°(11)为了进行前回声控制,并考虑到安静阈值qsthr(b),对nb(b)做如下修正nb(b) = max (qsthr(b),min(nb(b),nb_l (b) Xrpelev))(12)其中nb_l (b)表示上一帧的nb值,rpelev在短块时值为1,在长块时值为2。(8)计算感知熵PE并做窗型判决 其中,w_high(b) %w_low(b)可以从标准中查到,得到PE后,让PE与固定阈值 switch_pe比较,若PE大于switch_pe,则编码使用短窗,否则采用长窗。但如果前一帧采 用长窗而本帧判决为使用短窗,则使用过渡窗,否则使用短窗。由上述的基于感知熵的窗型判别方法可以看出,该方法运用了时频变换,并且随 后在时域与频域对于信号进行了大量的计算。AAC在44. IKhz采样率和64Kbps码率时,心 理声学模型的计算量占整个编码的22%,对于心理声学模型快速算法的研究是非常有必要 的。
技术实现思路
为了克服AAC编码过程中窗型判别模块高复杂度的缺陷,本专利技术提出了基于帧内 数据能量方差与帧间时域能量峰值比较的窗型判别方法。本专利技术的主要内容为使用基于帧内数据能量方差与帧间时域能量峰值比较的方法进行AAC编码中的窗型判别,舍弃了 AAC标准建议的基于感知熵的窗型判别方法。 该方法的具体步骤如下步骤一 步骤二 步骤三 步骤四⑵将输入的时域信号进行均勻分块; 对每块信号求总能量并对该帧各块信号能量求方差E_var ; 求出该帧与前一帧中各块的能量峰值E_peak与E^peak ; 通过对步骤二与步骤三中得出的结果进行分析,判断该帧的窗类型。 其中,在步骤一中,在传统的每帧音频数据为1024个采样点的情况下,将输入的 时域信号均勻的分为N块,其中N = 8。在步骤二中,为了对不同强度的音频信号进行统一的能量方差阈值设定,必须排 除音频强度的影响,于是对E_var进行如下调整首先由式(1)求出E_var。 再由式(2)所示对E_var进行调整。E_var = E_var/Esum其中Ε·是该帧信号总能量,如式(3)所示1024Esum=K(3)在步骤三中,如式(4)与式(5)所示求出该帧与前-与E^peak用于帧间数据能量峰值的比较。E—peak = max (E1, E2. . . En)E1-peak = max (E11, E12. . . E1N)(5)其中,En与Eln分别指该帧与前一帧中第η个字块的总能量,其中,1彡η彡8。步骤四中,先对前一帧已判决出的窗型进行判断,若前一帧数据判断为短窗,则将 步骤三中求得的帧内各块能量方差E_var与阈值Evlth进行比较,其中,Evlth = kXEvth,k 为一个值为0 1的系数,设为2/3,Evth为实验得出的经验阈值,为0. 07。若E_var彡Evlth, 则直接将该帧判定为短窗,否则将该帧判定为长窗;若前一帧数据判断为长窗,则将E_var 与阈值Evth进行比较,若E_var < Evlth,则直接判定该帧窗型为长窗,若E_var ^ Evlth, 并不直接判断该帧窗型为短窗,而是对步骤三中得出的该帧与前一帧中各块的能量峰值E_ peak与E^peak进行比较,若E—peak-E^peak彡Epeakth,则判断该帧窗型为短窗,否则判断 该帧窗型为长窗。特别的,当处理音频文件的第一帧时,没有判断前一帧的步骤,而是直接 将计算出的本文档来自技高网
...

【技术保护点】
本专利技术提出了基于帧内数据能量方差与帧间时域能量峰值比较的窗型判别方法,该方法的具体步骤如下:步骤一:将输入的时域信号进行均匀分块;步骤二:对每块信号求总能量并对该帧各块信号能量求方差E_var;步骤三:求出该帧与前一帧中各块的能量峰值E_peak与E↓[l]_peak;步骤四:通过对步骤二与步骤三中得出的结果进行分析,判断该帧的窗类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛峡李硕
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1