运动图像专家组音频编码方法及装置制造方法及图纸

技术编号:3058673 阅读:163 留言:0更新日期:2012-04-11 18:40
一种运动图像专家组(MPEG)音频编码方法,包括:    (a)在时域中对输入音频信号执行改进的离散余弦变换(MDCT)以生成MDCT系数;    (b)基于MDCT系数执行心理声学模型;和    (c)基于心理声学模型的结果来执行量化,并压缩位流。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数字音频数据的压缩,尤其涉及运动图像专家组(MPEG)音频编码方法以及MPEG音频编码装置。
技术介绍
MPEG音频是用于国际标准化组织/国际电工委员会(ISO/IEC)的高质量、高效率立体声编码的标准方法,也就是说,与运动图像编码平行,在ISO/IEC小组29/工作组11(SC 29/WG 11)的MPEG中,MPEG音频被标准化。当压缩时,使用基于32个频带的子带编码(频带分割编码)和改进的离散余弦变换(MDCT),并且通过使用心理声学特性,获得高效率的压缩。利用该新技术,MPEG语音能实现比现有技术的压缩编码方法更高的声音质量。MPEG音频使用感知编码方法,其中,为了以高效率压缩音频信号,通过采用人类的感知特性来忽略具有较低敏感性的细节信息,以减小编码量。而且,在MPEG音频中使用心理声学特性的感知编码方法采用在无声环境下的最小可听界限(minimum audible limit)和掩蔽特性(maskingcharacteristic)。无声环境下的最小可听界限是可由人耳听见的最小级别的声音,并且涉及人耳可以听到的无声环境中的噪声限制。无声环境下的最小可听界限相对于声音频率而变化。在某一频率中,可以听见大于无声环境下的最小可听界限的声音,而小于该界限的声音不能被听见。而且,通过一起收听的另一声音,预定声音的可听界限大大改变,这被称为“掩蔽效应(maskingeffect)”。其中发生掩蔽效应的频率宽度被称为“临界频带”。为了有效地使用诸如这种临界频带的声音心理学,首先由频率分割信号是很重要的,为此,频带被分成32个频带,并执行子带编码。同时,在这时候,采用称为“多相位滤波器组”的滤波器来消除MPEG音频中的32个频带的混淆噪声(aliasingnoise)。因而,MPEG音频包括使用滤波器组和心理声学模型的位分配以及量化。通过使用心理声学模型2、生成作为执行MDCT的结果的MDCT系数被压缩,同时分配最优量化位。为了分配最优位,心理声学模型2基于快速傅立叶变换(FFT),并通过使用扩展函数计算掩蔽效应,从而需要大量的计算复杂性。图1是示出MPEG-1第三层中的传统编码过程的流程图。首先,如果在步骤S110中接收1152个采样的输入PCM信号,则在步骤S120中,这些信号通过滤波器组,且信号中的噪声被消除。然后,这些信号被输入到MDCT步骤。而且,对于接收到这些输入信号,在步骤S130中执行心理声学模型2,其中在步骤S140中计算信噪比(SNR),在步骤S150中执行预回声消除,并且在步骤S160中计算每一子带的信号掩蔽比(SMR)。通过使用这样计算的SMR值,在步骤S170中,对通过滤波器组的信号执行MDCT。然后,在步骤S180,对MDCT系数执行量化,并且在步骤S190,通过利用量化结果,执行MPEG-1第三层位流压缩。在图2中示出图1所示的心理声学模型2的特定过程。首先,如果从输入缓冲器接收到576个采样,则计算SNR。首先,在步骤S141中对所接收信号执行FFT。在步骤S142中,针对FFT结果的量值r(w),根据下列公式1和2计算能量eb(b)和非预测性Cweb(b)=∑r(w)2(1)Cw=(((r(w)cos(f(w)-rp(w)cos(fp(w))2+((r(w)sin(f(w)-rp(w)sin(fp(w))2)0.5r(w)+abs(rp(w))...(2)]]>这里,r(w)表示FFT的幅值,f(w)表示FFT的相位,rp(w)表示预测的幅值,而fp(w)表示预测的相位。然后,在步骤S143,根据下面的公式3和4计算每一频带的能量e(b)和非预测性c(b)e(b)=Σbandlowbandhighr(w)2...(3)]]>C(b)=Σbandlowbandhighr(w)2×Cw...(4)]]>接着,在步骤S144,通过利用扩展函数,根据下列公式5和6计算每一频带的能量ec(b)和非预测性门限值ct(b)ec(b)=Σbandlowbandhighe(b)*spreadingfunc....(5)]]> ct(b)=Σbandlowbandhighc(b)*spreadingfunc....(6)]]>接着,根据下列公式7计算音调指数(tonality index)tb(b)=-0.2999-0.43(ct(b)ec(b))...(7)]]>接着,在步骤S145,根据下列公式计算SNRSNR=max(min val,tb(b)*TMN+(1-tb(b)NMT)(8)这里,minval表示在每一频带中的最小SNR值,TNM表示音调掩蔽噪声,NMT表示噪声掩蔽音调,SNR表示信噪比。接着,在步骤S146中,计算感知能量。然后,在步骤S151中,确定所计算的感知平均信息量(entropy)是否超过预定门限值。如果确定结果指示感知平均信息量超过了预定门限值,则在步骤S153中,确定输入的576采样信号块是短块,而如果感知熵没有超过预定门限值,则在步骤S152中,确定输入的576采样信号块是长块。接着,当确定输入块是长块时,如下计算63个频带每个的ratio_lratio_l=ct(b)/eb(b)接着,当确定输入块是短块时,43个频带的每个被分成三个部分,并且如下计算ratio_sratio_s=ct(b)/eb(b)如上所述的传统编码处理对输入的采样执行FFT,计算在频域中的能量和非预测性,以及将扩展函数应用于每一频带,使得需要大量的计算。心理声学模型使得可以通过利用人耳的特性来使能音频信号压缩,并且在音频压缩中起到重要意义。然而,实现该模型需要大量计算。特别是,利用FFT的心理声学模型的计算、非预测性和扩展函数需要大量的计算。图3A是示出MPEG-1第3层中的FFT计算的结果的图,图3B是示出执行MPEG-1第3层中的长窗口MDCT的结果的图。参照图3A和3B,虽然FFT结果和MDCT结果彼此不同,但是现有技术将在FFT域中的计算结果应用于MDCT,从而造成位浪费。
技术实现思路
本专利技术提供MPEG音频编码方法、用于在编码MPEG音频时确定窗口类型的方法、在编码MPEG音频时的心理声学建模方法、MPEG音频编码设备、用于在编码MPEG音频时确定窗口类型的设备、在MPEG音频编码系统中的心理声学模型设备,通过上述设备和方法,可以降低计算的复杂度,以及可以防止位的浪费。根据本专利技术的一个方面,提供一种运动图像专家组(MPEG)音频编码方法,包括(a)在时域中对输入音频信号执行改进的离散余弦变换(MDCT);(b)使用执行MDCT的MDCT系数作为输入,执行心理声学模型;和(c)通过使用执行心理声学模型的结果来执行量化,并压缩位流。根据本专利技术的另一方面,提供一种MPEG音频编码方法,包括(a)通过使用在帧中的信号的能量差和不同帧的信号的能量差在时域中确定输入音频信号的帧的窗口类型;(b)通过在时域中对输入音频信号执行MDCT所获得的MDCT系数,根据掩蔽前(pre-masking)参数和掩蔽后(post-masking)参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种运动图像专家组(MPEG)音频编码方法,包括(a)在时域中对输入音频信号执行改进的离散余弦变换(MDCT)以生成MDCT系数;(b)基于MDCT系数执行心理声学模型;和(c)基于心理声学模型的结果来执行量化,并压缩位流。2.如权利要求1所述的方法,其中基于掩蔽前参数和掩蔽后参数执行步骤(b),其中所述掩蔽前参数是前向掩蔽的代表值,所述掩蔽后参数是后向掩蔽的代表值。3.一种运动图像专家组(MPEG)音频编码方法,包括(a)根据帧中的信号的能量差和不同帧的信号的能量差来确定时域中的输入音频信号的帧的窗口类型;(b)对于通过对时域中的输入音频信号执行改进离散余弦变换(MDCT)所获得的MDCT系数,根据掩蔽前参数和掩蔽后参数来执行基于参数的心理声学模型,其中所述掩蔽前参数是前向掩蔽的代表值,所述掩蔽后参数是后向掩蔽的代表值;以及(c)执行量化,并根据心理声学模型的结果压缩位流。4.如权利要求3所述的方法,其中在步骤(a)中,根据帧中的信号的能量差是否大于第一预定门限值值以及不同帧的信号的能量差是否大于第二预定门限值值,所述窗口类型被确定为短窗口类型或者长窗口类型。5.如权利要求4所述的方法,其中在步骤(b)中,如果所确定的窗口类型是长窗口类型,则以信号的频带为单位,根据掩蔽前参数和掩蔽后参数来执行基于参数的心理声学模型,并且如果所确定的窗口类型是短窗口类型,则以信号的每一频带中的子带为单位,根据掩蔽前参数和掩蔽后参数来执行基于参数的心理声学模型。6.如权利要求4所述的方法,其中步骤(b)包括(b1)根据掩蔽前参数和掩蔽后参数如下计算频带的量值和掩蔽门限值频带量值=前一频带的量值*掩蔽后参数+当前频带的量值+下一频带的量值*掩蔽前参数,和掩蔽门限值=前一频带的主掩蔽的量值*掩蔽后参数+当前频带的主掩蔽的量值+下一频带的主掩蔽的量值*掩蔽前参数;以及(b2)计算所计算的频带的量值对所计算的掩蔽门限值的比。7.一种在编码运动图像专家组(MPEG)音频时的窗口类型确定方法,包括(a)接收包括在时域中的多个采样的输入音频信号,并将所述采样变换成绝对值;(b)将被变换成绝对值的采样分成形成帧的预定数量的频带,并对于每一频带,计算频带和,所述频带和是属于频带的绝对值的和;(c)基于相邻频带的频带和之间的差来执行第一窗口类型确定;(d)计算当前的帧和,所述帧和是在帧中的绝对值之和,并根据在前一帧和与当前帧和之间的差来执行第二窗口类型确定;以及(e)通过组合第一窗口类型确定的结果和执行第二窗口类型确定的结果来确定窗口类型。8.如权利要求7所述的方法,其中在步骤(c)中,根据帧中的当前频带和是否大于预定多个前一频带和,或前一频带和是否大于预定多个当前频带和,窗口类型被确定为短窗口类型或长窗口类型。9.如权利要求8所述的方法,其中在步骤(d)中,根据前一帧和是否大于预定多个当前帧和,窗口类型被确定为短窗口类型或长窗口类型。10.如权利要求9所述的方法,其中在步骤(e)中,如果步骤(c)和(d)的确定结果都是短窗口类型,则窗口类型被最终确定为短窗口类型,而当步骤(c)和(d)的确定结果都不是短窗口类型,则窗口类型被确定为长窗口类型。11.一种在编码运动图像专家组(MPEG)音频时基于参数的心理声学建模方法,包括(a)接收通过对具有多个频带的输入音频信号执行改进的离散余弦变换(MDCT)所获得的MDCT系数,并将所述MDCT系数变换成绝对值;(b)基于绝对值计算主掩蔽参数;(c)通过使用每一频带的相应绝对值来计算每一频带的第一量值,并根据每一频带的相应绝对值和主掩蔽参数来计算每一频带的主掩蔽的量值;(d)通过将掩蔽前参数和掩蔽后参数应用于每一频带的第一量值来计算每一频带的第二量值,以及通过将所述掩蔽前参数和掩蔽后参数应用于主掩蔽量值来计算主掩蔽门限值,其中所述掩蔽前参数是前向掩蔽的代表值,所述掩蔽后参数是后向掩蔽的代表值;和(e)计算每一频带的第二量值对每一频带的主掩蔽门限值的比。12.如权利要求11所述的方法,其中在步骤(b)中,根据下列公式,基于绝对值r(w)计算主掩蔽参数MCw,MCw=abs(r(w)-abs(2r(w-1)-(r(w-2))abs(r(w)+abs(2r(w-1)-(r(w-2))]]>13.如权利要求12所述的方法,其中在步骤(c)中,根据下列公式来计算每一频带b的量值e(b)和每一频带b的主掩蔽c(b)的量值e(b)=Σbandlowbandhighr(w),C(b)=Σbandlowbandhighr(w)×MCw]]>14.如权利要求13所述的方法,其中在步骤(d)中,根据下列公式计算每一频带b的第一量值ec(b)和每一频带b的主掩蔽门限值ct(b)ec(b)=e(b-1)*post_masking+e(b)+e(b+1)*pre_maskingct(b)=c(b-1)*post_masking+c(b)+c(b+1)*pre_masking15.一种运动图像专家组(MPEG)音频编码设备,包括改进离散余弦变换(MDCT)单元,用于在时域中对输入音频信号执行MDCT以生成MDCT系数;心理声学模型执行单元,用于基于MDCT系数来执行心理声学模...

【专利技术属性】
技术研发人员:河昊振
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1