【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数字音频数据的压缩,尤其涉及运动图像专家组(MPEG)音频编码方法以及MPEG音频编码装置。
技术介绍
MPEG音频是用于国际标准化组织/国际电工委员会(ISO/IEC)的高质量、高效率立体声编码的标准方法,也就是说,与运动图像编码平行,在ISO/IEC小组29/工作组11(SC 29/WG 11)的MPEG中,MPEG音频被标准化。当压缩时,使用基于32个频带的子带编码(频带分割编码)和改进的离散余弦变换(MDCT),并且通过使用心理声学特性,获得高效率的压缩。利用该新技术,MPEG语音能实现比现有技术的压缩编码方法更高的声音质量。MPEG音频使用感知编码方法,其中,为了以高效率压缩音频信号,通过采用人类的感知特性来忽略具有较低敏感性的细节信息,以减小编码量。而且,在MPEG音频中使用心理声学特性的感知编码方法采用在无声环境下的最小可听界限(minimum audible limit)和掩蔽特性(maskingcharacteristic)。无声环境下的最小可听界限是可由人耳听见的最小级别的声音,并且涉及人耳可以听到的无声环境中的噪声限制。无声环境下的最小可听界限相对于声音频率而变化。在某一频率中,可以听见大于无声环境下的最小可听界限的声音,而小于该界限的声音不能被听见。而且,通过一起收听的另一声音,预定声音的可听界限大大改变,这被称为“掩蔽效应(maskingeffect)”。其中发生掩蔽效应的频率宽度被称为“临界频带”。为了有效地使用诸如这种临界频带的声音心理学,首先由频率分割信号是很重要的,为此,频带被分成32个频带,并执行子带编 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种运动图像专家组(MPEG)音频编码方法,包括(a)在时域中对输入音频信号执行改进的离散余弦变换(MDCT)以生成MDCT系数;(b)基于MDCT系数执行心理声学模型;和(c)基于心理声学模型的结果来执行量化,并压缩位流。2.如权利要求1所述的方法,其中基于掩蔽前参数和掩蔽后参数执行步骤(b),其中所述掩蔽前参数是前向掩蔽的代表值,所述掩蔽后参数是后向掩蔽的代表值。3.一种运动图像专家组(MPEG)音频编码方法,包括(a)根据帧中的信号的能量差和不同帧的信号的能量差来确定时域中的输入音频信号的帧的窗口类型;(b)对于通过对时域中的输入音频信号执行改进离散余弦变换(MDCT)所获得的MDCT系数,根据掩蔽前参数和掩蔽后参数来执行基于参数的心理声学模型,其中所述掩蔽前参数是前向掩蔽的代表值,所述掩蔽后参数是后向掩蔽的代表值;以及(c)执行量化,并根据心理声学模型的结果压缩位流。4.如权利要求3所述的方法,其中在步骤(a)中,根据帧中的信号的能量差是否大于第一预定门限值值以及不同帧的信号的能量差是否大于第二预定门限值值,所述窗口类型被确定为短窗口类型或者长窗口类型。5.如权利要求4所述的方法,其中在步骤(b)中,如果所确定的窗口类型是长窗口类型,则以信号的频带为单位,根据掩蔽前参数和掩蔽后参数来执行基于参数的心理声学模型,并且如果所确定的窗口类型是短窗口类型,则以信号的每一频带中的子带为单位,根据掩蔽前参数和掩蔽后参数来执行基于参数的心理声学模型。6.如权利要求4所述的方法,其中步骤(b)包括(b1)根据掩蔽前参数和掩蔽后参数如下计算频带的量值和掩蔽门限值频带量值=前一频带的量值*掩蔽后参数+当前频带的量值+下一频带的量值*掩蔽前参数,和掩蔽门限值=前一频带的主掩蔽的量值*掩蔽后参数+当前频带的主掩蔽的量值+下一频带的主掩蔽的量值*掩蔽前参数;以及(b2)计算所计算的频带的量值对所计算的掩蔽门限值的比。7.一种在编码运动图像专家组(MPEG)音频时的窗口类型确定方法,包括(a)接收包括在时域中的多个采样的输入音频信号,并将所述采样变换成绝对值;(b)将被变换成绝对值的采样分成形成帧的预定数量的频带,并对于每一频带,计算频带和,所述频带和是属于频带的绝对值的和;(c)基于相邻频带的频带和之间的差来执行第一窗口类型确定;(d)计算当前的帧和,所述帧和是在帧中的绝对值之和,并根据在前一帧和与当前帧和之间的差来执行第二窗口类型确定;以及(e)通过组合第一窗口类型确定的结果和执行第二窗口类型确定的结果来确定窗口类型。8.如权利要求7所述的方法,其中在步骤(c)中,根据帧中的当前频带和是否大于预定多个前一频带和,或前一频带和是否大于预定多个当前频带和,窗口类型被确定为短窗口类型或长窗口类型。9.如权利要求8所述的方法,其中在步骤(d)中,根据前一帧和是否大于预定多个当前帧和,窗口类型被确定为短窗口类型或长窗口类型。10.如权利要求9所述的方法,其中在步骤(e)中,如果步骤(c)和(d)的确定结果都是短窗口类型,则窗口类型被最终确定为短窗口类型,而当步骤(c)和(d)的确定结果都不是短窗口类型,则窗口类型被确定为长窗口类型。11.一种在编码运动图像专家组(MPEG)音频时基于参数的心理声学建模方法,包括(a)接收通过对具有多个频带的输入音频信号执行改进的离散余弦变换(MDCT)所获得的MDCT系数,并将所述MDCT系数变换成绝对值;(b)基于绝对值计算主掩蔽参数;(c)通过使用每一频带的相应绝对值来计算每一频带的第一量值,并根据每一频带的相应绝对值和主掩蔽参数来计算每一频带的主掩蔽的量值;(d)通过将掩蔽前参数和掩蔽后参数应用于每一频带的第一量值来计算每一频带的第二量值,以及通过将所述掩蔽前参数和掩蔽后参数应用于主掩蔽量值来计算主掩蔽门限值,其中所述掩蔽前参数是前向掩蔽的代表值,所述掩蔽后参数是后向掩蔽的代表值;和(e)计算每一频带的第二量值对每一频带的主掩蔽门限值的比。12.如权利要求11所述的方法,其中在步骤(b)中,根据下列公式,基于绝对值r(w)计算主掩蔽参数MCw,MCw=abs(r(w)-abs(2r(w-1)-(r(w-2))abs(r(w)+abs(2r(w-1)-(r(w-2))]]>13.如权利要求12所述的方法,其中在步骤(c)中,根据下列公式来计算每一频带b的量值e(b)和每一频带b的主掩蔽c(b)的量值e(b)=Σbandlowbandhighr(w),C(b)=Σbandlowbandhighr(w)×MCw]]>14.如权利要求13所述的方法,其中在步骤(d)中,根据下列公式计算每一频带b的第一量值ec(b)和每一频带b的主掩蔽门限值ct(b)ec(b)=e(b-1)*post_masking+e(b)+e(b+1)*pre_maskingct(b)=c(b-1)*post_masking+c(b)+c(b+1)*pre_masking15.一种运动图像专家组(MPEG)音频编码设备,包括改进离散余弦变换(MDCT)单元,用于在时域中对输入音频信号执行MDCT以生成MDCT系数;心理声学模型执行单元,用于基于MDCT系数来执行心理声学模...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。