一种增强音频编解码装置及方法制造方法及图纸

技术编号:3421946 阅读:146 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种增强音频编码装置,包括心理声学分析模块、时频映射模块、量化和熵编码模块、比特流复用模块、信号性质分析模块和多分辨率分析模块;信号性质分析模块用于对输入音频信号进行信号类型分析;心理声学分析模块计算音频信号的掩蔽阈值和信掩比,输出到所述量化和熵编码模块;多分辨率分析模块根据信号类型进行多分辨率分析,量化和熵编码模块在信掩比的控制下对频域系数进行量化和熵编码,比特流复用模块形成音频编码码流。本发明专利技术适用于多种采样率、声道配置的音频信号的高保真压缩编码,可以支持采样率为8kHz到192kHz之间的音频信号;可支持所有可能的声道配置;并且支持范围很宽的目标码率的音频编/解码。

【技术实现步骤摘要】

本专利技术涉及音频编解码
,具体地说,涉及一种基于感知模型的增强音频编解码装置及方法
技术介绍
为得到高保真的数字音频信号,需对数字音频信号进行音频编码或音频压缩以便于存储和传输。对音频信号进行编码的目的是用尽可能少的比特数实现音频信号的透明表示,例如原始输入的音频信号与经编码后输出的音频信号之间几乎没有差别。在二十世纪八十年代初,CD的出现体现了用数字表示音频信号的诸多优点,例如高保真度、大动态范围和强鲁棒性。然而,这些优点都是以很高的数据速率为代价的。例如CD质量的立体声信号的数字化所要求的采样率为44.1kHz,且每个采样值需用15比特进行均匀量化,这样,没有经过压缩的数据速率就达到了1.41Mb/s,如此高的数据速率给数据的传输和存储带来极大的不便,特别是在多媒体应用和无线传输应用的场合下,更是受到带宽和成本的限制。为了保持高质量的音频信号,因此要求新的网络和无线多媒体数字音频系统必须降低数据的速率,且同时不损害音频的质量。针对上述问题,目前已提出了多种既能得到很高压缩比又能产生高保真的音频信号的音频压缩技术,典型的有国际标准化组织ISO/IEC的MPEG-1/-2/-4技术、杜比公司的AC-2/AC-3技术、索尼公司的ATRAC/MiniDisc/SDDS技术以及朗讯科技的PAC/EPAC/MPAC技术等。下面选择MPEG-2 AAC技术、杜比公司的AC-3技术进行具体的说明。MPEG-1技术和MPEG-2 BC技术是主要用于单声道及立体声音频信号的高音质编码技术,随着对在较低码率下达到较高编码质量的多声道音频编码的需求的日益增长,由于MPEG-2 BC编码技术强调与MPEG-1技术的后向兼容性,因此无法以低于540kbps的码率实现五声道的高音质编码。针对这一不足,提出了MPEG-2 AAC技术,该技术可采用320kbps的速率对五声道信号实现较高质量的编码。图1给出了MPEG-2 AAC编码器的方框图,该编码器包括增益控制器101、滤波器组102、时域噪声整形模块103、强度/耦合模块104、心理声学模型、二阶后向自适应预测器105、和/差立体声模块106、比特分配和量化编码模块107以及比特流复用模块108,其中比特分配和量化编码模块107进一步包括压缩比/失真处理控制器、尺度因子模块、非均匀量化器和熵编码模块。滤波器组102采用改进的离散余弦变换(MDCT),其分辨率是信号自适应的,即对于稳态信号采用2048点MDCT变换,而对于瞬态信号则采用256点MDCT变换;这样,对于48kHz采样的信号,其最大频率分辨率为23Hz,最大时间分辨率为2.6ms。同时在滤波器组102中可以使用正弦窗和Kaiser-Bessel窗,当输入信号的谐波间隔小于140Hz时使用正弦窗,当输入信号中很强的成分间隔大于220Hz时使用Kaiser-Bessel窗。音频信号经过增益控制器101后进入滤波器组102,根据不同的信号进行滤波,然后通过时域噪声整形模块103对滤波器组102输出的频谱系数进行处理,时域噪声整形技术是在频域上对频谱系数进行线性预测分析,然后依据上述分析控制量化噪声在时域上的形状,以此达到控制预回声的目的。强度/耦合模块104是用于对信号强度的立体声编码,由于对于高频段(大于2kHz)的信号,听觉的方向感与有关信号强度的变化(信号包络)有关,而与信号的波形无关,即恒包络信号对听觉方向感无影响,因此可利用这一特点以及多声道间的相关信息,将若干声道合成一个共同声道进行编码,这就形成了强度/耦合技术。二阶后向自适应预测器105用于消除稳态信号的冗余,提高编码效率。和差立体声(M/S)模块106是针对声道对进行操作,声道对是指诸如双声道信号或多声道信号中的左右声道或左右环绕声道的两个声道。M/S模块106利用声道对中两个声道之间的相关性以达到减少码率和提高编码效率的效果。比特分配和量化编码模块107是通过一个嵌套循环过程实现的,其中非均匀量化器是进行有损编码,而熵编码模块是进行无损编码,这样可以去除冗余和减少相关。嵌套循环包括内层循环和外层循环,其中内层循环调整非均匀量化器的步长直到所提供的比特用完,外层循环则利用量化噪声与掩蔽阈值的比来估计信号的编码质量。最后经过编码的信号通过比特流复用模块108形成编码的音频流输出。在采样率可伸缩的情况下,输入信号同时进行四频段多相位滤波器组(PQF)中产生四个等带宽的频带,每个频带利用MDCT产生256个频谱系数,总共有1024个。在每个频带内都使用增益控制器101。而在解码器中可以忽略高频的PQF频带得到低采样率信号。图2给出了对应的MPEG-2 AAC解码器的方框示意图。该解码器包括比特流解复用模块201、无损解码模块202、逆量化器203、尺度因子模块204、和/差立体声(M/S)模块205、预测模块206、强度/耦合模块207、时域噪声整形模块208、滤波器组209和增益控制模块210。编码的音频流经过比特流解复用模块201进行解复用,得到相应的数据流和控制流。上述信号通过无损解码模块202的解码后,得到尺度因子的整数表示和信号谱的量化值。逆量化器203是一组通过压扩函数实现的非均匀量化器组,用于将整数量化值转换为重建谱。由于编码器中的尺度因子模块是将当前尺度因子与前一尺度因子进行差分,然后将差分值采用Huffman编码,因此解码器中的尺度因子模块204进行Huffman解码可得到相应的差分值,再恢复出真实的尺度因子。M/S模块205在边信息的控制下将和差声道转换成左右声道。由于在编码器中采用二阶后向自适应预测器105消除稳态信号的冗余并提高编码效率,因此在解码器中通过预测模块206进行预测解码。强度/耦合模块207在边信息的控制下进行强度/耦合解码,然后输出到时域噪声整形模块208中进行时域噪声整形解码,最后通过滤波器组209进行综合滤波,滤波器组209采用逆向改进离散余弦变换(IMDCT)技术。对于采样频率可伸缩的情况,可通过增益控制模块210忽略高频的PQF频带,以得到低采样率信号。MPEG-2 AAC编解码技术适用于中高码率的音频信号,但对低码率或甚低码率的音频信号的编码质量较差;同时该编解码技术涉及的编解码模块较多,实现的复杂度较高,不利于实时实现。图3给出了采用杜比AC-3技术的编码器的结构示意图,包括暂态信号检测模块301、改进的离散余弦变换滤波器MDCT 302、频谱包络/指数编码模块303、尾数编码模块304、前向-后向自适应感知模型305、参数比特分配模块306和比特流复用模块307。音频信号通过暂态信号检测模块301判别是稳态信号还是瞬态信号,同时通过信号自适应MDCT滤波器组302将时域数据映射到频域数据,其中512点的长窗应用于稳态信号,一对短窗应用于瞬态信号。频谱包络/指数编码模块303根据码率和频率分辨率的要求采用三种模式对信号的指数部分进行编码,分别是D15、D25和D45编码模式。AC-3技术在频率上对频谱包络采取差分编码,因为最多需要±2增量,每个增量代表6dB的电平变化,对于第一个直流项采用绝对值编码,其余指数就采用差分编码。在D15频谱包络指数编码中,每个指数大约需要2.33比特,3本文档来自技高网...

【技术保护点】
一种增强音频编码装置,包括心理声学分析模块、时频映射模块、量化和熵编码模块以及比特流复用模块,其特征在于,还包括信号性质分析模块和多分辨率分析模块;其中所述信号性质分析模块,用于对输入音频信号进行类型分析,并输出到所述心理声学分析模块和所述时频映射模块,同时将音频信号的类型分析结果输出到所述比特流复用模块;所述心理声学分析模块,用于计算音频信号的掩蔽阈值和信掩比,并输出到所述量化和熵编码模块;所述时频映射模块,用于将时域音频信号转变成频域系数,并输出到多分辨率分析模块;所述多分辨率分析模块,用于根据所述信号性质分析模块输出的信号类型分析结果,对快变类型信号的频域系数进行多分辨率分析,并输出到量化和熵编码模块;所述量化和熵编码模块,在所述心理声学分析模块输出的信掩比的控制下,用于对频域系数进行量化和熵编码,并输出到所述比特流复用模块;所述比特流复用模块用于将接收到的数据进行复用,形成音频编码码流。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:潘兴德安德斯叶瑞特朱晓明麦可舒克任为民王磊豪格何瑞施邓昊佛里德理克海恩
申请(专利权)人:北京宫羽数字技术有限责任公司北京阜国数字技术有限公司编码技术有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利