多声道数字音频信号的压缩编码和解码设备及其方法技术

技术编号:3611019 阅读:201 留言:0更新日期:2012-04-11 18:40
用于对多声道数字音频信号进行压缩编码解码的设备及其方法,其中编码设备包括:帧长选择器,子带分解滤波器组,暂态检测器,比例因子估计器,比特分配器,用于将由目标码率所决定的比特资源自适应地分配到各个子带段,子带量化器,以及多路复用器。该编解码设备及其方法的压缩效率高,经过本发明专利技术编码的音频信号能与视频信号同步剪辑并能经受得起十次以上的纵列编码,因而1)能同时满足节目的配送和传输的要求;2)极大地简化了节目配送的环节和设备、提高了节目配送过程的保真度以及降低了节目配送的成本。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及数字音频信号的编码/解码设备及其方法,更确切地说,是关于对多声道数字音频信号进行压缩编码/解码的设备及方法。
技术介绍
多声道(包括立体声)数字音频压缩编码技术已被广泛应用于VCD,SVCD,DVD,卫星电视,数字电视,和互联网(Internet)等领域中。它要解决的主要问题是用于表达多声道数字音频信号的码率很高,但可用于传播或储存它的信道容量却非常有限。例如,用PCM来表达48kHz采样率每个样本24比特的5.1声道的环绕声需要6912kbps(千比特/秒)的码率,而如数字电视之类的信道容量比较有限的应用可分配给数字音频信号的码率一般为384kbps,即使是DVD这样的信道容量比较宽松的应用可分配给数字音频信号的码率也一般为384kbps,768kbps,和1536kbps。在此,数字音频压缩编码技术需要提供高达18倍的压缩比。数字音频压缩编码技术的研究开发可以追溯到70年代早期。经过三十年的发展,目前广泛采用的技术框架已基本定型为帧长选择器,频率或子带分解器,暂态检测器,线性预测器,比特分配器,量化器,熵编码器,和多路复用器。例如,MPEG 2 AAC和MPEG 4 AAC技术把输入音频PCM信号流分成1024个样本一帧,然后对每帧信号作暂态检测。如果未发现本帧样本中有暂态响应,则(可选择地)作长期线性预测,然后作1024个子带的频率分解,再(可选择地)对每个子代信号作短期线性预测。如果发现有暂态响应,则进一步把本帧的1024个样本分成8个子帧,每帧128个样本,然后作128个子带的频率分解,并把暂态响应所在的那些子帧的位置传送给多路复用器。随后作基于人耳听觉模型的全局比特分配器,对子带信号作非线性标量量化,和对量化指数作哈夫曼(Huffman)编码。最后,多路复用器把以上各步骤所产生的辅助信息和表达各个子带样本的哈夫曼码打包成一个完整的以帧为单位的压缩码流。AAC的优点是压缩效率高。但编码器和解码器复杂,解码后的音频信号的音质不完全透明。再例如,DTS的多声道音频编码器的帧长选择器可根据采样率和码率从256,512,1024,2048,和4096中选一个帧长,并按此帧长把输入音频PCM信号流分成帧。随后作32个子带的频率分解,再对每个子带信号作子带编码。子带编码包括暂态检测,线性预测,基于人耳听觉模型的全局比特分配器,标量/矢量量化,和哈夫曼(Huffman)编码。最后,多路复用器把以上各步骤所产生的辅助信息和表达各个子带样本的量化指数或哈夫曼码打包成一个完整的以帧为单位的压缩码流。DTS的优点是解码后的音频信号的音质好,在高码率(如1536kbps)时被很多人认为完全透明。但它的压缩效率不高。随着数字电视近几年在欧州和北美的商业广播,多声道音频节目作为电视伴音的配送成为一个迫切需要解决的问题。这里涉及到的一个主要问题是目前的电视台和录音棚的设施仅仅支持立体声。把它们改成多声道意味着更换与音频相关的几乎全部设备。把多声道节目压缩到立体声能支持的码率即可避免这个问题。对多声道节目压缩后也有利于各个电视台和录音棚之间传输和分享节目。但压缩后的音频码流引入了帧的结构。如果音频帧的长度与视频帧的不等,在对视频码流在其帧的边界上作剪辑时就会切到音频帧的内部,从而破坏音频帧的结构,使解码器出错。另外,在多声道节目的制作和配送过程中往往需要对其进行多次的编码和解码(纵列编码Tandem Coding)操作。这要求压缩技术必须能经得起至少十次以上的纵列编码而听不到失真。Dolby E是一个专为以上应用而设计的音频压缩编码技术。它的帧长度固定为1792,但它用采样率变换的方法来使一帧Dolby E的数据流所占的时间与各种通用的视频帧频率(NTSC,PAL,和电影)的帧长度相等以达到能与它们同步剪辑的目的。同时,它又用高码率来确保能经得起十次以上的纵列编码而听不到失真。但是,Dolby E的压缩效率不高,不适合作为把多声道节目传输到最终用户(如电视机)的压缩技术。因此,电视台在用Dolby E制作好节目后还得解码成PCM,然后再编码成AC-3或MPEG之类的高压缩效率的编码技术的码流后才能发射出去。图1示出采用Dolby E作节目配送的压缩编码技术,AC-3作节目传输的压缩编码技术的电视台配送和传输音频节目的过程。从中可以看出,这个电视台法方案存在以下几个困难1)音频信号的失真大Dolby E本身的采样率转换引入失真,从Dolby E格式的码流到AC-3格式的码流的转移编码(Transcoding)又引入新的失真。2)已发射过的节目很难再用如图1所示,如果要再用已发射过的节目,它必须被解码成PCM再经Dolby E编码后才能与其他节目(如广告等)切换。在发射时还得重新经过从Dolby E解码到AC-3编码的转移编码过程。由于作最终传输的码率一般不高,已发射过的节目在经过以上这一串(AC-3解码->Dolby E编码->Dolby E解码->AC-3编码)转移编码后的音质很难或无法保证。3)由于Dolby E的输入和输出的采样率没有简单的倍频关系,其编码和解码器都很复杂昂贵。
技术实现思路
本专利技术的第一方面,提供一种高效高保真的对多声道(包括单声道)音频信号进行压缩编码的编码器及其编码方法。当该音频信号作为视频信号的伴音时,该方法既能满足配送多声道数字音频节目的要求,也能满足以中低码率传播多声道数字音频节目的要求(压缩效率高)。也即,它实现了Dolby E和其它传输压缩编码技术如AC-3加起来的功能。本专利技术在该方面的编码器包括1)帧长选择器,用于根据音频信号的采样率,码率,和视频帧频率(当多声道音频信号作为视频信号的伴音时)选择音频帧长;2)子带分解滤波器组,用于将一帧一帧输入的音频信号分解成多个子带信号;3)暂态检测器,用于将输入的子带信号分成暂态段与稳态段;4)比特分配器,用于将由目标码率所决定的比特资源分配到各个子带段;5)子带量化器,用于对所述的子带信号以段为单位量化;6)多路复用器(MUX),用于将子带的量化指数以及相关的辅助信息多路复用打包成一个以帧为单位的完整的码流。本专利技术在该方面的编码方法包括1)根据音频信号的采样率,码率,和视频帧频率(当多声道音频信号作为视频信号的伴音时)选择音频帧长;2)通过子带分解滤波器组将一帧一帧输入的音频信号分解成多个子带信号;3)将各个子带信号分成暂态段与稳态段;4)将由目标码率所决定的比特资源分配到各个子带段;5)对所述的子带信号以段为单位量化;6)将子带信号的量化指数以及相关的辅助信息多路复用打包成一个以帧为单位的完整的码流。本专利技术的第二方面,提供一种对由上述编码器按上述编码方法编码形成的音频码流进行解码的解码器及其解码方法。其中该解码器包括1)多路分解器(DEMUX),用于从上述编码的码流中多路分解出子带信号的量化指数以及相关的如音频帧长,子带段边界,和比特分配等辅助信息;2)子带逆量化器,用于依据相关的辅助信息以段为单位由子带信号的量化指数重建子带信号;3)子带合成滤波器组,用于由子带信号重建音频信号。本专利技术在该方面的解码方法包括1)从上述音频编码的码流中多路分解出子带信号的量化指数以及相关的辅助本文档来自技高网
...

【技术保护点】
一种用于对多声道数字音频信号进行压缩编码的编码器,包括: 帧长选择器,用于接收所述的音频信号,根据所述音频信号的采样率和目标码率选择帧长,并按此帧长将所述的音频信号分成帧; 子带分解滤波器组,用于将逐帧输入的音频信号分解成多个子带信号; 暂态检测器,用于将输入的子带信号划分成暂态段和稳态段,其段长自适应地随暂态和稳态情况变化,并输出各段的位置信息; 比例因子估计器,用于估计并量化每段子带信号的比例因子,并输出比例因子的量化指数; 比特分配器,用于将由目标码率所决定的比特资源自适应地分配到各个子带段; 子带量化器,用于依据所述比特分配对所述的子带信号以段为单位量化; 多路复用器,用于将子带量化器产生的子带样本的量化指数以及包含有帧长、段位置信息、比例因子的量化指数以及比特分配信息的辅助信息多路复用打包成一个以帧为单位的完整的码流。

【技术特征摘要】

【专利技术属性】
技术研发人员:游余立
申请(专利权)人:中山正音数字技术有限公司游余立
类型:发明
国别省市:44[中国|广东]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利