多通道音频编码器制造技术

技术编号:3045683 阅读:234 留言:0更新日期:2012-04-11 18:40
一种子带声编码器(12)采用了完全/非完全重构滤波器(34)、预测/非预测子带编码(72)、瞬变分析器(106)、和心理声学/最小均方差(mmse)相对时间的位分配(30)、频率以及多声道对数据流进行编码/解码以产生高保真度的重构声音。声编码器(64)对多通道声信号进行划分以便把帧尺寸即字节数量限制在所需的范围内,并对编码数据进行格式化处理以便当接收到各子帧时能进行播放从而减少伪象。此外,声编码器处理声频带宽的基带部分0-24kHz以便用相同的编码/解码算法对48kHz或更高的频率进行采样从而使声编码器的结构在未来具有兼容性。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及多通道音频信号的高质量编码和解码,更确切地说,是关于一种子带编码器,此编码器在时间域、频率域和多个音频通道之间运用了完全/非完全重构滤波器组、预测/非预测子带编码、瞬态分析、和心理声学/最小均方差(MMSE)比特率分配等方法,以产生可使其相应解码计算量受到约束的数据流。
技术介绍
公知的高质量音频和音乐编码器可以分成两大类方案。第一类是具有中高频率分辨率的子带/变换编码器,该类编码器能根据心理声学的掩蔽计算结果自适应地量化其分析窗内的子带或系数采样数据。第二类是频率分辨率较低的子带编码器,这种编码器通过ADPCM(自适应差分脉冲编码调制)对子带采样数据进行处理来补偿其频率分辨率的不足。第一类编码器利用了音乐信号中大量的短时频谱变化差异,使其比特率分配根据信号的频谱能量进行自我调整。由于其频率分辨率高的特性,这些编码器变换后的频域信号能被直接应用于建立在听觉的临界频带理论上的心理声学模型。托德(Todd)等人在1994年2月发表于音响工程协会年会的“AC-3音频传输和存储的灵活感知型编码”一文中的Dolby AC-3音频编码器,就典型地对各个PCM信号进行1024-点ffts(快速傅立叶变换)计算,并将心理声学模型应用于每个通道的1024个频率系数以决定其比特率。Dolby系统并将窗口尺寸减小到256个采样以隔离信号的瞬态响应,进行瞬态分析。AC-3编码器采用了专用的后向自适应算法对比特率分配信息进行解码。这样便减少了随编码音频数据一同发送的比特率分配信息量。其结果是,相对于前向自适应方法来说,可用于音频的带宽得以增加,从而改善了音质。在第二类编码器中,子带差分信号或是被固定量化,或是在量化时可动态调整以使所有或部分分段频带上的量化噪声减至最小,它们并没有明确参照心理声学掩蔽理论。由于在码率分配处理之前很难估计预测器性能,通常认为不能将心理声学失真阈值直接应用到预测/差分子带信号上。而量化噪声对预测过程的反作用使问题进一步复杂化。这类编码器能有效工作是因为听觉感知中重要的音频信号通常在长时间段中展示出的周期性特征。这种周期性可被预测差分量化过程充分利用。把信号分成少数子带可降低可以听觉的噪声调制效应,并可有效利用音频信号含有的长时频谱分量差异。然而随着子带数量的增加,每个子带内的预测增益将不断降低,增加到某一程度时预测增益将趋于零。数字影院系统公司(DTS),L.P.采用了一种音频编码器,它将每个PCM声道过滤分成四个子带,而且用后向ADPCM编码器对每个子带进行编码,且所述后向ADPCM编码器中的预测器系数可根据子带数据作自适应调整。编码器在每个声道上采用相同的固定比特码率分配,且低频子带较高频子带优先得以分配更多比特码率。固定码率分配方法提供了例如4∶1的固定压缩比。迈克·史密斯(Mike Smyth)和斯蒂芬·史密斯(Stephen Smyth)在“APT-X100用于广播的低延时、低码率、子带ADPCM音频编码器”,第十次国际AES会议汇编,1991年,第41-56页中描述了此类DTS编码器。此两类音频编码器还具有其它共同的局限性。首先,公知的音频编码器编码/解码时使用固定框架/帧尺寸,即采样数据数量或帧所占时间段是固定的。结果是,当编码的传输率相对于采样频率增加时,帧内的数据量也增加。因此,解码器缓冲器的尺寸必须设计得能容纳最坏情况以避免数据溢出。这样将会增加作为解码器主要成本成分的RAM的用量。其次,公知的音频编码器不易扩展应用于大于48kHz的采样频率。若这样做将出现已有解码器与新编码器所需格式不兼容的情形。缺乏未来兼容性是一个严重的局限性。此外,对PCM数据进行编码所用的公知格式要求解码器必须读入整个帧的数据之后才能开始播放。这又需要把缓冲器的尺寸限制在100ms左右的数据块,从而不产生过长的延时或滞后而干扰听者。此外,虽然这些编码器的编码能力高达24kHz,但较高频子带却常常被割舍。这样会降低高频保真度或解译再造信号的听觉氛围。公知编码器通常使用两种错码检测方案中的一种。最常用的是里德所罗门编码(Reed Solomon coding),其编码器将产生的检测码加入到数据流的辅助信息之中。这样便易于检测和纠正辅助信息中出现的任何错误。然而,它没有检测出音频数据中的错误。另一种方法是检验数据帧及其头信息区域是否有无效码状态。例如,假设某个3比特参数只允许有3种有效状态。那么发现其它五种状态中的任何一种代表着错误的发生。这种方法只是提供了某种检测能力,而音频数据中的错误仍不能被发现。
技术实现思路
鉴于上述问题,本专利技术提供了一种多通道音频编码器,其灵活性可容纳广大范围的压缩比要求,采用高比特码率时能产生比CD更好的质量,使用低比特码率时亦能改善听觉感知质量。它同时还具备降低播放延时、简化误差检测、改善预回音失真、及可延伸至未来更高采样率的特性。这是用子带编码器实现的,子带编码器把每个声道的音频信号用窗口法分成音频帧序列数据,然后将各帧数据进行滤波分成基带和高频区,再把每个基带信号分解成多个子带。子带编码器在码率较低时通常选择非完全滤波器以分解基带信号,而在码率足够高时选择完全滤波器。高频区信号独立于基带信号在高频编码阶段进行编码。基带编码阶段则包括分别用于较高频和较低频子带编码的VQ和ADPCM编码器。每个子带帧包括至少一个子帧,每个子帧进一步细分为多个子子帧。每个子帧被用作分析单元,以便估计ADPCM编码器的预测增益,且当预测增益较低时可终止使用其预测能力。子帧分析单元还被用来检测瞬变状态以调节瞬变状态前后的SFs(比例因数)。全局比特管理(GBM)系统利用多个声道、多个子带和当前帧内各子帧之间的差别把比特码率按需分配到每个子帧。GBM系统首先计算经过预测增益加以修正的SMR(信号掩蔽值比),并以心理声学模型为基础将比特码率分配到每个子帧。然后,GBM系统按照MMSE方法分配所有剩余比特码率,它或者马上切换到MMSE分配法以降低总噪声底值,或逐渐趋变到MMSE分配分案。多路复用器产生输出帧数据,此输出帧包含有同步字节、帧头信息、音频头信息和至少一个子帧,并以传输速率用多路复用形式合并成为数据流。帧头信息包括窗口尺寸和当前输出帧的尺寸。音频头信息表示音频帧数据的打包安排和编码格式。每个音频子帧包括独立于其它子帧的音频解码辅助信息、高频VQ编码数据、多个基带音频子子帧(每个子子帧以多路复用形式包装着来自各声道的、较低频子带的音频数据)、一个高频音频数据块(以多路复用形式包装着来自各声道的、高频区域音频数据,用来支持多通道音频信号在解码时可取用多种高采样率)、以及用于核实检验子帧结束的拆包同步字节。窗口尺寸的选择决定于传输速率与编码器采样频率之比,从而把输出帧的尺寸限制在要求的范围内。当压缩量相对较低时,窗口尺寸减小从而使帧尺寸不会超过上限最大值。因此解码器可以采用相对较少的、固定数量的RAM作为输入缓冲器。当压缩量相对较高时,窗口尺寸增加。GBM系统因此能利用较大的时间窗进行比特率分配,由此改善编码性能。对于熟悉本领域的技术人员来说,本专利技术的这些及其它特征和优点将会通过以下对优选实施例所作的详细说明而变得清晰。这些详细说明阐述将会结合附随图表,其中附图说明图1是按照本发本文档来自技高网
...

【技术保护点】
一种用于从数据流重构多个音频通道的多通道音频解码器,其中每个音频通道以编码器采样率被采样,被再分为多个频率子带,被压缩和多路复用为某一传输率的数据流,该多通道音频解码器包括:输入缓冲器,用于一次一个帧地读入并存储该数据流,每个所述帧包括同步字、帧头、音频头以及至少一个子帧,该子帧包括音频辅助信息和多个具有音频码的子子帧;多路分解器,其a)检测同步字,b)拆包帧头以提取指示帧中的音频采样数的窗口尺寸和指示帧中的字节数的帧尺寸,所述窗口尺寸被设置为传输率与编码器采样率之比的函数,使得帧尺寸被限制为低于输入缓冲器的尺寸,c)拆包音频头以提取帧中的子帧数和经编码的音频通道的数量,以及d)相继拆包每个子帧以提取包含子子帧数的音频辅助信息,以及将每个子子帧中的音频码多路分解为多个音频通道并将每个音频通道拆包为其子带音频码;解码器,其使用辅助信息将子带音频码一次一个子帧地解码为经重构的子带信号,而不需要参考任何其它子帧;以及重构滤波器,其将每个通道的经重构的子带信号一次一个子帧地组合为经重构的多通道音频信号。

【技术特征摘要】
US 1995-12-1 60/007,896;US 1996-5-2 08/642,2541.一种用于从数据流重构多个音频通道的多通道音频解码器,其中每个音频通道以编码器采样率被采样,被再分为多个频率子带,被压缩和多路复用为某一传输率的数据流,该多通道音频解码器包括输入缓冲器,用于一次一个帧地读入并存储该数据流,每个所述帧包括同步字、帧头、音频头以及至少一个子帧,该子帧包括音频辅助信息和多个具有音频码的子子帧;多路分解器,其a)检测同步字,b)拆包帧头以提取指示帧中的音频采样数的窗口尺寸和指示帧中的字节数的帧尺寸,所述窗口尺寸被设置为传输率与编码器采样率之比的函数,使得帧尺寸被限制为低于输入缓冲器的尺寸,c)拆包音频头以提取帧中的子帧数和经编码的音频通道的数量,以及d)相继拆包每个子帧以提取包含子子帧数的音频辅助信息,以及将每个子子帧中的音频码多路分解为多个音频通道并将每个音频通道拆包为其子带音频码;解码器,其使用辅助信息将子带音频码一次一个子帧地解码为经重构的子带信号,而不需要参考任何其它子帧;以及重构滤波器,其将每个通道的经重构的子带信号一次一个子帧地组合为经重构的多通道音频信号。2.如权利要求1所述的多通道音频解码器,其中基带解码器包括多个后向自适应差分脉冲编码调制(ADPCM)编码器,用于解码相应的子带音频码,所述辅助信息包括用于相应的ADPCM编码器的预测系数和用于控制预测系数对相应的自适应差分脉冲编码调制编码器的应用以选择性地启用或禁用该预测系数的预测能力的预测模式(PMODE)。3.如权利要求2所述的多通道音频解码器,其中所述辅助信息包括用于每个通道的子带的比特分配表,其中每个子带的比特率在整个子带上是固定的;用于每个通道中的每个子带的至少一个比例因数;以及用于每个通道中的每个子带的瞬变模式(TMODE),该瞬变模式识别比例因数及其相关的子子帧的数量,所述解码器根据各子带的瞬变模式以相应的比例因数对子带的音频码进行比例运算以便于解码。4.如权利要求2所述的多通道音频解码器,其中所述基带解码器包括反向预测编码器,用于解码较低频率子带;以及逆矢量量化器(VQ),用于解码较高频率子带。5.一种用于从数据流重构多个音频通道的多通道音频解码器,其中每个音频通道以编码器采样率被采样,被再分为多个频率子带,被压缩和多路复用为数据流,该多通道音频解码器包括输入缓冲器,用于一次一个帧地读入并存储该数据流,每个所述帧包括同步字、包括选择非完全重构(NPR)滤波器组和完全重构(PR)滤波器组之一的滤波器码的帧头、音频头以及至少一个子帧,该子帧包括频率范围内的音频码块,以及拆包同步字;多路分解器,其a)检测同步字,b)拆包帧头以提取编码器采样率,c)拆包音频头以提取打包方案和用于音频帧的编码格式,以及d)通过将音频码的每个块多路分解为多个音频通道并将每个音频通道拆包为其子带音频码;以及解码器,其使用所选择的NPR或PR滤波器组一次一个子帧地将子带音频码解码为相应的经重构的子带信号;重构滤波器,其将每个通道的经重构的子带信号一次一个子帧地组合为经重构的信号。6.一种用于从数据流重构多个音频通道的多通道音频解码器,其中每个音...

【专利技术属性】
技术研发人员:斯蒂芬M史密斯迈克尔H史密斯威廉保罗史密斯
申请(专利权)人:DTSBVI有限公司
类型:发明
国别省市:VG[英属维尔京群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1