当前位置: 首页 > 专利查询>清华大学专利>正文

音频编码器切换的方法技术

技术编号:3420338 阅读:190 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种音频编码器切换的方法,属于多媒体信号处理和信源编码领域。所述方法包括:选取多个音频序列作为训练数据;根据预设的规则和所述训练数据对分类器进行训练,所述规则为采用主观音质评价方法对所述多个音频序列进行测试后得到的规则;当有音频信号输入时,所述分类器根据训练的结果对所述音频信号进行分类,并将其切换到相应的音频编码器中进行编码。本发明专利技术利用主观音质测试结果训练分类器,使分类器能够逼近主观听觉选择合适的编码器进行切换,既克服了AMR-WB+闭环切换方法计算量很大的缺点,而且与AMR-WB+开环切换方法相比,极大地提高了切换的准确率,使编码的质量得到了保证。

【技术实现步骤摘要】

本专利技术涉及多媒体信号处理和信源编码领域,特别涉及一种。技术背景随着多媒体通信应用的不断扩展,人们对于多媒体数据传输质量的要求也逐渐提高。音 频和视频数据构成了多媒体数据的两大重要组成部分。从音频传输的角度讲,人们从早先只 希望在电话中传送语音,逐渐过渡到现在希望能在手机上传输高质量的宽带音频,其中包括 大量的音乐。所需音频数据的传输量的大量增加与通信带宽的限制成为了新的矛盾。由于还 要分配给视频数据大量的传输带宽,因此需要用更少的数据量传输带宽更大的音频信号。一 些新的音频信号压缩算法,如ACELP (Algebraic Codebook Excitation Linear Prediction,代数 码本激励线性预测)和EAAC+ (Enhanced Advanced Audio Coding Plus,改进的高级音频编码) 等诸多低码率宽带音频编码器应运而生,并取得了很好的压縮效果。但是,这些编码器对所有音频信号采用类似的信号处理方式,不能对所有音频信号都达 到最佳的编码性能。例如,ACELP利用人发声模型对信号建模,这种处理方式比较适合于语 音,对大部分音乐信号会产生较大的编码失真。再如,EAAC+是从传统高保真通用音频编码 器演变过来的低比特率通用音频编码器,采用变换编码,其编码方式更适合于音乐信号,对 一些语音信号的编码效果不如ACELP。从这个比较中可以看出,如果能够取长补短,将几种 音频编码器的优势结合起来,有可能达到更好的音频编码效果。2005年,3GPP (3rd Generation Partnership Project,第三代移动通信合作组织)提出的 AMR-WB+(Adaptive Multi-Rate—Wide Band+,自适应多速率超宽带音频编码器)标准是一 个利用上述原理构建的用于移动通信领域的低比特率音频编码器。该编码器内部有两个核心 编码器,即基于码本激励的ACELP和基于时频变换的TCX (Transform Coded Excitation, 变换编码激励)。编码器中还有一个编码器切换单元,以一定的标准,实时选择其中一个核心 编码器处于活动状态。如此切换的结果使得AMR-WB+对于语音和音乐信号都达到了较好的 编码效果。其中,AMR-WB+编码器切换单元有两种切换方法闭环方法和开环方法。AMR-WB+闭环切换方法是一种高复杂度方法,对各种可能的ACELP/TCX组合进行尝试编码,并将各种组合编码结果与原声进行比较,计算平均分段信噪比(average segmental SNR)。最终,编码器以平均分段信噪比为准则选取核心编码器。这种编码器切换虽然对于 AMR-WB+是最优切换,但计算量很大,在移动通信领域应用受到限制。AMR-WB+开环切换方法是一种低复杂度方法,采用决策树,对各种音频特征设定门限, 通过对输入音甥信号提取特征并进行分析,判断用何种核心编码器更好来实现信号的分类, 从而进行编码器的切换。其中使用了大量信号处理分析的手段,其参数的设定依据先验知识。 它更像是一个与核心编码器无关的语音/音乐分类器,即不管采用何种核心编码器的组合,都 采用同样的方法控制在语音编码器和通用音频编码器之间切换。这种方法的计算量比闭环方 法低得多,比较适合移动通信的应用,但是由于其切换不够准确,最终编码的质量没有采用 闭环方法的好,对于特定的核心编码器的组合很难做到最优。
技术实现思路
为了提高编码器切换时的准确性和编码质量,并降低计算量,本专利技术提供了种。所述技术方案如下一种,所述方法包括 选取多个音频序列作为训练数据;根据预设的规则和所述训练数据对分类器进行训练,所述规则为采用主观音质评价方法 对所述多个音频序列进行测试后得到的规则;当有音频信号输入时,所述分类器根据训练的结果对所述音频信号进行分类,并将其切 换到相应的音频编码器中进行编码。所述根据预设的规则和所述训练数据对分类器进行训练,具体包括 '从所述训练数据中提取短时音频特征;根据所述短时音频特征提取长时音频特征;根据预设的规则对分类器进行训练,从所述长时音频特征中选取指定个数的长时音频特 征,且选出的长时音频特征比未选出的长吋音频特征的分类精度高。 从所述训练数据中提取短时音频特征,具体包括对所述训练数据中的每个音频序列,提取13维MFCC音频特征、12维LPCC音频特征 和MPEG-7中的10维音频特征。所述根据所述短时音频特征提取长时音频特征,具体包括对每个短时音频特征,提取以下19种长时音频特征均值、标准差、最小值、最大值、动态范围、差分特征的均值、差分特征的标准差、高比率、低比率、0Hz调制能量、2Hz调 制能量、4Hz调制能量、6Hz调制能量、8Hz调制能量、10Hz调制能量、20Hz调制能量、30Hz 调制能量、40Hz调制能量和50Hz调制能量。所述选取的指定个数的长时音频特征具体包括MFCC的均值、最小值、差分均值、OHz调制能量、第4个分量2Hz调制能量、20Hz 调制能量和第13个分量2Hz调制能量;LPCC的低比率、动态范围;以及MPEG-7中音频特 征的动态范围。所述根据所述短时音频特征提取长时音频特征,具体为每500毫秒从所述短时音频特征中提取一次长时音频特征。所述多个音频序列包括音乐序列和语音序列中的至少一种。本专利技术利用主观音质测试结果训练分类器,使分类器能够逼近主观听觉选择合适的编码 器进行切换,既充分反映了主观听觉感受,又降低了设计成本,克服了现有的AMR-WB+闭 环切换方法计算量大的缺点,而且与现有的AMR-WB+丌环切换方法相比,极大地提高了切 换的准确率,使编码的质量得到了保证。另外,本专利技术以最高2次/秒的速率对编码器进行切 换,即500毫秒进行一次切换,与人耳主观感觉非常接近。附图说明图1是本专利技术实施例提供的流程图; 图2是本专利技术实施例提供的前向特征选择法的示意图; 图3是本专利技术实施例提供的音频编码器切换的示意图;图4是本专利技术实施例提供的混合编码器与AMR-WB+ (闭环模式)、AMR-WB+ (开环模 式)三种编码器切换编码比较示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进 一步地详细描述。本专利技术实施例中的混合音频编码器包括但不限于EAAC+编码器和ACELP编码器的组合 等等。对于其他编码器的组合,本专利技术实施例中的技术方案仍然适用。参见图l,本专利技术实施例提供了一种,具体包括 步骤101:从高质量的音效数据库中选取多个典型音频序列。在本实施例中选取97个典型音乐序列,其内容涉及自然界、人类生活、机械、交通、合 成声、音乐、乐器等各种声音。为了便于音质测试和比较,本实施例选取的音频序列长度大 部分在2 5秒之间,并统一降采样至16kHz,下混至单声道。步骤102:用混合编码器对选取的每个音频序列进行编码,并采用主观音质测试的方式, 对混合编码器中的每个编码器编码后的音频序列经解码后与原声进行比较打分,确定选择编 码器的规则。混合编码器有多种,在本实施例中采用目前公认性能最好的两种编码器,低比特率语音 编码器ACELP和音乐编码器EAAC+,组成混合编码器,在]6kbps单声道的码率下对于每一 段音频序列本文档来自技高网
...

【技术保护点】
一种音频编码器切换的方法,其特征在于,所述方法包括:选取多个音频序列作为训练数据;根据预设的规则和所述训练数据对分类器进行训练,所述规则为采用主观音质评价方法对所述多个音频序列进行测试后得到的规则;当有音频信号输入时,所述分类器根据训练的结果对所述音频信号进行分类,并将其切换到相应的音频编码器中进行编码。

【技术特征摘要】

【专利技术属性】
技术研发人员:窦维蓓张斌张树华夏田侯欢贾晓军
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1