一种实用的基于小波变换的声音编解码器制造技术

技术编号:3423567 阅读:244 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及现代信息处理领域中一个快速发展的分枝-声音压缩编解码器。本发明专利技术其特征在于编码器为将音频取样数据存入缓冲池,通过多个小波滤波器组卷积,进行临界采样,确定尺度因子;同时音频取样数据经富里叶变换和尺度因子确定信号掩蔽比;尺度因子进行编码,由信号掩蔽比和目标码率调整后的目标码率与尺度因子编码确定量化子带系数,进行比特信息编码。本发明专利技术的一个重大的技术创新在于用小波技术取代传统的滤波器组,结合人耳的听觉特性,实现高增益、高质量的音频编码。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及现代信息处理领域中一个快速发展的分枝——声音压缩编解码器。目前广泛采用的宽带音频压缩,主要采用MPEG-1或2、杜比AC-3等标准,用于CD、MD、MPC、VCD、DVD、HDTV和电影配音等。MPEG音频压缩标准为许多音频数据定义了多种声音处理方法,都采用了子带划分并利用人类听觉心理声学模型压缩的方法。MPEG音频的基本处理方法为子带分解将输入的音频信号分解成多个频带,然后进行比例因子处理和量化,每一个子带的量化步长选择由频域分析函数完成对采样值进行编码(层次1和2为定长,层次3为Huffman(赫夫曼)可变长编码),并用附加信息进行格式化以便于传输。解码器解包并对系数和附加信息进行解码和逆量化,将样本映射回重构值;在每个子带上都用合适的比例因子将其放大,并应用子带分解去覆盖一个时域信号。数字音频信号源,不管是单声道还是立体声,采样频率对于MPEG-1为32、44.1或48kHz,或对于MPEG-2为16、22.05、24、44.1或48kHz。源数据都要进行子带分解,比例因子处理并量化后进行编码。解码器首先逆编码,逆量化,逆缩放和子带组合重构源信号。在子带分解方面,对于层1和层2,MPEG采用32个等带宽正交镜像滤波器组(QMF)进行子带滤波;对于层3,MPEG采用QMF后紧跟MDCT的方法使频率分辨率提高到一个更好的层次。通过该滤波器可以有效地分离出最多576个子频带。子带分解都严格采样,每个子带的采样率乘以子带数应为总的采样率。MPEG标准在进行比例因子处理、量化、编码和多通道压缩以后形成一个音频信号完整的压缩系统。在现有音视频信号的压缩处理方法中,都采用了子带分解来进行压缩编码。例如在MPEG中,利用32个等带宽的多相滤波器组(multiple phase filterbands)对信号进行处理,得到32个等宽子带上的信号样本,进而通过心理声学模型对各个子带样本进行压缩。等带宽多相滤波器组的优势是各子带滤波器的阶数相同,计算中不存在延迟问题,且滤波器具有较好的抗混叠性质。但是利用等带宽的滤波器组的不可避免的缺陷在于不能充分的利用人耳的听觉特性实现冗余信息的最大限度的去除,即实现更高压缩比下的无失真编码。对人类听觉特点的大量实验研究表明,人类的听觉系统可以按频率分布划分出一个非等带宽的频带组合,在各个频带范围内人耳对声音的敏感程度有明显的不同,把这些频带范围称为临界子带(critical subband)。本专利技术目的是针对MPEG宽带音频压缩处理方法的改进。利用小波和小波包变换的时频局域化和多分辨率分析性质,本专利技术基于小波包方法构造了基于人类听觉特征的非等宽子带滤波器以取代现有方法中的等带宽子带滤波器。在得到更为贴近临界子带的子带划分后,可以更好地利用心理声学模型进行压缩,为在保证重构音质透明的情况下进一步提高压缩比提供了可能。本专利技术的目的实现方法编码器为将音频取样数据存入缓冲池,通过多个小波滤波器组卷积,进行临界采样,确定尺度因子;同时音频取样数据经富里叶变换和尺度因子确定信号掩蔽比;尺度因子进行编码,由信号掩蔽比和目标码率调整后的目标码率与尺度因子编码确定量化子带系数,进行比特信息编码;解码器为解码信息进行解包,对子带信息无失真解码,恢复高频耦合子带系数,各组子带系数存入缓冲池进行采样,经小波重构滤波器组卷积重构,重复子带采样和小波重构滤波器组卷积,还原音频数据。采用本专利专利技术的声音编解码器,对宽带音频信号的音乐进行处理时,在同样采用心理声学模型1的情况下,其无失真压缩率(主观意义上)比通常MPEG要有明显提高。对MP1中采用心理声学模型1的情况下,其无失真压缩率约为4倍;而对采用小波变换+心理声学模型1,其无失真压缩率约为8倍。附图说明图1为临界频带的典型划分图。图2为临界频带带宽示意图。图3为本专利技术中小波包子带分解的示意图。图4为本专利技术小波分解子带与MPEG均匀子带的对比示意图。图5为本专利技术针对双声道立体声小波编码器流程框图。图6为本专利技术针对双声道立体声小波解码器流程框图。数字音频压缩编码技术能够以比较低的速率获得高质量的编码效果,其基本原理在于1)设法消除音频信号的冗余度;2)充分利用人耳听觉特性。本专利技术所提出的“基于小波的音频编解码器”就是在此基础之上提出并完成的。本专利技术的一个重大的技术创新在于用小波技术取代传统的滤波器组,结合人耳的听觉特性,实现高增益、高质量的音频编码,并有效解决了小波技术应用于音频压缩编解码中的几项核心问题。为了体现小波技术在音频压缩编码中的优势,首先要明确人耳的听觉特性在提高数字音频压缩质量的至关重要的作用。正常人可以听到频率范围在20Hz~20kHz,强度范围为-5dB~130dB的声音,并具有判别响度、音调和音色的本领。人耳的听觉特性涉及了有关心理声学和生理声学等方面的问题。人耳听觉特性在宽带音频编码中的应用主要体现在以下几个方面听觉的强度和频率范围特性;掩蔽效应及人耳的高频定位特性。前者是在编码中将听阈曲线以下的声音信号滤掉,以减少记录传输的信息量,节约编码的比特数。利用掩蔽效应原理,低于掩蔽门限的弱信号可不做编码,以提高比特利用率;并将量化噪声控制在掩蔽门限以下,从而节省了量化的比特数,消除声音的听觉无关度。根据人耳的高频定位特性,在多通道立体声编码中可以对高频成分特殊处理,大量减少高频信息冗余,提高压缩效率。本专利技术中采用了联合立体声技术和交叉会话技术以减少多通道中的高频听觉冗余。在本专利技术中,利用听觉的前向掩蔽效应,在保证较高的编码增益下,有效的抑制因时域分辨率不足而造成的“预回声”现象。在变换编码中,时域帧长(即时域窗长度)的选择受两个互相矛盾的因素制约帧长越大,则编码增益越高;而过大的帧长将会使时域分辨率降低,而产生严重的“预回声”。因此,选择一个合适的帧长,使编码增益和“预回声”的抑制都达到一个最佳的平衡点,是很重要的。实验证明,当帧长缩短到2ms~5ms时,由于前向掩蔽效应,“预回声”会被其后面的冲击响应所掩蔽。例如,在48kHz采样时,窗长为256时,其时域分辨率为2.7ms,由于前掩蔽效应,人耳察觉不到“预回声”。在本专利技术中,利用掩蔽效应,确定量化级别,控制量化噪声使之低于或尽可能接近人耳的掩蔽门限,实现无失真音频编码以及在低码率下提高音频编码的主观质量。在心理声学中,一个纯音可以被以它为中心,且具有一定带宽的连续噪声所掩蔽,若在这一频带内噪声功率等于该纯音的功率,此时该纯音处于刚好能被听到的临界状态,即称这一频带为临界带宽(单位为Bark)。临界频带的一个典型划分如图1所示。临界频带是编码中子带划分的心理学依据。人耳对音频信号的分析以临界频带为基础,类似一个非等带宽滤波器组,在不同的子带中差异很大,子带编码就是利用了这一性质而设计出来。因此,临界频带是编码中子带划分的心理声学依据。在子带编码中,子带的划分应尽量与人耳临界频带的宽度接近,以便更好的适应人耳的听觉特性。在传统的子带编码中,这一要求并没有能够得到很好的满足。原因在于,能够接近人耳的听觉特性的非等带宽滤波器组设计涉及一些技术方面的困难。例如,MPEG用32个等带宽的子带滤波器组来划分人耳听觉的频率带宽,如图2所示。在这种子带的划分中,在低频部分本文档来自技高网...

【技术保护点】
一种实用的基于小波变换的声音编解码器,其特征在于编码器为将音频取样数据存入缓冲池,通过多个小波滤波器组卷积,进行临界采样,确定尺度因子;同时音频取样数据经富里叶变换和尺度因子确定信号掩蔽比;尺度因子进行编码,由信号掩蔽比和目标码率调整后的目标码率与尺度因子编码确定量化子带系数,进行比特信息编码;解码器为解码信息进行解包,对子带信息无失真解码,恢复高频耦合子带系数,各组子带系数存入缓冲池进行采样,经小波重构滤波器组卷积重构,重复子带采样和小波重构滤波器组卷积,还原音频数据。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:陈笑天潘兴德顾春来
申请(专利权)人:北京阜国数字技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1