高级量化器制造技术

技术编号:12466631 阅读:56 留言:0更新日期:2015-12-09 16:34
本文献涉及一种音频编码和解码系统,称为音频编解码器系统。具体地说,本文献涉及一种尤其良好地适于语音编码/解码的基于变换的音频编解码器系统。描述了被配置为对系数块(141)中的第一系数进行量化的量化单元(112)。系数块(141)包括用于多个对应频率窗(301)的多个系数。量化单元(112)被配置为提供量化器集合(326、327)。量化器集合(326、327)包括分别与多个不同信噪比SNR关联的多个不同量化器(321、322、323)。所述多个不同量化器(321、322、323)包括噪声填充量化器(321);一个或多个抖动量化器(322);及一个或多个无抖动量化器(323)。量化单元(112)还被配置为:确定指示属于第一系数的SNR的SNR指示,并且基于SNR指示从量化器集合(326、327)选择第一量化器。此外,量化单元(112)被配置为使用第一量化器对第一系数进行量化。

【技术实现步骤摘要】
【国外来华专利技术】高级量化器相关申请的交叉引用本专利技术要求2013年4月5日提交的美国临时专利申请No.61/808,673以及2013年9月10日提交的美国临时专利申请No.61/875,817的优先权,其中的每一个通过其引用而整体合并到此。
本文献涉及一种音频编码和解码系统(称为音频编解码器系统)。具体地说,本文献涉及一种尤其良好地适合于语音编码/解码的基于变换的音频编解码器系统。
技术介绍
通用感知音频编码器通过使用关于覆盖几十毫秒(例如20ms)的样本的块大小的变换(如修正离散余弦变换(MDCT))来实现相对高的编码增益。用于这种基于变换的音频编解码器系统的示例是高级音频编码(AAC)或高效(HE)-AAC。然而,当关于语音信号使用这些基于变换的音频编解码器系统时,语音信号的质量朝着较低码速率而降级得比音乐信号更快,尤其是在干燥(无混响)话音信号的情况下。本文献描述一种特别良好地适合于话音信号的编码的基于变换的音频编解码器系统。此外,本文献描述一种可以用在这种基于变换的音频编解码器系统中的量化方案。可以结合基于变换的音频编解码器系统来使用各种不同的量化方案。示例是矢量量化(例如孪生矢量量化)、分布保留量化、抖动量化、具有随机偏移的标量量化以及与噪声填充组合的标量量化(例如US7447631中所描述的量化器)。这些不同的量化方案关于以下属性中的一个或多个具有各种优点和缺点。运算(编码器)复杂度,其典型地包括比特流的量化和生成的计算复杂度(例如可变长度编码);感知性能,其可以基于理论考虑(率失真性能)并且基于关联噪声填充行为的特征(例如按实际上与话音低速率变换编码有关的比特率)而得以估计;在存在全面比特率约束(例如比特的最大数量)的情况下的比特速率分配处理的复杂度;和/或关于启用不同数据率和不同失真等级的灵活度。在本文献中,描述一种针对上述属性中的至少一些的量化方案。具体地说,描述一种关于一些或所有上述属性提供改进的性能的量化方案。
技术实现思路
根据一方面,描述一种量化单元(在本文献中又称为系数量化单元),被配置为对系数块中的第一系数进行量化。所述系数块可以对应于预测残差系数块(又称为预测误差系数块)或从中推导出。故此,所述量化单元可以是如以下更详细地描述的使用子带预测的基于变换的音频编码器的一部分。通常,所述系数块可以包括用于多个对应频率窗的多个系数。可以从变换系数块推导所述系数块,其中,已经通过使用时域到频域变换(例如修正离散余弦变换,MDCT)将音频信号(例如话音信号)从时域转换到频域来确定所述变换系数块。应注意,系数块中的所述第一系数可以与所述系数块中的系数中的任何一个或多个对应。所述系数块可以包括K个系数(K>1,例如K=256)。第一系数可以与k=1、……、K个频率系数中的任何一个对应。如以下将概述的那样,所述多个K个频率窗可以组成为多个L个频率带,其中,1<L<K。所述系数块中的系数可以分配给多个频率带之一(l=1、……、L)。可以使用相同量化器来对分配给特定频率带l的系数q(其中,q=1、……、Q并且0<Q<K)进行量化。对于任何q=1、……、Q并且对于任何l=1、……、L,所述第一系数可以与第l频率带的第q系数对应。量化单元可以被配置为提供量化器集合。量化器集合可以包括分别与多个不同信噪比(SNR)或多个不同失真等级关联的多个不同量化器。故此,量化器集合中的不同量化器可以产生各个SNR或失真等级。量化器集合内的所述量化器可以根据与多个量化器关联的多个SNR而排序。具体地说,量化器可以排序,以使得与使用直接在前相邻量化器所获得的SNR相比,使用特定量化器所获得的SNR增加。所述量化器集合可以又称为许可量化器集合。典型地,所述量化器集合内所包括的量化器的数量受限于量化器的数量R。可以基于待由量化器集合覆盖的整个SNR范围(例如从近似0dB到30dB)来选择所述量化器集合内所包括的量化器的数量R。此外,量化器的数量R典型地取决于在有序量化器集合内的各相邻量化器之间的SNR目标差值。用于量化器的数量R的典型值是10到20个量化器。多个不同量化器可以包括噪声填充量化器、一个或多个抖动量化器、和/或一个或多个无抖动量化器。在优选示例中,多个不同量化器包括单个噪声填充量化器、一个或多个抖动量化器以及一个或多个无抖动量化器。如将在本文献中概述的那样,关于零比特率状况使用噪声填充量化器(例如,并非使用具有大的量化步长大小的抖动量化器)是有益的。噪声填充量化器与多个SNR之间的相对最低SNR关联,所述一个或多个无抖动量化器可以与多个SNR中的一个或多个相对最高SNR关联。所述一个或多个抖动量化器可以与大于多个SNR中的相对最低SNR并且小于一个或多个相对最高SNR的一个或多个中等SNR关联。故此,所述有序量化器集合可以包括用于最低SNR(例如小于或等于0dB)的噪声填充量化器,后面跟随用于中等SNR的一个或多个抖动量化器,并且后面跟随用于相对高的SNR的一个或多个无抖动量化器。据此,可以改进(从使用量化器集合量化的量化系数块推导的)重构的音频信号的感知质量。具体地说,在保持量化单元的MSE(均方误差)性能很高的同时,可以减少谱空洞所产生的听觉假象。噪声填充量化器可以包括随机数发生器,被配置为根据预定统计模型来生成随机数。噪声填充量化器的随机数发生器的预定统计模型可以取决于在编码器处并且在对应解码器处可用的辅助信息(例如方差保留标志)。噪声填充量化器可以被配置为通过用随机数发生器所生成的随机数替换第一系数来量化第一系数(或所述系数块中的任何系数)。在量化单元处(例如在编码器内所包括的本地解码器处)使用的随机数发生器可以与在逆量化单元处(在对应解码器处)的对应随机数发生器同步。故此,噪声填充量化器的输出可以独立于第一系数,以使得噪声填充量化器的输出可以不需要任何量化指数的传输。噪声填充量化器可以与处于(接近或基本上)0dB的SNR关联。换言之,噪声填充量化器可以在接近0dB的SNR的情况下操作。在速率分配处理期间,虽然实际上,噪声填充量化器的SNR可以稍微距零偏离(例如(由于独立于所述输入信号的信号的合成)可以稍微小于零dB),但噪声填充量化器可以考虑为提供0dBSNR。可以基于一个或多个附加参数来调整噪声填充量化器的SNR。例如,可以通过根据预测器增益的预定义函数来设置所合成的信号的方差(即已经使用所述噪声填充量化器来量化的系数的方差)而调整噪声填充量化器的方差。替代地或附加地,可以通过所述比特流中所发送的标志来设置所合成的信号的方差。具体地说,可以通过(在该文献内以下进一步提供的)预测器增益ρ的两个预定函数之一来调整噪声填充量化器的方差,其中,这些函数之一可以被选择为取决于所述标志(例如取决于方差保留标志)来呈现所合成的信号。通过示例的方式,可以通过调整噪声填充量化器所生成的信号的方差,以使得所述噪声填充量化器的SNR落入范围[-3.0dB到0dB]内。从MMSE(最小均方误差)观点,在0dB处的SNR典本文档来自技高网
...

【技术保护点】
一种量化单元(112),被配置为对系数块(141)的第一系数进行量化,其中,所述系数块(141)包括用于多个对应频率窗(301)的多个系数,其中,所述量化单元(112)被配置为:‑提供量化器集合(326、327);其中,所述量化器集合(326、327)分别包括与不同信噪比SNR相关联的有限数量的不同量化器(321、322、323);其中,所述量化器集合中的不同量化器根据它们的SNR而排序;所述量化器(321、322、323)的集合(326、327)包括:‑噪声填充量化器(321);‑一个或更多个抖动量化器(322);以及‑一个或更多个无抖动量化器(323);‑确定指示属于所述第一系数的SNR的SNR指示;‑基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及‑使用所述第一量化器来量化所述第一系数。

【技术特征摘要】
【国外来华专利技术】2013.04.05 US 61/808,673;2013.09.10 US 61/875,8171.一种量化单元(112),被配置为对系数块(141)的第一系数进行量化,其中,所述系数块(141)包括用于多个对应频率窗(301)的多个系数,其中,所述量化单元(112)被配置为:
-提供量化器集合(326、327);其中,所述量化器集合(326、327)分别包括与不同信噪比SNR相关联的有限数量的不同量化器(321、322、323);其中,所述量化器集合中的不同量化器根据它们的SNR而排序;所述量化器(321、322、323)的集合(326、327)包括:
-噪声填充量化器(321),其中噪声填充量化器(321)被配置为通过用根据预定统计模型生成的随机值替换第一系数的值来量化第一系数;
-一个或更多个抖动量化器(322);以及
-一个或更多个无抖动确定性量化器(323);
-确定指示属于所述第一系数的SNR的SNR指示;
-基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及
-使用所述第一量化器来量化所述第一系数。


2.如权利要求1所述的量化单元(112),其中,
-所述噪声填充量化器(321)与不同SNR中的相对最低SNR相关联;
-所述一个或更多个无抖动确定性量化器(323)与不同SNR中的一个或更多个相对最高SNR相关联;以及
-所述一个或更多个抖动量化器(322)与比不同SNR中的所述相对最低SNR更高且比所述一个或更多个相对最高SNR更低的一个或更多个中等SNR相关联。


3.如权利要求1或2所述的量化单元(112),其中,所述量化器集合根据与所述不同量化器相关联的增加SNR来排序。


4.如权利要求3所述的量化单元(112),其中,
-SNR差值由与来自排序的量化器集合的一对相邻量化器相关联的SNR的差值给定;以及
-用于来自不同量化器的所有成对的相邻量化器的SNR差值落入以预定SNR目标差值为中央的预定SNR差值区间内。


5.如权利要求4所述的量化单元(112),其中,所述预定SNR差值区间的宽度小于所述预定SNR目标差值的预定百分比。


6.如权利要求4所述的量化单元(112),其中,所述预定SNR目标差值是1.5dB。


7.如权利要求1或2所述的量化单元(112),其中,所述噪声填充量化器(321)
-包括随机数发生器,被配置为根据预定统计模型来生成随机数;和/或
-与基本上小于或等于0dB的SNR相关联。


8.如权利要求1或2所述的量化单元(112),其中,所述一个或多个抖动量化器(322)中的特定抖动量化器(322)包括:
-抖动应用单元(611),被配置为通过将抖动值应用于所述第一系数来确定第一抖动系数;以及
-标量量化器(612),被配置为通过将所述第一抖动系数分配给所述标量量化器(612)的区间来确定第一量化指数。


9.如权利要求8所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)中的特定抖动量化器(322)还包括:
-逆标量量化器,被配置为将第一重构值分配给所述第一量化指数;
-抖动移除单元(613),被配置为通过从所述第一重构值移除所述抖动值来确定第一解抖动系数。


10.如权利要求9所述的量化单元(112),其中,
-所述抖动应用单元(611)被配置为从所述第一系数减去所述抖动值,并且其中,所述抖动移除单元(613)被配置为将所述抖动值与所述第一重构值相加;或
-所述抖动应用单元(611)被配置为将所述抖动值与所述第一系数相加,并且其中,所述抖动移除单元(613)被配置为从所述第一重构值减去所述抖动值。


11.如权利要求9所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)中的所述特定抖动量化器(322)还包括:
-后增益应用单元(614),被配置为通过将量化器后增益γ应用于所述第一解抖动系数来确定第一量化系数。


12.如权利要求11所述的量化单元(112),其中,所述量化器后增益γ由下式给出:



其中,是所述系数块(141)中的系数中的一个或更多个的方差,并且其中,Δ是所述特定抖动量化器的所述标量量化器(612)的量化器步长大小。


13.如权利要求8所述的量化单元(112),还包括:抖动发生器(601),被配置为生成抖动值块(602),其中,所述抖动值块(602)包括分别用于所述多个对应频率窗(301)的多个抖动值。


14.如权利要求13所述的量化单元(112),其中,所述抖动发生器(601)被配置为:
-选择M个预定抖动实现之一,其中M是整数;以及
-基于所选择的抖动实现来生成所述抖动值块(602)。


15.如权利要求14所述的量化单元(112),其中,所述预定抖动实现的数量M是10、5、4或更少。


16.如权利要求8所述的量化单元(112),其中,所述抖动值是伪随机数。


17.如权利要求8所述的量化单元(112),其中,
-所述标量量化器(612)具有预定量化器步长大小Δ;
-所述抖动值从预定抖动区间取值;以及
-所述预定抖动区间具有等于或小于所述预定量化器步长大小Δ的宽度。


18.如权利要求13所述的量化单元(112),其中
-所述标量量化器(612)具有预定量化器步长大小Δ;
-所述抖动值从预定抖动区间取值;以及
-所述预定抖动区间具有等于或小于所述预定量化器步长大小Δ的宽度;以及
其中,所述抖动值块(602)均匀地分布在所述预定抖动区间内。


19.如权利要求1或2所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)是减法抖动量化器。


20.如权利要求1或2所述的量化单元(112),其中,所述一个或更多个无抖动量化器(323)中的无抖动确定性量化器(323)是具有预定均匀量化器步长大小的标量量化器。


21.如权利要求1或2所述的量化单元(112),其中,
-所述系数块(141)与谱块包络(136)关联;
-所述谱块包络(136)指示用于所述多个对应频率窗(301)的多个谱能量值(303);以及
-所述SNR指示取决于所述谱块包络(136)。


22.如权利要求21所述的量化单元(112),其中,
-所述SNR指示还取决于用于偏移所述谱块包络(136)的偏移参数;以及
-所述偏移参数取决于能用于对所述系数块(141)进行编码的比特的预定数量(143)。


23.如权利要求22所述的量化单元(112),其中,通过使用所述偏移参数来偏移从与第一系数的所述频率窗(301)相关联的谱块包络(136)推导的值而确定指示属于第一系数的SNR的SNR指示。


24.如权利要求21所述的量化单元(112),其中,
-SNR差值由与来自排序的量化器集合的一对相邻量化器相关联的SNR的差值给定;以及
-用于来自不同量化器的所有成对的相邻量化器的SNR差值落入以预定SNR目标差值为中央的预定SNR差值区间内;以及其中
-所述SNR指示取决于从所述谱块包络(136)推导出的分配包络(138);
-所述分配包络(138)具有分配分辨率;
-所述分配分辨率取决于来自所述量化器集合(326、327)的各相邻量化器之间的SNR差值。


25.如权利要求1或2所述的量化单元(112),其中,
-所述系数块(141)中的多个系数被分配给多个频率带(302);
-频率带(302)包括一个或更多个频率窗(301);以及
-所述量化单元(112)被配置为对于所述多个频率带(302)中的每一个从所述量化器集合(326、327)中选择量化器,以使得使用同一量化器来量化分配给相同频率带(302)的系数。


26.如权利要求25所述的量化单元(112),其中,每频率带(302)的多个频率窗(301)随着增加频率而增加。


27.如权利要求9所述的量化单元(112),其中,所述量化单元(112)被配置为:
-确定(701)指示所述系数块(141)的性质的辅助信息(721);以及
-取决于所述辅助信息(721)来生成(702)所述量化器集合(326、327)。


28.如权利要求27所述的量化单元(112),其中,所述噪声填充量化器(321)
-包括随机数发生器,被配置为根据预定统计模型来生成随机数;和/或
-与基本上小于或等于0dB的SNR相关联;以及
其中,所述噪声填充量化器(321)的所述随机数发生器的所述预定统计模型取决于所述辅助信息(721)。


29.如权利要求27所述的量化单元(112),其中,所述量化器集合(326、327)内的抖动量化器(322)的数量取决于所述辅助信息(721)。


30.如权利要求27所述的量化单元(112),其中,所述量化单元(112)被配置为从在包括所述量化单元(112)的编码器(100、170)处以及在包括对应逆量化单元(552)的对应解码器(500)处能获得的数据提取(701)所述辅助信息(721)。


31.如权利要求30所述的量化单元(112),其中,所述辅助信息(721)包括以下信息中的至少一个:
-由所述编码器(100、170)内所包括的预测器(117)确定的预测器增益;其中,所述预测器增益指示所述系数块(141)的声调内容;和/或
-基于所述系数块(141)推导出的谱反射系数;其中,所述谱反射系数指示所述系数块(141)的摩擦音内容。


32.如权利要求31所述的量化单元(112),其中,所述量化器集合(326、327)内所包括的抖动量化器的数量随着增大的预测器增益而减少,以及随着减小的预测器增益而增加。


33.如权利要求27所述的量化单元(112),其中,
-所述辅助信息包括方差保留标志;
-所述方差保留标志指示如何调整所述系数块(141)的方差;以及
-取决于所述方差保留标志来确定所述量化器集合(326、327)。


34.如权利要求33所述的量化单元(112),其中,所述噪声填充量化器(321)的噪声增益取决于所述方差保留标志。


35.如权利要求33所述的量化单元(112),其中,取决于所述方差保留标志来确定由所述一个或更多个抖动量化器(322)所覆盖的SNR范围(324、325)。


36.如权利要求33所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)中的所述特定抖动量化器(322)还包括:
-后增益应用单元(614),被配置为通过将量化器后增益γ应用于所述第一解抖动系数来确定第一量化系数;以及
其中,所述量化器后增益γ取决于所述方差保留标志。


37.一种逆量化单元(552),被配置为对量化指数进行解量化;其中,所述量化指数与包括用于多个对应频率窗(301)的多个系数的系数块相关联;
其中,所述逆量化单元(552)被配置为:
-提供量化器集合(326、327);其中,所述量化器集合(326、327)分别包括与不同信噪比SNR关联的有限数量的不同量化器(321、322、323);其中,所述量化器集合(326、327)中的不同量化器根据它们的SNR来排序;所述量化器(321、322、323)的集合(326、327)包括:
-噪声填充量化器(321),其中噪声填充量化器(321)被配置为通过用根据预定统计模型生成的随机值替换系数的值来量化系数;
-一个或更多个抖动量化器(322);以及
-一个或更多个无抖动确定性量化器(323);
-确定指示属于来自所述系数块的第一系数的SNR的SNR指示;
-基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及
-使用所述第一量化器来确定用于所述第一系数的第一量化系数。


38.一种基于变换的话音编码器(100、170),被配置为将音频信号编码为比特流;所述编码器(100、170)包括:
-量化单元(112),被配置为通过使用抖动量化器(322)对来自系数块(141)的多个系数进行量化来确定多个量化指数;其中,所述多个系数与多个对应频率窗(301)相关联;其中,从所述音频信号推导所述系数块(141);
-抖动发生器(601),被配置为选择M个预定抖动实现之一,并且被配置为基于所选择的抖动实现来生成用于量化所述多个系数的多个抖动值(602);其中,M是大于1的整数;以及
-熵编码器,被配置为从M个预定码书中选择码书,并且被配置为使用所选择的码书来对所述多个量化指数进行熵编码;其中,所述M个预定码书分别与所述M个预定抖动实现相关联;其中M个预定码书已经分别被使用所述M个预定抖动实现来训练;...

【专利技术属性】
技术研发人员:J·克里萨L·维尔莫斯P·何德林
申请(专利权)人:杜比国际公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1