音频信号中背景噪声的估计制造技术

技术编号:15187924 阅读:102 留言:0更新日期:2017-04-19 11:43
本发明专利技术涉及用于估计音频信号中的背景噪声的背景噪声估计器及其中的方法。所述方法包括基于以下各项获得与音频信号段(例如帧或帧的一部分)相关联的至少一个参数:第一线性预测增益,被计算为:针对所述音频信号段,来自0阶线性预测的残余信号与来自2阶线性预测的残余信号之间的商;以及,第二线性预测增益,被计算为:针对所述音频信号段,来自2阶线性预测的残余信号与来自16阶线性预测的残余信号之间的商。该方法还包括:至少基于所获得的至少一个参数,确定音频信号段是否包括停顿;以及,当所述音频信号段包括停顿时,基于所述音频信号段更新背景噪声估计。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施例涉及音频信号处理,并具体涉及背景噪声的估计,例如以支持声音活跃性判断。
技术介绍
在利用不连续传输(DTX)的通信系统中,找到效率和不降低质量之间的平衡是重要的。在这种系统中,活跃性检测器用于指示要被主动编码的活跃信号(例如语音或音乐)以及具有背景信号的段,可由在接收机侧产生的舒适噪声来替换该具有背景信号的段。如果活跃性检测器在检测不活跃中过于有效,则它将在活跃信号中引入削波,然后当被削波的活跃段被舒适噪声替换时,该活跃信号被感知为主观质量劣化。同时,如果活跃性检测器不够有效并将背景噪声段分类为活跃的,且然后主动对背景噪声进行编码,而不是进入具有舒适噪声的DTX模式,则DTX的效率降低。在多数情况下,削波问题被视为更严重。图1示出了广义声音活跃性检测器(SAD)或话音活跃性检测器(VAD)的概述框图,其将音频信号作为输入并产生活跃判断来作为输出。将输入信号划分为数据帧,即例如5-30ms(取决于实现)的音频信号段,并且针对每帧产生一个活跃性判断来作为输出。由图1中示出的主检测器做出主判断“prim”。主判断基本上只是当前帧的特征与根据先前输入帧估计的背景特征的比较。当前帧的特征与背景特征之间大于阈值的差导致活跃主判断。延迟(hangover)加法块用于基于过去的主判断扩展主判断以形成最终判断:“标志”。使用延迟的原因主要是为了减小/去除在活跃突发的中间和后端削波的风险。如图所示,操作控制器可以根据输入信号的特性调整主检测器的阈值和延迟加法的长度。使用背景估计器块来估计输入信号中的背景噪声。在本文中,背景噪声还可以被称为“背景”或者“背景特征”。可以根据两个基本不同的原理来进行背景特征的估计:通过使用如图1中的虚线所示的主判断(即利用判断或判断度量反馈),或者通过使用输入信号的一些其它特性(即不使用判断反馈)。还可以使用这两种策略的组合。使用用于背景估计的判断反馈的编解码器的示例是AMR-NB(自适应多速率窄带),且不使用判断反馈的编解码器的示例是EVRC(增强可变速率CODEC)和G.718。可以使用多种不同的信号特征或特性,但是在VAD中使用的一个公共特征是输入信号的频率特性。由于其低复杂度和在低SRN时的可靠操作,通常使用类型的频率特性是子带帧能量。因此假设输入信号被分割为不同频率子带,并针对每个子带估计背景电平。通过这种方式,背景噪声特征之一是具有针对每个子带的能量值的矢量,这些是在频域中表征输入信号中的背景噪声的值。为了实现对背景噪声的跟踪,可以通过至少三种不同方式来进行实际背景噪声估计更新。一种方式是针对每个频率点(frequencybin)使用自动回归(AR)处理来处理更新。这种编解码器的示例是AMR-NB和G.718。基本上,对于这种类型的更新,更新的步长与观察到的当前输入和当前背景估计之间的差成正比。另一种方式是使用当前估计的乘法缩放,其限制是所述估计不能大于当前输入或者小于最小值。这意味着估计随着每帧增加,直到其高于当前输入。在此情况下,当前输入被用作估计。EVRC是使用该技术来对VAD功能的背景估计进行更新的编解码器的示例。应注意,EVRC针对VAD和噪声抑制使用不同的背景估计。应当注意的是,可以在除DTX以外的其它情境中使用VAD。例如,在可变速率编解码器(例如EVRC)中,VAD可以用作速率确定功能的一部分。第三种方式是使用所谓的最小技术,其中,估计是在先前帧的滑动时间窗口期间的最小值。这基本上给出了最小估计,使用补偿因子缩放该最小估计,以达到或近似针对静止噪声的平均估计。在高SNR情况下(其中,活跃信号的信号电平远高于背景信号),可以很容易做出输入音频信号是活跃还是非活跃的判断。然而,为了在低SNR情况下,并且尤其是当背景是非静止的或者甚至在其特征上类似于活跃信号时,对活跃和非活跃信号进行分离是非常困难的。VAD的性能取决于背景噪声估计器跟踪背景特性的能力,尤其是在其遇到非静止背景的情况下。通过更好的跟踪,可以使得VAD更高效,而不增加语音削波的风险。虽然相关性是用于检测语音(主要是语音的浊音(voiced)部分)的重要特征,但也存在显示出高相关性的噪声信号。在这些情况下,具有相关性的噪声将阻止背景噪声估计的更新。结果是高活跃性,原因在于将语音和背景噪声二者均编码为活跃内容。虽然对于高SNR(大约>20dB)可以使用基于能量的停顿检测来减小该问题,但这对于从20dB降至10dB或可能降至5dB的SNR范围是不可靠的。在该范围内,本文所述的解决方案有所不同。
技术实现思路
期望实现对音频信号中的背景噪声的改进估计。这里“改进的”可以意味着关于音频信号是否包括活跃语音或音乐作出更正确的判断,并因此更经常地对实际上没有活跃内容(例如语音和/或音乐)的音频信号段中的背景噪声进行估计(例如,对先前估计进行更新)。本文中,提供了一种用于生成背景噪声估计的改进方法,其可以使例如声音活跃性检测器能够做出更适当的判断。针对音频信号中的背景噪声估计,重要的是,当输入信号包括活跃信号和背景信号的未知混合时,还能够找到可靠特征来识别背景噪声信号的特性,其中活跃信号可以包括语音和/或音乐。专利技术人已经认识到,可以利用与针对不同线性预测模型阶数的残余能量相关的特征来检测音频信号中的停顿。可以例如从线性预测分析提取这些残余能量,这在语音编解码器中是常见的。可以对特征进行滤波和组合,以产生可以用于检测背景噪声的特征或参数集合,这使得该解决方案适合用在噪声估计中。本文描述的解决方案对于当SNR在10dB至20dB的范围中时的条件特别有效。本文提供的另一特征是对与背景的谱接近度的测量,其可以例如通过以下方式进行,例如通过使用例如用在子带SAD中的频域子带能量。谱接近度测量还可以用于做出音频信号是否包括停顿的判断。根据第一方面,提供了一种用于背景噪声估计的方法。所述方法包括基于以下各项获得与音频信号段(例如帧或帧的一部分)相关联的至少一个参数:第一线性预测增益,被计算为:针对所述音频信号段,来自0阶线性预测的残余信号与来自2阶线性预测的残余信号之间的商;以及,第二线性预测增益,被计算为:针对所述音频信号段,来自2阶线性预测的残余信号与来自16阶线性预测的残余信号之间的商。该方法还包括:至少基于所获得的至少一个参数,确定音频信号段是否包括停顿;以及,当所述音频信号段包括停顿时,基于所述音频信号段更新背景噪声估计。根据第二方案,提供了一种背景噪声估计器。背景噪声估计器被配置为:基于以下各项获得与音频信号段相关联的至少一个参数:第一线性预测增益,被计算为:针对所述音频信号段,来自0阶线性预测的残余信号与来自2阶线性预测的残余信号之间的商;以及,第二线性预测增益,被计算为:针对所述音频信号段,来自2阶线性预测的残余信号与来自16阶线性预测的残余信号之间的商。背景噪声估计器还被配置为:至少基于所述至少一个参数,确定所述音频信号段是否包括停顿;以及,当所述音频信号段包括停顿时,基于所述音频信号段更新背景噪声估计。根据第三方面,提供了一种SAD,其包括根据第二方面的背景噪声估计器。根据第四方面,提供了一种编解码器,其包括根据第二方面的背景噪声估计器。根据第五方面,提供了一种通信设备,其包括根据第二本文档来自技高网
...
音频信号中背景噪声的估计

【技术保护点】
一种用于背景噪声估计器的方法,用于估计音频信号中的背景噪声,其中,所述音频信号包括多个音频信号段,所述方法包括:‑基于以下各项获得(201)与一个音频信号段相关联的至少一个参数:‑第一线性预测增益,被计算为:针对所述音频信号段,来自0阶线性预测的残余信号(E(0))与来自2阶线性预测的残余信号(E(2))之间的商;以及‑第二线性预测增益,被计算为:针对所述音频信号段,来自2阶线性预测的残余信号(E(2))与来自16阶线性预测的残余信号(E(16))之间的商;‑至少基于所获得的至少一个参数,确定(202)所述音频信号段是否包括停顿,即没有诸如语音和音乐的活跃内容;以及:当所述音频信号段包括停顿时:‑基于所述音频信号段更新(203)背景噪声估计。

【技术特征摘要】
【国外来华专利技术】2014.07.29 US 62/030,1211.一种用于背景噪声估计器的方法,用于估计音频信号中的背景噪声,其中,所述音频信号包括多个音频信号段,所述方法包括:-基于以下各项获得(201)与一个音频信号段相关联的至少一个参数:-第一线性预测增益,被计算为:针对所述音频信号段,来自0阶线性预测的残余信号(E(0))与来自2阶线性预测的残余信号(E(2))之间的商;以及-第二线性预测增益,被计算为:针对所述音频信号段,来自2阶线性预测的残余信号(E(2))与来自16阶线性预测的残余信号(E(16))之间的商;-至少基于所获得的至少一个参数,确定(202)所述音频信号段是否包括停顿,即没有诸如语音和音乐的活跃内容;以及:当所述音频信号段包括停顿时:-基于所述音频信号段更新(203)背景噪声估计。2.根据权利要求1所述的方法,其中,获得所述至少一个参数包括:-将所述第一线性预测增益和所述第二线性预测增益限制为在预定义区间内取值。3.根据权利要求1-2中任一项所述的方法,其中,获得所述至少一个参数包括:-例如通过低通滤波的方式创建所述第一线性预测增益和所述第二线性预测增益中的每一个的至少一个长期估计,其中,所述长期估计还基于与至少一个在先音频信号段相关联的对应线性预测增益。4.根据权利要求1-3中任一项所述的方法,其中,获得所述至少一个参数包括:-确定与所述音频信号段相关联的线性预测增益之一与所述线性预测增益的长期估计之间的差和/或与线性预测增益相关联的两个不同长期估计之间的差。5.根据前述权利要求中任一项所述的方法,其中,获得所述至少一个参数包括对所述第一线性预测增益和所述第二线性预测增益进行低通滤波。6.根据权利要求5所述的方法,其中,至少一个低通滤波器的滤波系数取决于以下二者之间的关系:与所述音频信号段相关联的线性预测增益,以及基于多个在先音频信号段获得的对应线性预测增益的平均值。7.根据前述权利要求中任一项所述的方法,其中,确定所述音频信号段是否包括停顿还基于:与所述音频信号段相关联的谱接近度测量。8.根据权利要求7所述的方法,还包括:基于针对所述音频信号段的频带集合和与所述频带集合相对应的背景噪声估计的能量来获得所述谱接近度测量。9.根据权利要求8所述的方法,其中,在初始化周期期间,使用初始值Emin作为基于其来获得所述谱接近度测量的所述背景噪声估计。10.一种背景噪声估计器(1100),用于估计包括多个音频信号段的音频信号中的背景噪声,所述背景噪声估计器被配置为:-基于以下各项获得至少一个参数:-第一线性预测增益,被计算为:针对所述音频信号段,来自0阶线性预测的残余信号与来自2阶线性预测的残余信号之...

【专利技术属性】
技术研发人员:马丁·绍尔斯戴德
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:瑞典;SE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1