估计音频信号中的背景噪声制造技术

技术编号:22170746 阅读:40 留言:0更新日期:2019-09-21 12:13
本发明专利技术涉及一种背景噪声估计器及其中的方法,用于支持在音频信号分段中进行声音活动检测。所述方法包括:当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景噪声估计。以上操作在以下情况下执行:当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时,或者当音频信号分段的能量水平与lt_min的差小于阈值,但是在音频信号分段中没有检测到停顿时,其中,所述lt_min是多个在先音频信号分段所确定的。执行所述方法与现有技术相比实现基于背景噪声估计的更准确的声音活动检测。

Estimation of Background Noise in Audio Signals

【技术实现步骤摘要】
估计音频信号中的背景噪声本申请是2016年6月13日向中国专利局递交并进入中国国家阶段的题为“估计音频信号中的背景噪声”的专利技术专利申请No.201480067985.8(PCT国际申请No.PCT/SE2014/051427,国际申请日:2014年12月01日)的分案申请。
本专利技术的实施例涉及音频编码,具体地,涉及估计背景噪声以用于支持声音活动判断。
技术介绍
在利用不连续传输(DTX)的通信系统中,找到效率和不降低质量之间的平衡是重要的。在这种系统中,活动检测器用于指示要被活动编码的活动信号(例如语音或音乐)、以及具有可以用在接收机侧产生的舒适噪声所替代的背景信号的分段。如果活动检测器在检测非活动时效率太高,则它将会在活动信号中引入削波(clipping),当削波后的活动分段被舒适噪声替代时其将被感知为主观上的质量劣化。同时,如果活动检测器的效率不够并且将背景噪声分段分类为活动并对背景噪声进行活动编码而不是利用舒适噪声进入DTX模式,则DTX的效率降低。在多数情况下,削波问题被视为更严重。图1示出了总体的声音活动检测器(SAD)或语音活动检测器(VAD)的框图,其采用音频信号作为输入并且产生活动判断作为输出。取决于实施方式,输出信号被划分为数据帧(即,例如5-30ms的音频信号分段),并且每帧产生一个活动判断作为输出。由图1中示出的主检测器进行主判断“prim”。主判断基本上只是当前帧的特征与从先前输入帧估计的背景特征之间的比较。当前帧的特征与背景特征之间的差异比阈值大导致活动主判断。延迟(hangover)加法块用于基于过去的主判断扩展主判断以形成最终判断“flag”。使用延迟的原因主要是为了减小/移除在活动突发的中间和后端削波的风险。如图所示,操作控制器可以根据输入信号的特性调整延迟加法的长度和主检测器的阈值。使用背景估计器块来估计输入信号中的背景噪声。在本文中,背景噪声还可以被称为“背景”或者“背景特征”。可以根据两个基本不同的原理来进行背景特征的估计:通过使用如图1中的虚线所示的主判断(即利用判断或判断度量反馈),或者通过使用输入信号的一些其它特性(即不使用判断反馈)。还可以使用这两种策略的组合。使用用于背景估计的判断反馈的编解码器的示例是MR-NB(自适应多速率窄带),并且不使用判断反馈的编解码器的示例是EVRC(增强可变速率CODEC)和G.718。可以使用多种不同的信号特征或特性,但是在VAD中使用的一个公共特征是输入信号的频率特性。通常使用的频率特性的类型是子带帧能量,由于其低复杂度和在低SRN中的可靠操作。因此假设输入信号被分割为不同频率子带,并且针对每个子带估计背景水平。通过这种方式,背景噪声特征之一是具有针对每个子带的能量值的矢量,这些值用于在频域中表征输入信号中的背景噪声。为了实现对背景噪声的跟踪,可以以至少三种不同方式来进行实际背景噪声估计更新。一种方式是针对每个频率点(frequencybin)使用自动回归(AR)处理来处理更新。这种编解码器的示例是AMR-NB和G.718。基本上,对于这种类型的更新,更新的步长与观察到的当前输入和当前背景估计之间的差成正比。另一种方式是使用当前估计的乘法缩放,其限制是所述估计不能大于当前输入或者小于最小值。这意味着估计随着每帧增加,直到其高于当前输入。在此情况下,当前输入被用作估计。EVRC是使用该技术来对VAD功能的背景估计进行更新的编解码器的示例。应注意,EVRC针对VAD和噪声抑制使用不同的背景估计。应当注意的是,可以在除DTX以外的其它情境中使用VAD。例如,在可变速率编解码器(例如EVRC)中,VAD可以用作速率确定功能的一部分。第三种方式是使用所谓的最小技术,其中,估计是在先前帧的滑动时间窗口期间的最小值。这基本上给出了使用补偿因子被缩放的最小估计,以达到或近似针对静止噪声的平均估计。在高SNR情况下(其中活动信号的信号水平比背景信号的信号水平高得多),很容易就能判断输入音频信号是活动还是非活动。然而,很难在低SNR情况下分出活动信号和非活动信号,尤其是在背景非静止或者甚至在其特性上与活动信号相似的情况下。
技术实现思路
希望更准确地判断音频信号是否包括活动语音或音乐。本文提供了一种用于产生背景噪声估计的改进方法,其能够使声音活动检测器做出更准确的判断。根据第一方面,提供了一种背景噪声估计方法,用于支持在音频信号分段中进行声音活动检测。意在由背景噪声估计器来执行所述方法。所述方法包括:当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景噪声估计。以上操作在以下情况下执行:当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时,或者当音频信号分段的能量水平与lt_min的差小于阈值,但是在音频信号分段中没有检测到停顿时,其中,所述lt_min通过多个在先音频信号分段来确定。根据第二方面,提供了一种背景噪声估计器,用于支持在音频信号分段中进行声音检测。背景噪声估计器被配置为:当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时,或者当音频信号分段的能量水平与lt_min的差小于阈值,但是在音频信号分段中没有检测到停顿时:当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景噪声估计。根据第三方面,提供了一种SAD,其包括根据第二方面的背景噪声估计器。根据第四方面,提供了一种编解码器,其包括根据第二方面的背景噪声估计器。根据第五方面,提供了一种通信设备,其包括根据第二方面的背景噪声估计器。根据第六方面,提供了一种网络节点,其包括根据第二方面的背景噪声估计器。根据第七方面,提供了一种计算机程序,包括指令,所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据第一方面的方法。根据第八方面,提供了一种载体,其包含根据第七方面的计算机程序。附图说明根据以下对附图中示出的实施例更具体的描述,本文公开的技术的以上或其他目的、特征、优点将显而易见。附图不一定按比例绘制,相反重点在于示意此处公开的技术的原理。图1是示出了活动性检测器和延迟确定逻辑的框图。图2是示出了根据示例性实施例的背景更新判断逻辑的流程图。图3和图4示出了根据不同示例性实施例的背景估计器。图5是示出了子带能量背景估计器的框图。图6至图9是示出了实施例如何实现对音频信号中的背景噪声的更好跟踪的示图。具体实施方式本文公开的方案涉及估计音频信号中的背景噪声。在图1中所示的总体活动性检测器中,由被表示为“背景估计器”的块来执行估计背景噪声的功能。可以在之前公开的W02011/049514和W02011/049515的方案中找到与本方案相关的一些实施例,其通过引用合并于此。本文公开的方案将与这些之前公开的申请的实施方式进行比较。即使W02011/049514和W02011/049515中公开的方案是优良的方案,但是本文呈现的方案仍然具有相对于这些方案的优点。例如,本文呈现的方案具有更低复杂度的实施方式,并且其在跟踪背景噪声的操作中更准确。VAD的性能取决于背景噪声估计器跟踪背景特性的能力,尤其是在其遇到非静止背景的情况下。通过更好的跟踪,可以使得VAD更高效,同时也不会增加语音削波的风险。当前噪声估计方本文档来自技高网
...

【技术保护点】
1.一种用于支持在音频信号分段中进行声音活动检测的背景噪声估计方法,所述方法包括:计算音频信号分段的可能的新背景噪声估计,并且如果新值比当前值低,则用新背景噪声估计更新当前背景噪声估计;以及当音频信号分段的能量水平与长期最小能力水平lt_min之间的差小于阈值(202:2),但是在音频信号分段中没有检测到停顿(204:1)时:‑当确定音频信号分段包括音乐(203:2)并且当前背景噪声估计超过最小值(205:1)时,减小(206)当前背景噪声估计,其中,所述长期最小能力水平lt_min是对多个在先音频信号分段所确定的。

【技术特征摘要】
2013.12.19 US 61/918,2581.一种用于支持在音频信号分段中进行声音活动检测的背景噪声估计方法,所述方法包括:计算音频信号分段的可能的新背景噪声估计,并且如果新值比当前值低,则用新背景噪声估计更新当前背景噪声估计;以及当音频信号分段的能量水平与长期最小能力水平lt_min之间的差小于阈值(202:2),但是在音频信号分段中没有检测到停顿(204:1)时:-当确定音频信号分段包括音乐(203:2)并且当前背景噪声估计超过最小值(205:1)时,减小(206)当前背景噪声估计,其中,所述长期最小能力水平lt_min是对多个在先音频信号分段所确定的。2.根据权利要求1所述的方法,其中,仅基于从输入音频信号得到的信息来判断音频信号分段的能量水平与lt_min之间的差是否大于阈值。3.根据权利要求1或2所述的方法,其中,除了音频信号分段的能量水平与lt_min之间的差小于阈值之外,当还满足以下条件之一或两者时认为检测到停顿:-已经确定预定义数目的连续在先音频信号分段不包括活动信号;-音频信号的动态特性超过阈值。4.一种背景噪声估计器(500),用于支持在音频信号分段中进行声音检测,所述背景噪声估计器被配置为:计算音频信号分段的可能的新背景噪声估计,并且如果新值比当前值低,则用新背景噪声估计更新当前背景噪声估计;以及当...

【专利技术属性】
技术研发人员:马丁·绍尔斯戴德
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:瑞典,SE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1