用于语音活动检测的检测器和方法技术

技术编号:11239060 阅读:63 留言:0更新日期:2015-04-01 12:31
本发明专利技术的实施例涉及语音活动检测器及其方法。所述语音活动检测器被配置为在接收到的输入信号中检测语音活动,所述语音活动检测器包括:输入部,被配置为接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号以及来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号;处理器,被配置为将接收到的信号中指示的语音活动判决进行组合,以产生修改后的初级VAD判决;以及输出部,被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。

【技术实现步骤摘要】
分案申请说明本申请是申请日为2010年10月18日、申请号为201080047231.8(国际申请号PCT/SE2010/051118)的、题为“用于语音活动检测的检测器和方法”的专利技术专利申请的分案申请。
本专利技术涉及语音活动检测方法和语音活动检测器,且更具体地涉及用于处理例如非平稳背景噪声的增强语音活动检测器。
技术介绍
在用于对话语音的语音编码系统中,通常使用非连续发送(DTX)来增加编码的效率。原因是对话语音包含了大量被嵌入语音中的停顿,例如当一个人在说话而另一个人在聆听时。因此在DTX的情况下,语音编码器平均仅在大约50%的时间上是活动的,且可以使用舒适噪声对其余时间进行编码。具有该特征的一些示例编解码是AMR NB(自适应多速率窄带)。对于高质量DTX操作,即,在没有劣化的语音质量的情况下,在输入信号中检测到语音的周期是重要的。这是通过语音活动检测器(VAD)来实现的。图1示出了一般VAD 180的整体框图,其获取根据具体实现被分为5至30ms的数据帧的输入信号100作为输入,并产生VAD判决作为输出160。即,VAD判决160是针对每帧的该帧是包含语音还是噪声的判决。通用VAD 180包括提供子带能量估计的背景估计器130以及提供特征子带能量的特征提取器120。对于每一帧,通用VAD计算特征,且为了识别活动帧,将当前帧的特征与该特征对于背景信号的“表现”的估计进行比较。由初级语音活动检测器140来作出初级判决“vad_prim”150,且初级判决“vad_prim”150基本上就是对当前帧的特征与(根据之前的输入帧估计出的)背景特征的比较,其中,大于阈值的差异引起活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对来自初级VAD的VAD判决进行扩展,以形成最终VAD判决“vad_flag”160,即也将较早的VAD判决考虑在内。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“突发语音”(speech burst)的后端截断(backend clipping)。然而,该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级检测器的阈值以及尾响添加的长度。存在可以用于VAD检测的大量不同的特征,一个特征是只查看帧能量,并将其与阈值进行比较,以判决该帧是否包括语音。该方案在SNR良好的条件下正常工作,但是在低SNR情况下则不能正常工作。在低SNR下,其代之以要求使用对语音和噪声信号的特性进行比较的其它度量。对于实时实现而言,VAD功能的附加要求在计算上是复杂的,且这在标准编解码(例如AMR NB、AMR WB(自适应多速率宽带)以及G.718(ITU-T建议嵌入式可扩缩语音和音频编解码))中反映为对子带SNR VAD的频繁表示上。尽管基于子带SNR的VAD将不同子带的SNR组合为与用于初级判决的阈值进行比较的度量。在基于子带的VAD中,针对每个子带确定SNR,且基于这些SNR来确定组合SNR。组合SNR可以是在不同子带上的所有SNR的和。还存在已知的解决方案,其中,将具有不同特性的多个特征用于初级判决。然而,在这两种情况下,都只存在一个初级判决,用于添加适应于输入信号条件的尾响,以形成最终判决。此外,很多VAD具有用于静默检测的输入能量阈值,即,针对足够低的输入电平,强制初级判决为不活动状态。对于基于子带SNR原则的VAD,已经表明:在子带SNR计算中引入非线性(所谓重要性阈值)可以增强对于非平稳噪声条件(嘈杂声、办公室)下的VAD性能。非平稳噪声对于所有VAD而言都是困难的,特别是在低SNR条件下,导致相比于实际语音的更高VAD活动,且从系统角度讲导致了减小的容量。在非平稳噪声中,最困难的是嘈杂噪声,且原因是其特性与VAD被设计用来检测的语音信号相对接近。嘈杂噪声的特性通常在于与前景说话者的语音强度相对的SNR和背景说话者的数目,其中,常见定义(如在主观评估中使用的)是嘈杂声应当具有40个或更多的背景说话者,其基本出发点是:对于嘈杂声,应当不可能听出嘈杂噪声中包括的任何说话者所说的内容(不应当有任何嘈杂声说话者是能被理解的)。还应当注意到随着嘈杂噪声中说话者数目的增加,其变得更为平稳。在只有1个(或较少)说话者在背景中的情况下,通常将他们称为干扰说话者。另一问题是嘈杂噪声可以具有VAD算法不会抑制的与一些音乐片段非常相似的频谱变化特性。在之前提到的VAD解决方案AMR NB/WB和G.718中,在合理的SNR(20dB)上,在一些情况下已存在对于嘈杂噪声的不同程度的问题。结果是不能实现假设的通过使用DTX来获得的容量增益。在实际的移动电话系统中,已经注意到:要求在15至20dB SNR下的合理的DTX操作可能是不够的。如果有可能,取决于噪声类型,将需要低至5dB甚至0dB的合理的DTX操作。对于低频背景噪声,仅通过在VAD分析之前对信号进行高通滤波,就可以针对VAD功能实现10至15dB的SNR增益。由于嘈杂声与语音的相似性,通过对输入信号进行高通滤波所获得的增益是非常低的。从质量的角度讲,使用故障防护(failsafe)VAD是更好的,这意味着当有疑问时,让VAD传输语音输入并考虑大量的额外活动是更好的。从系统容量角度讲,只要仅少数用户处于非平稳背景噪声的情况下,这就是可接受的。然而,随着在非平稳环境下的用户数目的增加,故障防护VAD的使用可能引起系统容量的大量损失。因此,推动在故障防护和普通VAD操作之间的边界使得使用普通VAD操作来处理更大的非平稳环境类别就变得重要起来。尽管使用了增强VAD性能的重要性阈值,已注意到其还可以引起偶尔的语音截断,主要是低SNR非语音声音的前端截断。对于现有的解决方案,当识别出新的问题区域时,难以找到对现有VAD的新的调整,而不改变VAD对于已运行条件的行为。即,尽管将有可能改变调整来处理新问题,但是不可能使该调整不改变在已知条件下的行为。
技术实现思路
本专利技术的实施例提供了一种用于重新调整现有VAD来处理非平稳背景噪声或其它发现的问题区域的解决方案。从而通过允许多个VAD并行工作,然后将输出相组合,有可能利用不同VAD的能力,同时不因每个VAD的限制受到过多影响。在希望减少过度活动的情况下使用的一个实施本文档来自技高网
...

【技术保护点】
一种在语音活动检测器VAD(199)中的用于在接收到的输入信号中检测语音活动的方法,包括:‑接收(1101)来自所述VAD的初级语音检测器的、指示由所述初级语音检测器做出的初级语音活动判决的信号,其中,所述初级语音活动判决是所述VAD的中间语音活动判决,‑接收来自至少一个外部VAD的、指示由所述至少一个外部VAD做出的语音活动判决的至少一个信号,‑对从所述初级语音活动检测器和所述至少一个外部VAD接收到的信号中指示的语音活动判决进行组合(1102),以产生修改后的初级语音活动判决,以及‑将修改后的初级语音活动判决发送(1103)至所述VAD的尾响添加单元,所述尾响添加单元被配置为做出所述VAD的最终语音活动判决。

【技术特征摘要】
2009.10.19 US 61/252,858;2009.10.19 US 61/252,966;1.一种在语音活动检测器VAD(199)中的用于在接收到的输入
信号中检测语音活动的方法,包括:
-接收(1101)来自所述VAD的初级语音检测器的、指示由所述
初级语音检测器做出的初级语音活动判决的信号,其中,所述初级语
音活动判决是所述VAD的中间语音活动判决,
-接收来自至少一个外部VAD的、指示由所述至少一个外部VAD
做出的语音活动判决的至少一个信号,
-对从所述初级语音活动检测器和所述至少一个外部VAD接收
到的信号中指示的语音活动判决进行组合(1102),以产生修改后的初
级语音活动判决,以及
-将修改后的初级语音活动判决发送(1103)至所述VAD的尾响
添加单元,所述尾响添加单元被配置为做出所述VAD的最终语音活
动判决。
2.根据权利要求1所述的方法,其中,通过逻辑“与”来组合接
收到的信号中的语音活动判决,使得仅在来自初级语音活动检测器的
信号和来自至少一个外部VAD的信号都指示语音的情况下,所述VAD
的修改后的初级语音活动判决才指示语音。
3.根据权利要求1所述的方法,其中,通过逻辑“或”来组合接
收到的信号中的语音活动判决,使得如果来自初级语音活动检测器的
信号和来自至少一个外部VAD的信号中的至少一个信号指示语音,
则所述VAD的修改后的初级语音活动判决就指示语音。
4.根据权利要求1至3中任一项所述的方法,其中,来自至少一
个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信
号是最终VAD判决。
5.根据权利要求1至3中任一项所述的方法,其中,来自至少一
个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信
号是初级语音活动判决。
6.根据权利要求1至5中任一项所述的方法,其中,所述至少一

\t个外部VAD是单个VAD。
7.根据权利要求1至5中任一项所述的方法,其中,所述至少一
个外部VAD是多个VAD。
8.根据权利要求1至7中任一项所述的方法,其中,根据输入信
号属性来组合语音活动判决。
9.根据权利要求8所述的方法,其中,所述输入信号属性包括以
下至少一项:估计出的信噪比;以及背景特性。
10.一种被配置为在接收到的输入信号中检测语音活动的语音活
动检测器VAD...

【专利技术属性】
技术研发人员:马丁·绍尔斯戴德
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:瑞典;SE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1