用于话音活动检测的方法和设备技术

技术编号:7901896 阅读:217 留言:0更新日期:2012-10-23 14:29
本发明专利技术提供一种话音活动检测设备(1),其包括:信号条件分析单元(3),其分析输入信号的至少一个信号参数,以检测所述输入信号的信号条件SC;至少两个话音活动检测单元(4-i),其包括不同的话音检测特性,其中每一话音活动检测单元(4-i)单独执行对所述输入信号的话音活动检测,以提供话音活动检测决策VADD;以及决策组合单元(5),其根据所述所检测到的信号条件SC而组合由所述话音活动检测单元(4-i)提供的所述话音活动检测决策VADD,以提供组合的话音活动检测决策cVADD。

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍
本专利技术涉及一种用于话音活动检测,且特别用于检测适用于例如编码器等音频信号处理单元处理的音频信号中有无人类语音的方法和设备。话音活动检测(VAD)总地来说是一种用来检测信号中的话音活动的技术。话音活动检测也被称为语音活动检测,或者简称为语音检测。话音活动检测可用于检测有无人类语音的语音应用中。话音活动检测可(例如)用于语音编码或语音识别中。由于话音活动检测与多种基于语音的应用相关,所以已开发了提供具有多样化特征并在例如时延、灵敏度、精确度以及计算复杂性等要求之间折衷的各种VAD算法。一些话音活动检测(VAD)算法还提供对数据的分析,例如所接收到的输入信号是有声的、无声的还是持续的。对包含输入 信号帧的输入音频信号执行话音活动检测。可由话音活动检测单元来执行话音活动检测,所述话音活动检测单元用指示是否存在语音的对应标志来标记输入信号帧。常规的话音活动检测(VAD)设备的性能取决于所接收到的输入信号的具体条件以及相应的所接收信号的信号类型或信号类别。信号类型可包括语音信号、音乐信号以及具有背景噪声的语音信号。此外,信号的信号条件可变化,举例来说,所接收到的音频信号可具有较高的信噪比SNR或较低的信噪比SNR。在接收输入音频信号时,常规的话音活动检测设备可适合于所接收的输入信号,且可给出精确的(VAD)决策。然而,根据信号类别和信号条件,常规的话音活动检测器也可能产生不良结果,即在检测所施加的输入信号的话音活动时,所述检测器可能具有较低的话音检测精确度。而且,所施加的输入信号的信号条件和信号类型可随着时间而改变,且因此,常规话音活动检测设备对于信号类型或信号条件改变或变化来说是不稳固的。因此,本专利技术的目的是提供一种与用常规的话音活动检测方法或设备相比产生整体较好的检测性能的用于执行话音活动检测的方法和设备。
技术实现思路
根据本专利技术的第一方面,提供一种话音活动检测设备,其包括信号条件分析单元,其分析输入信号的至少一个信号参数,以检测所述输入信号的信号条件,至少两个话音活动检测单元,其包括不同的话音检测特性,其中每一话音活动检测单元单独执行对所述输入信号的话音活动检测或话音活动检测处理,以提供话音活动检测决策;以及决策组合单元,其根据所检测到的信号条件而组合由所述话音活动检测单元提供的话音活动检测决策,以提供组合话音活动检测决策。每一话音活动检测单元具有特定的检测特性。所述检测特性在概念上与接收器工作特性(ROC)具有密切关系。在信号检测理论中,接收器工作特性(ROC)(或简单来说,ROC曲线)是二进制分类器系统在其辨别阈值改变时的灵敏度或真正率(true positive rate)与假正率(false positive rate)的图表。对于话音检测系统,真正率是主动检测率,且假正率是非主动误检率。可将话音活动检测系统的检测特性视为特殊的ROC曲线,所述曲线的变化辨别阈值由变化的信号条件替代。可将信号条件定义为多条件(例如,输入信号电平、输入信号SNR、输入信号的背景噪声类型、输入信号的话音活动因子等)的某一组合。因此,不同输入信号的话音检测特性(即,检测与误检(也称为假告警))是不同的。一般来说,如果两个话音活动检测单元的对于输入信号的至少一个实例的决策是不同的,那么其将具有不同的话音活动检测特性。因此对于某一信号条件,所述两个VAD的性能将不同。举例来说,如果以不同方式调谐话音活动检测算法,那么可针对不同的话音活动检测算法获得不同的特性,或者可通过改变(即使轻微地)所述算法所使用的参数(例如,阈值、用于分析的频带的数目等)来从同一算法获得不同的特性。在本专利技术的第一方面的一可实施方案中,话音活动检测设备包括用于接收包括信 号中贞的输入信号的信号入口。在本专利技术的第一方面的一可实施方案中,话音活动检测单元由基于信噪比的话音活动检测单元形成。使用基于信噪比的话音活动检测单元增加了根据本专利技术的话音活动检测设备的精确度和性能。在本专利技术的第一方面的一可实施方案中,每一基于SNR的话音活动检测单兀将输入信号帧分成若干个子频带。在本专利技术的第一方面的一可实施方案中,每一基于SNR的话音活动检测器单兀在逐帧基础上处理输入信号。通过计算输入帧的每一子带的信噪比SNR,进一步增加了根据本专利技术的话音活动检测设备的精确度。在本专利技术的第一方面的另一可实施方案中,每一基于信噪比SNR的话音活动检测单元将输入信号帧分成若干个子频带,并为每一子频带计算信噪比SNR,其中求出所有子频带的所计算出的信噪比SNR的总和,以提供分段信噪比SSNR。在本专利技术的第一方面的另一可实施方案中,将由话音活动检测单元计算出的分段信噪比SSNR与阈值进行比较,以提供各个的话音活动检测单元的中间话音活动检测决策,其中所述中间话音活动检测决策或其经处理的版本形成话音活动检测决策。因此,话音活动检测设备的每一话音活动检测单元基于分段信噪比SNR与对应的阈值之间的比较而做出中间话音活动检测决策。在一可实施方案中,话音活动检测单元的阈值是自适应的,且可借助于对应的控制信号而调整,所述对应的控制信号借助于配置接口而施加到话音活动检测设备。由于话音活动检测设备内的每一话音活动检测单元包括可经由所述接口而调整的对应的自适应阈值,因此,可实现对每一所述不同的话音活动检测单元的性能的精细或准确的调谐。这又再次增加了根据本专利技术的话音活动检测设备的精确度。在本专利技术的第一方面的另一可实施方案中,通过非线性函数来修改对应子频带而计算出的每一信噪比SNR,以提供对应的经修改的信噪比mSNR,其中由相应的话音活动检测单元求出经修改的信噪比mSNR的总和,以获得经分段的信噪比SSNR。所述非线性函数的提出允许以不同方式修改信噪比SNR,以用于为不同的话音活动检测单元提供不同的话音活动检测特性,从而可实现对不同的话音活动检测单元的精确调谐,并根据所接收的输入音频信号的具体可能的信号条件和/或信号类型而调整其相应的话音检测特性。在本专利技术的第一方面的一可实施方案中,每一话音活动检测单元的中间话音活动检测决策经过具有对应的拖尾时间的拖尾处理过程,以提供所述话音活动检测单元的最终话音活动决策。所述拖尾时间形成等待时间周期,以使话音活动检测决策变得平滑,并减少话音活动检测单元作出的与在所接收的音频信号内的话语突峰的尾部进行削波相关联的潜在误分类。因此,此具体实施方案的优点在于,减少了对话语突峰的削波,并改进了信号的语音质量和清晰度。 在本专利技术的第一方面的一可实施方案中,话音活动检测设备内的每一话音活动检测单元的话音检测特性是可调谐的(例如,借助于配置接口)。在本专利技术的第一方面的一可实施方案中,可通过调整或改变相应的话音活动检测单元所使用的子频带的数目来调谐每一话音活动检测单元的话音检测特性。在本专利技术的第一方面的另一可实施方案中,可通过调整或改变相应的话音活动检测单元所使用的非线性函数来调谐每一话音活动检测单元的话音检测特性。在本专利技术的第一方面的另一可实施方案中,可通过调整或改变相应的话音活动检测单元所使用的拖尾处理的拖尾时间来调谐每一话音活动检测单元的话音检测特性。在本专利技术的第一方面的另一可实施方案中,所述设备包括以不同的方式(例如,通过不同数目的子频带或频率分析)实施的不同的话音活本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:阿里斯·塔勒布王喆许剑峰苗磊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1