语音活动性检测器制造技术

技术编号:3673633 阅读:172 留言:0更新日期:2012-04-11 18:40
一种用于检测输入信号中语音的存在的语音活动性检测器,包括 (a)存储输入信号噪声分量的估算值的装置; (b)识别输入信号和被存储的估算值的频谱相似性以便产生输出判定信号的装置; (c)更新被存储的估算值的装置; (d)辅助检测器,用于控制更新装置,以便仅当辅助检测器指出在输入信号中无语音时才进行更新; 其特征在于,用于计算输入信号的预测增益参数的装置,以及用于在预测增益超过阈值时禁止更新的修正装置。(*该技术在2014年保护过期,可自由使用*)

【技术实现步骤摘要】
语音活动性检测器是一种通过向其提供信号输入以达到检测语音时间段或仅包含噪声的时间段的目的的装置。虽然本专利技术不局限于此,但这种检测器特别感兴趣的一种应用是在移动无线电电话系统中,在这种移动无线电电话系统中可以利用有关语音存在与否的知识在寂静期间关闭发射机来减小功率消耗和干扰。在这种移动无线电电话系统中,(车载单元的)噪声电平通常是较高的。在无线电系统中的另一种可能的应用是改善无线电频谱的有效利用。附图说明图1表示在国际专利申请WO89/08910中描述的语音活动性检测器。在噪声的语音信号在输入端1被接收。存储器2中存储有确定噪声频谱的估算或模型的数据;将这一数据与当前信号的频谱进行比较(3)来获得与阈值进行比较(4)的相似性度量。为了跟踪噪声分量的变化,仅当无语音时才根据输入更新噪声模型。并且,还可以调整阈值(适配器6)。为了保证仅在只存在噪声的期间内进行调整,以免出现因错误判断造成的累积的错误调整的危险,在辅助检测器7的控制下进行调整,该辅助检测器7包括非发声语音检测器(unvoicedspeech detector)8和发声语音检测器(Voiced speech detector)9如果这两个检测器中的任何一个识别了语音,检测器7就认为存在语音,并且禁止主检测器的更新和阈值调整。一般来说,非发声语音检测器8获得信号的一组LPC系数并在连续的帧周期之间比较这些系数的自相关函数,发声语音检测器9检测LPC残留信号的自相关的变化。这一装置在区分语音期间和只接收有噪声的期间方面非常有效。但是,产生了这样的问题,即信号音(signalling tones)经常被辅助检测器认为只是噪声(即不将它们识别为语音),因此主检测器就当这些信号音为噪声而去适应它们,这些信号音的传输被阻止,或者至少过早地将其加以终止。这一问题可以通过提供一些分别被调谐到某个特定信号音频率的检音器(tone detector)来克服;但是,不可忽视世界上的不同信号音的多种多样性,因此,为了例如使正在打国际电话的移动电话用户能够可靠地听到“占线”音而不管其来自哪一个国家,就需要大量的不同的检测器。根据本专利技术,提供了一种用于检测输入信号中语音的存在的语音活动性检测器,它包括(a)存储输入信号噪声分量的估算值的装置;(b)识别输入信号和被存储的估算值的频谱相似性以便产生一个输出判定信号的装置;(c)更新被存储的估算值的装置;(d)辅助检测器,用于控制更新装置,以便仅当辅助检测器指出在输入信号中无语音时才进行更新;其特征在于,用于计算输入信号的预测增益参数的装置,以及用于在预测增益超过阈值时禁止更新的修正装置。现在参看附图举例描述本专利技术的某些实施例,附图中图2是根据本专利技术一个方面的具有语音活动性检测器的语音编码器的方框图;图3和4用图形表示各种输入信号的预测增益值;图5、6和7是本专利技术其它实施例的方框图。在图2中,传统语音编码器100具有语音输入端101,语音信号被模数变换器102以8KHz的频率进行取样和变换为数字形式。开窗口单元(Windowing unit)103将语音样值划分成为(例如)160个样值的帧(即20ms的帧)、并将其乘以一个可减小在帧的开始和结束处的样值的贡献的汉明(Hamming)窗口或其它函数。相关器104接收数字化语音样值并产生每一帧的自相关系数Pi。LPC分析单元105计算具有相应于输入语音信号频谱的频率响应的滤波器(它有时称为综合滤波器)的系数ai,这里,采用例如列文森-德宾(Levinson-Durbin)或肖思(schurr)算法的已知方法。数字化输入信号还通过被这些系数控制的反滤波器(或分析滤波器)106,以便产生出被长期预测器分析单元107进一步分析的残留信号,该长期预测器分析单元107计算根据其先前值来预测LPC残留信号的最佳延迟以及该预测值的相应增益值。分析单元106还产生第二残留信号(即当前LPC残留信号和被所获得的参数延迟和定标的LPC残留信号之间的差值)。激励单元108通过仅对LTP残留信号进行量化或利用其它普通的方法来获得用以传送给译码器的激励参数。LPC系数ai、长期预测器延迟d和增益g、以及激励参数e都传送给译码器。申请人先前的专利申请中的主语音活动性检测器利用平均器110来对自相关系数Ri求平均,该平均器110产生当前系数和被存储在缓冲器111中的先前帧的系数的加权和R′i。另一自相关器112产生用以传送给缓冲器113的LPC系数ai的自相关系数Bi。缓冲器的内容只在被辅助检测器(以下将描述)认为只包含噪声的期间内才被更新,因此缓冲器113的内容B′i代表了输入信号噪声频谱的估算值。乘法/加法单元114产生被如下定义的、输入信号和噪声模型之间频谱相似性的度量MM=B′o+2Σi=1nR′iB′iR′o]]>这里的零下标表示零阶自相关系数,n是语音帧中样值的数目。度量M在比较器115中与阈值电平进行比较,并在输出端116产生表示语音的存在或不存在的信号。阈值可以根据当前噪声功率电平自适应地进行调整(117)。由于不能识别语音将导致对具有语音信息的缓冲器的更新和随后的其它识别错误—“锁定”状态,所以在缓冲存储器113中的噪声估算值的更新不被上述检测器的输出端116进行控制。因此更新由辅助检测器200进行控制。为了区分噪声和非发声的语音,这就产生出(201)输入信号的(未平均的)自相关系数Ri和LPC系数的(未缓冲的)自相关系数Bi的乘积和。减法器202将这个和与在缓冲器203中被延迟的先前语音帧的相应的和进行比较。表示输入信号的连续帧之间频谱相似性的这一差值与阈值进行比较(204)从而产生判决信号。为了识别发声的语音,长期预测器延迟d被音调分析单元205所测量。其输出在“或”门206中与阈值级204的输出合并—即如果单元204或205中的任何一个(或两者)产生表示语音存在的输出,辅助检测器200就认为存在语音。正如在引言中所论述的那样,如果系统传送信号音,则这些信号音必须被识别为语音而不是噪声,而刚刚所述的辅助检测器在这方面并不是非常有效。虽然它识别某些信号音,但另一些信号音(通常是具有相对纯净的频谱内容的信号音)不能被识别。由于在缓冲器113中的噪声估算值此时根据信号音来进行“训练”,所以一旦辅助检测器200已失效,则主检测器也失效。因此,提供另一辅助检测器来检测信号音。最好注意到人为产生的信号音包含少量的频率分量(它可能是被调制的)这一事实。对于这样的信号,LPC预测器的性能极其优异,利用这一特性来区分基于信号音的信号(包括多信号音信号)和背景或环境噪声信号。LPC预测增益Gp被定义为一语音帧的输入信号功率与输出信号功率之比,即Gp=Σi=0n-ix2(i)Σi=0n-1y2(i)]]>这里的x是滤波器输入而y是反滤波器输出y(t)=x(t)+Σi=1ny(t-i)ai]]>(这里的m是滤波系数的个数,一般为8或10)。信号x(i)和y(i)可分别从LPC编码器100内的变换器102和滤波器106的输出本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:P·A·巴列特
申请(专利权)人:英国电讯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利