声音活动检测制造技术

技术编号:3047707 阅读:209 留言:0更新日期:2012-04-11 18:40
一种与语音系统一起使用的声音活动检测器,该声音活动检测器包括一个用于接收从语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端,流出和流入信号两者都被划分成时间有限的帧;用来根据流入信号的每一帧计算一个特征值的装置;用于产生关于计算所得特征值和一个阈值的函数,并基于该函数,判定流入信号是否包括语音的装置, 其特征在于,这些装置被提供用来判定在语音系统流出语音信号期间的回声回输损失,并依赖于测量到的回声回输损失来控制阈值。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】
该专利技术涉及声音活动检测。有许多依赖于语音检测来运行的自动化系统。例如,自动语音系统和蜂窝无线编码系统。这些系统为了检测到语音发生而监听始于用户设备的传输路线,并且在语音发生时采取适当的行动。不幸的是,传输路线极少没有噪声。如果路线上有噪声存在,被安排在路线上仅用来检测声音活动的系统可能会因此不正确地采取行动。通常出现的噪声是线路噪声(即,出现的噪声与是否有信号正在被传输无关)和电话对话中的背景噪声,例如狗叫声,电视的声音,汽车发动机噪声等等。在通信系统中的另一噪声源是回声。例如,在公共交换电话网(PSTN)中的回声基本上由电和/或声耦合造成,例如,在传统的交换盒的四线到两线的接口处;或在电话听筒中,从耳朵部位到麦克风的声偶。在一次呼叫过程中,由于空气路径的变化,声学回声是时变的。也就是说,说话者变换他们的头在麦克风和扬声器之间的位置。同样的,在电话亭里,电话亭内部具有一种有限的阻尼特性并且是回响的,这造成共振效果。另外,如果说话者在电话亭周围移动或者确实有任何空气运动,这又会造成声学回声路径变化。由于免提电话的增加使用,声学回声这时成为一个更重要的问题。总的回声或反射路径的影响是衰减、延迟和滤波信号。回声路径依赖于线路、交换路由和电话类型。这意味着,正象于不同的开关设备将被选取用来建立连接一样,由于线路、交换路由和电话听筒中的任何一个会在一次呼叫和另一次呼叫间改变,因而反射路径的传递函数会在呼叫间变化。已知有多种用来在人-人语音通信系统中改进回声控制的技术。其中有三种主要的技术。第一,插入损耗可被加入到说话者的传输路线以降低输出信号的电平。然而,插入损耗会造成接收到的信号对于听者来说,变得无法容忍地低。另一种方法是基于这样一种原理运行的回声抑制器,这种原理是在发送和接收路线上检测信号电平,然后比较电平来决定怎样操作可变换的插入损耗器。当在接收路线上检测到语音时,在发送路线上加上一个高的衰减。回声抑制器通常用于长延迟连接,例如,国际电话连接,其中适当的、固定的插入损耗是不够的。回声消除器是声音操作的设备,它利用自适应信号处理,通过估计一个回声路径的传递函数来减小或消除回声。输出信号被送入该设备,产生的输出信号被从接收到的信号中减去。如果模型代表了真实的回声路径,理论上,回声应该被消除。然而,回声消除器在稳定性问题上有缺点,而且需要大量的计算。在训练过程中,回声消除器对噪声冲击也非常敏感。自动语音系统的一个例子是电话应答机,它记录呼叫者留下的信息。通常,当用户呼叫自动语音系统时,用户会被给予提示,该提示通常要求回答。因此,来自语音系统的流出信号被沿着传输线传送到用户电话的扬声器。于是用户对提示作出响应,该响应被传送到语音系统,语音系统于是采取适当的行动。允许自动语音系统的呼叫者打断来自该系统的流出提示对于那些熟悉该系统对话的呼叫者会大大增强系统的可用性这一点已经被提议。这种便利通常被称做“闯入”或“可超速指引”。如果用户在提示期间说话,说出的字可能会被流出提示的回声居前或破坏。来自用户的本来孤立的、无噪声的词汇发音被转换成为嵌入词汇的发音(其中,该词汇字掺有附加的声音)。在涉及自动语音识别的自动语音系统中,由于现有语音识别技术的限制,这造成了识别性能的减弱。如果一个用户从来没有使用过自动语音系统提供的服务,该用户将需要听语音生成器提供的全部的提示。然而,一旦用户已经熟悉了该服务和每一阶段要求的信息,用户会希望在提示完成之前给出所需的响应。如果语音识别器或录音装置在提示完成之前一直关闭,(系统)不会作出任何尝试来识别用户的提早响应。如果,另一方面,语音识别器和录音装置一直打开,输入信号将既包括流出提示的回声又包括用户给出的响应两者。这样的信号将不可能被语音识别器识别。声音活动检测器(VADS)因此被开发来在线路上检测声音活动。已知的声音活动检测器依赖于产生流入信号中噪声的估计值,并将流入信号与在非语音期间固定不变或变化的估计值相比较。这样一种声音激励系统的例子在美国专利No5155760和美国专利No4410763中被描述。声音活动检测器被用来检测流入信号中的语音并当该语音被检测到时,用来打断流出提示和打开识别器。用户将听到一个省略的提示。如果用户强行加入,这是令人满意的。然而如果声音活动检测器不正确地检测到语音,用户将听到一个省略的提示,并且没有怎样继续系统的指令,显然,这是不希望的。该专利技术提供了一种与语音系统一起使用的声音活动检测器,该声音活动检测器包括一个用于接收从一个语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端,流出和流入信号两者都被划分成时间有限的帧;用于根据流入信号的每一帧计算一个特征值的装置;用于生成一个关于计算所得的特征值和一个阈值的函数,并基于该函数,判定流入信号是否包括语音的装置。其特征在于该装置被提供用来判定在交互式语音系统流出语音信号期间的回声回输损失,并用于控制依赖于测量到的回声回输损失的阈值。回声回输损失由流出信号的电平和声音活动检测器接收到的流出信号的回声电平的差值得出。回声回输损失是传输路径对流出提示衰减的一个测量值。在测量到的回声回输损失基础上控制阈值不仅降低了由于回声造成的声音活动检测器的错误触发的次数,而且可以减少当用户通过具有大量回声的线路作出响应时,声音活动检测器触发的次数。尽管这可能显得令人讨厌,但是应该理解的是,对于声音活动检测器,当用户闯入时不触发优于当用户不闯入时触发,不闯入时触发将给用户一个省略的提示并不再有另外的帮助。阈值可能是回声回输损失和流出信号最大可能功率的函数,两者都是线路的长时特性(尽管回声回输损失可以时常加以测量)。阈值最好是最大功率和回声回输损失之间的差值。可能更好的是,阈值是回声回输损失和根据流出语音信号的每一帧计算得到的特征值的函数(即,阈值表示流出信号每一帧的衰减)。计算得到的特征值最好是每一帧信号的平均功率,尽管其他特征值,例如帧能量可能被使用。不只一个流入信号的特征值可被计算出,并可生成各种函数。声音活动检测器可以进一步包括涉及统计模型的数据,该统计模型表示至少一个包括基本无噪声语音和噪声信号的信号的计算所得特征值,计算所得特征值和阈值的函数被拿来与该统计模型比较。噪声信号统计模型可以表示线路噪声和/或典型背景噪声和/或输出信号的回声。依照该专利技术,这里也提供了一种声音活动检测的方法,该方法包括接收从一个语音系统传送到用户的流出语音信号和接收来自用户的流入信号,流出和流入信号两者都被划分成时间有限的帧,根据流入信号的每一帧来计算一个特征值,生成一个关于计算所得特征值和一个阈值的函数,基于该函数,判定流入信号是否包括语音,其特征在于测量在语音系统流出语音信号期间的回声回输损失,并控制依赖于测量到的回声回输损失的阈值。阈值最好是回声回输损失和流出信号最大可能功率的函数。如同上面提到的,阈值可以是回声回输损失和根据一帧流出语音信号计算所得的相同特征值的函数。计算所得的特征值可以是信号每一帧的平均功率。通过例子并参考附图,该专利技术将被进一步描述,在附图中附图说明图1表示一个包括根据该专利技术的声音活动检测器的自动语音系统,图2表示根据该专利技术一个声音活动检测器的组成部件。图1给出了一个自动语音系统本文档来自技高网...

【技术保护点】

【技术特征摘要】
1一种与语音系统一起使用的声音活动检测器,该声音活动检测器包括一个用于接收从语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端,流出和流入信号两者都被划分成时间有限的帧;用来根据流入信号的每一帧计算一个特征值的装置;用于产生关于计算所得特征值和一个阈值的函数,并基于该函数,判定流入信号是否包括语音的装置,其特征在于,这些装置被提供用来判定在语音系统流出语音信号期间的回声回输损失,并依赖于测量到的回声回输损失来控制阈值。2根据权利要求1的声音活动检测器,其特征在于阈值是回声回输损失和流出信号最大可能功率的函数。3根据权利要求1的声音活动检测器,其特征在于阈值是回声回输损失和根据一帧流出语音信号计算所得特征值的函数。4根据权利要求1,2,3中任何一个的声音活动检测器,其中计算所得的特征值是每一帧信号的平均功率。5根据任何一个前面的权利要求的声音活动检测器,进一步包括涉及统计模型的数据,这些统计模型表示...

【专利技术属性】
技术研发人员:J·A·布里奇斯
申请(专利权)人:英国电讯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1