话音通信中产生舒适噪声的方法和系统技术方案

技术编号:3046723 阅读:176 留言:0更新日期:2012-04-11 18:40
在话音通信中的非说话阶段提供舒适噪声(150)的一种方法(200)和系统(1)。根据话音输入中的背景噪声是稳态的还是非稳态的产生舒适噪声。如果背景噪声是非稳态的,就用一个抖动过程在舒适噪声中插入(32,38,232)一个随机分量。如果背景噪声是稳态的,就不使用这个抖动过程。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

总的来说,本专利技术涉及话音通信领域,具体而言,涉及断续发射中舒适噪声的产生。
技术介绍
在正常的电话对话中,有时一个人说,另一个人听。有时两个用户都不说话。寂静阶段内平均话音活动会低于50%。在这些寂静阶段内,只会听到背景噪声。背景噪声通常都没有任何内容,不必从发射方(TX)向接收方(RX)原封不动地发射这些背景噪声。在移动通信中,叫做断续发射(DTX)的程序利用了这一事实来节省移动设备的能量。具体而言,这一TX DTX机制有一个低功率状态(DTX低),在这种状态的话音间隙中,大多数时间里移动台(MS)停止向基站(BS)发射信号,以减少MS的功耗,降低空中接口的总干扰电平。采用DTX的基本问题是说话阶段的背景噪声在停止发射无线电信号的时候消失,导致背景噪声不连续。由于DTX切换会非常迅速,因此,人们发现这一效应会使接听电话的人感到非常厌烦。除此以外,如果话音活动检测器(VAD)偶尔将噪声当作话音信号,就会在话音合成的时候重建一部分背景噪声,而其它部分则保持静默。背景噪声突然出现和突然消失不仅使人感到非常厌烦,它还会使对话的可理解性降低,特别是当噪声电平很高的时候,就象在行使的汽车内一样。为了减小这一干扰,在接收方产生类似于发射方背景噪声的合成噪声。这种合成噪声叫做舒适噪声(CN),因为它使得接听比较舒服。为了让接收方模拟发射方的背景噪声,在发射方估计舒适噪声参数,用静默描述(SID)帧发射给接收方。这一发射在过渡到DTX低功率状态之前进行,以后以MS确定的速率进行。TX DTX处理程序决定计算哪种参数,以及是否产生话音帧或者SID帧。图1说明TX DTX的工作原理。这一工作是在话音活动检测器(VAD)的帮助之下进行的,它说明当前帧中是否有话音信号。如果检测到话音信号,就将VAD算法的输出打上“真”布尔标志,否则打上“假”标志。TX DTX还包括话音编码器和舒适噪声产生模块。TX DTX处理程序的基本工作过程如下。布尔(Boolean)话音(SP)标志说明这一帧是话音帧还是SID帧。在说话阶段,SP标志被置位成“真”,用话音编码算法产生一个话音帧。如果在VAD标志变成“假”之前,说话阶段维持了足够长的时间,就有一个拖尾阶段(见图2)。这一段时间被用来计算平均背景噪声参数。在拖尾阶段,发射正常的话音帧给接收方,虽然这一编码信号中只有背景噪声。SP标志的值在拖尾阶段保持“真”。在拖尾阶段以后,舒适噪声(CN)阶段开始。在CN阶段,将SP标志设置成“假”,产生SID帧。在拖尾阶段保存每一帧的频谱S和功率电平E。拖尾阶段过去以后,计算保存参数Save和Eave的平均值。平均长度是比拖尾阶段长的一帧。因此,第一个舒适噪声参数就是拖尾阶段和它后面第一帧的平均值。在舒适噪声阶段,每一帧都产生SID帧,但是不发送它们。TX无线电子系统(RSS)根据SP标志协调SID帧的发射。当说话阶段结束的时候,在第一个SID帧以后停止发射。以后,时不时地发射一个SID帧,以便更新舒适噪声的估计。图3描述RX DTX的逻辑操作。如果在收到的帧内检测到了差错,就将坏帧显示(BFI)标志设置为“真”。与发射方的SP标志相似,接收方的SID标志被用于描述收到的帧是一个SID帧还是一个话音帧。RX DTX处理程序负责整个RX DTX操作。由它区分收到的帧是有效帧还是无效帧(分别是BFI=0或者BFI=1),以及收到的帧是一个SID帧还是一个话音帧(分别是SID=1或者SID=0)。收到有效帧的时候,RX DTX处理程序将它直接传送给话音译码器。收到有差错的话音帧或者这一帧在说话阶段丢失的时候,话音译码器利用最新良好话音帧与话音有关的参数,与此同时,译码器开始逐渐地关闭输出信号。收到有效SID帧的时候,产生舒适噪声,直到收到新的SID帧。这一过程按同样的方式重复。但是如果收到的帧被划分成有效SID帧,就用最后的有效SID。在舒适噪声阶段,译码器在从来没有发送出去的SID帧之间,接收发射信道噪声。为了同步这些帧的信号,用两个前面收到的有效SID帧内插得到的参数被用来产生舒适噪声,用于更新舒适噪声。RX DTX处理程序忽略CN阶段没有发送的帧,因为它被假设为原因是发射中断。利用分析背景噪声得到的信息来产生舒适噪声。随着源不同,背景噪声具有很不相同的特性。因此,没有任何一般方法来找到能够正确地描述所有类型背景噪声特性的一组参数,并且可以用少量比特一秒钟发射几次。因为话音通信中的话音合成是建立在人类话音产生系统基础之上的,因此不能用同样的方法将话音合成算法用于产生舒适噪声。除此以外,不象与话音相关的参数一样,SID帧内的参数不是每一帧都要发射。已经知道人类听觉系统更加集中于信号的幅度谱,而不是相位响应。因此,为了产生舒适噪声,只发射与背景噪声的平均谱和功率有关的信息就足够了。因此,用这两个参数产生舒适噪声。尽管这种舒适噪声的产生实际上会在时域引入很多失真,但是它与频域中的背景噪声相似。这样就足以减小说话阶段和舒适噪声阶段之间过渡阶段烦人的现象。工作良好的舒适噪声的产生具有很好的缓和效果,并且舒适噪声本身并不会引起人注意。由于舒适噪声的产生能够减小发射速率,同时能够感觉到的差错很少(,因此这一概念得到了广泛接受。但是,当产生的舒适噪声的特性明显地偏离真实背景噪声特性的时候,通常就能够听到舒适噪声和真实背景噪声之间的过渡。在现有技术中,在两个最新的SID帧(简图4)之间通过内插参数获得合成线性预测(LP)滤波器和能量系数。这一内插是一帧一帧地进行的。在一帧内,每个子帧的舒适噪声密码本增益都相同。以SID帧的发射速率从收到的参数中内插出舒适噪声参数。每到第k帧发射SID帧。在第n帧以后发射的SID帧是第(n+k)帧。在每一帧内内插CN参数,从而使收到后一个帧的时候内插得到的参数从第n个SID帧变成从第(n+k)个SID帧得到的参数。这一内插是按照如下公式进行的S′(n+i)=S(n)*ik+S(n-k)*(1-ik),---(1)]]>其中的k是内插周期,S’(n+1)是第(n+i)帧的频谱参数矢量,i=0,…,k-1,S(n)是最后一次刷新的频谱参数矢量,S(n-k)是倒数第二次刷新的频谱参数矢量。同样,收到的能量按如下公式内插E′(n+i)=E(n)*ik+E(n-k)*(1-ik),---(2)]]>其中k是内插周期,E’(n+i)是第(n+i)帧的接收能量,i=0,…,k-1,E(n)是最新刷新的接收能量,E(n-k)是倒数第二次刷新的接收能量。通过这种方式,舒适噪声缓慢、平滑地改变,从一组参数逐渐变化到另一组参数。在图4中画出这种现有技术解决方案的一个框图。GSM EFR(GSM增强型全速率通信)编解码器通过在LSF域中发射合成(LP)滤波器系数来应用这种方法。固定密码本增益被用于发射帧的能量。按照等式1和等式2内插这两个参数,其中k=24。GSM EFR CN产生方法的详细介绍可以从数字蜂窝通信系统(第二加阶段),增强型全速率话音业务信道的舒适噪声(ETSI EN 300 728 v8.0.0(2000-07))中找到。也可以分别用能量抖动和频谱抖动块将随机分量插入这些参数。目本文档来自技高网...

【技术保护点】
在具有说话阶段和非说话阶段的话音通信中产生舒适噪声(150)的一种方法(200),其中从发射方向接收方以帧的形式提供说明有话音输入的信号(114,124),从而有利于所述话音通信,该话音输入有一个话音分量和一个非话音分量,非话音分量能够被划分成稳态和非稳态的,该方法的特征在于    按照以下方式确定(204)非话音分量是稳态的还是非稳态的:    发射方提供(206)另一个信号(130),它取第一个值就说明非话音分量是稳态的,取第二个值就说明非话音分量是非稳态的,和    按照从发射方收到的所述另一个信号,根据这另一个信号(130)是取第一个值还是取第二个值,接收方在非说话阶段提供(202,232)舒适噪声(150)。

【技术特征摘要】
US 2000-11-27 60/253,1701. 在具有说话阶段和非说话阶段的话音通信中产生舒适噪声(150)的一种方法(200),其中从发射方向接收方以帧的形式提供说明有话音输入的信号(114,124),从而有利于所述话音通信,该话音输入有一个话音分量和一个非话音分量,非话音分量能够被划分成稳态和非稳态的,该方法的特征在于按照以下方式确定(204)非话音分量是稳态的还是非稳态的发射方提供(206)另一个信号(130),它取第一个值就说明非话音分量是稳态的,取第二个值就说明非话音分量是非稳态的,和按照从发射方收到的所述另一个信号,根据这另一个信号(130)是取第一个值还是取第二个值,接收方在非说话阶段提供(202,232)舒适噪声(150)。2.权利要求1所述的方法,其中的非话音分量的特征在于发射方的背景噪声。3.权利要求1所述的方法,其特征在于如果所述另一个信号取第二个值,提供的舒适噪声就具有随机分量。4.权利要求1所述的方法,其特征在于这些信号包括从非话音分量的频谱估计出来的一个频谱参数矢量(114)和一个能量电平(124),以及在这个频谱参数矢量(114)和能量电平(124)的基础之上提供的舒适噪声(150)。5.权利要求4所述的方法,其特征在于如果这另一个信号(130)取第二个值,就在提供舒适噪声(150)之前将一个随机值插(32)入频谱参数矢量(114)的元素。6.权利要求4所述的方法,其特征在于如果这另一个信号(130)取第二个值,就在提供舒适噪声(150)之前,将第一组随机值插(32)入频谱参数矢量(114)的元素,将第二个随机值插(38)入能量电平(124)。7.权利要求1所述的方法,其特征在于这些信号包括表示非话音分量的多个频谱参数矢量(114),确定步骤(204)是在频谱参数矢量(114)中频谱距离(Ds)的基础之上进行的。8.权利要求7所述的方法,其特征在于在一个平均周期上将频谱距离(Ds)加起来,其特征还在于如果得到的和小于一个预定值,就将非话音分量划分成稳态的,如果得到的和大于或者等于预定值,就将非话音分量划分为非稳态的。9.权利要求7所述的方法,其特征在于频谱参数矢量(114)是线性频谱频率(LSF)矢量。10.权利要求7所述的方法,其特征在于频谱参数矢量(114)是导抗频谱频率(ISF)矢量。11.权利要求4所述的方法,其特征还在于如果另一个信号取第一个值,就计算帧之间能量电平变化的步骤(208),其特征还在于如果能量电平的变化超过一个预定值,就改变所述另一个信号,让它取第二个值,提供舒适噪声(150)以前,将一个随机值矢量插(232)入频谱参数矢量(114)。12.权利要求4所述的方法,其特征还在于如果另一个信号(130)取第一个值,就计算帧之间能量电平变化的步骤(208),其特征还在于如果能量电平变化超过一个预定值,就将所述另一个信号改变为第二个值,提供舒适噪声(150)之前,将一个随机值矢量插(232)入频谱参数矢量(114)和能量电平(124)。13.权利要求4所述的方法,其特征在于所述另一个信号(130)包括从发射方向接收方发送的一个标志,用于说明非话音分量是稳态的还是非稳态的,其特征还在于所述另一个信号(130)取第一个值的时候将这个标志置位,当所述另一个信号取第二个值的时候这个标志不置位。14.权利要求13所述的方法,其特征在于这个标志不置位的时候,就在提供舒适噪声(150)之前,将一个随机值插(232)入频谱参数矢量(114)。15.权利要求13所述的方法,其特征在于如果所述另一个信号取第一个值,就计算(208)帧之...

【专利技术属性】
技术研发人员:J罗托拉普基拉H米科拉J韦尼奥
申请(专利权)人:诺基亚有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1