数字语音信号的去噪声方法技术

技术编号:3047482 阅读:328 留言:0更新日期:2012-04-11 18:40
为了用相继帧处理去掉数字语音信号的噪声:计算每一帧的信号的频谱分量(S↓[n,f],S↓[n,i]),计算含在语音信号中的噪声的频谱分量的最大估计(*′↓[n,i]);为了估计基波频率而进行信号的谐波分析;进行减谱,其中至少有一步是分别从这个帧的语音信号的每个频谱分量(S↓[n,f])中减去由一些参量所决定的一个量值,述及的参量中包括噪声的对应的频谱分量的最大估计和估计得到的基波频率;以及对减谱的结果进行向时域的变换,以便构建去噪声的语音信号(S↑[3])。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及的是语音信号的去噪声的数字技术,特别涉及的是用消除非线谱来去噪声。由于新的通信方式,特别是移动电话通信,的普遍化,各种通信越来越在强噪声环境中进行。附加在语音上的噪声防碍语音信号的优化压缩,产生非本征的背景噪声,就会干扰通信。另一方面噪声还使语音信息难以理解。为了试图减小噪声在通信中的作用,已经研究了多种算法。S.F.Boll(在文章“Suppression of acoustic noise in speech using spectralsustraction”IEEE Trans.on Acoustics,speech and Signal Processing,Vol.ASSP-27,n°2 arril(四月)1999)曾推荐以减谱为基础的一种算法。这种技术在于在无声阶段(phase de silence)估计噪声谱,并将之从接收到的信号中减去。这可降低接收到的噪声电平,但其主要缺陷是要建立一个特别令人讨厌的音乐噪声,因为它是非自然的。D.B.Paul(“The Spectral enveloppe estimation Vocoder”,IEEE Trans.on Acoustics,Speech and Signal Processing,Vol.ASSP-29,n°4 aot(八月)1981)和P.Lockwood et J.Boudy(“Experiment with a nonlinear spectral subtraetor(NSS),HiddenMarkov Model and the projection,for robust speech recognition incars”,Speech communication,Vol.11 juin(六月)1992,215-228页和EP-A-0534837)又进行这项工作,并做了改善,使得噪声电平得到明显的降低而仍保持信号的本身特性。另外,其贡献在于第一次在去噪声滤波器的计算中使用掩蔽原理(principe de masquage)。从这个思想出发,S.Nandkaumar和J.H.L.Hansen(“Speechenhancement on a new set of auditory constrained parameters”Proc。ICASSP 94,I.1-I.4页)尝试在频谱消除中利用计算的掩蔽曲线。尽管从这种技术得到了令人不满意的结果,但值得强调指出的是其重要贡献是在去噪声中不使语音信号变质。另一些方法是建立在将语音信号分解成多个单个的数值的基础上,因而是将语音信号在一个较小的空间中投影,Bart De Moore(“The singular value de composition and long and short spaces ofnoisy matrices”IEEE Trans.on Signal Processing,Vol.41,n°9September(九月)1993,2826-2838页)和S.H.Jensen等(“Reduction of broad-band noise in speech by truncated QSVD”,IEEE Trans.on speech and Audio Processing Vol.3,n°6 novermber(十一月)1995)对此都做过研究,这种技术的原理是将语音信号和噪声信号看成是完全不相关的,并将语音信号看成是根据一组有限的参量就能预测它有足够多的预测性。这种技术对于噪声深埋的信号能得到可以接受的去噪声,然而使语音信号完全变质。对于一个相对相干的噪声,如汽车轮胎接触或马达撞击产生的噪声,其噪声比未被噪声掩蔽的语音信号还易于预测。于是就企图将语音信号在噪声矢量空间部分中投影。这个方法并没有考虑语音信号,特别是没有噪声的语音区,此处的预测性很低。还有,从一小组参量来预测语音信号,这不能考虑到语音的全部本质的财富。显然单纯建立在数学考察而忽略语音特性的基础上技术的局限性。最后,别的一些技术都是建立在相关原理上面。J.A.Cadzow和O.M.Solomon(“Linear modeling and the coberence fonction”,IEEE Trans.on Acoustics,Speech and Signal Processing,Vol。ASSP-35,n°1 janvier(一月)1987,19-28页)特别好地发展了相干函数,而R.Le Bouguin(“Enhancement of noisy speech signalsapplication to mobile radio communications”,Speech Communication,Vol.18,3-19页)对将相干函数应用到去噪声中去进行了研究。这种方法是建立在下面的事实上在使用多个相互独立的信道条件下,语音信号的相干性肯定比噪声的相干性为大。其得到的结果相当令人鼓舞,然而相当不幸,这种技术意味着要取多个声音提取源,这一点并不是总能实现的。美国的第5 228 088号专利描述了一个去噪声系统,并结合一个音调检测器,工作在频域。这个检测的结果一方面用来调节噪声的抑制系数(cocficients de suppression),另一方面用来定位一个“声带”。频谱和除模块用这些噪声抑制系数来在从信号中减去噪声之前来对噪声估计进行加权。校准抑制系数模块仅使用这样的信息,即根据这个信息确定是否对音调进行检测。而音调所取的数值对所用的抑制系数没有影响。借助于检测到的基波频率确定的“声带”构成了信号的总的加强目标。作为变种,这可以相反地用来确定一个“噪声带’即用于总衰减的带。这样对频谱和信号的一部分进行加强或衰减是与扣除频谱非常不相同的去噪声方法。本专利技术的一个主要目的是推荐一种新的去噪声技术,这种技术考虑到语音生成的特点,因此能够有效地去掉噪声,而没有语音变质的感觉。于是,本专利技术推荐由相继帧来处理的。在这种方法中有-对于每一帧计算语音信号频谱的分量;-对于每一帧,计算包含在语音信号中的噪声谱分量的最大估计(estimations majorées);-进行减谱,其中至少有一步是分别从一帧的每个语音信号频谱分量中减去一个量,这个量决定于包含有对于述及的帧的相应的噪声频谱分量的最大估计在内的一些参量;并-将向时域的变换应用于减谱的结果,以构成去噪声语音信号。为了在具有声音活动性的每一帧上进行信号的基波频率估计,就要对语音信号进行谐波分析,决定减去量的参量因而包含有估计得的基波频率。一般总希望进行噪声频谱包络的过高估计(surestimation),以使这样得到的最大估计对于噪声的突然变化依然是稳固的。然而,这样的过高估计通常具有缺陷,当其太大时便使语音信号失真。这方面的作用是影响有噪声的语音信号的特征,消减其部分可预测性。这个缺陷对于电话是非常有碍的,因为电话的语音信号所处的噪声区域是最强的。在去噪声中考虑语音信号的基波频率这个事实,使得在这些噪声区域中能够保护这信号的谐波。一般说来,为了从语音信号中减去给定的频谱分量,如果述及的频谱分量本文档来自技高网...

【技术保护点】
一种采用相继帧处理的数字语音信号(s)的去噪声方法,其中:-对语音信号进行谐波分析,以对具有声音活动性的每一帧估计出语音信号的基波频率(f↓[p]);-对于每一帧,计算语音信号的频谱分量(S↓[n,f],S↓[n,i]);-对于 每一帧,计算含杂在语音信号中的噪声的频谱分量的估计;-进行减谱,其中至少有一步是对于一帧从所述帧的语音信号的每个频谱分量(S↓[n,f])中减去由一些参量所决定的一个量值,在述及的参量中,至少有述及的帧的噪声所对应的频率分量的估计和估计 得到的基波频率的值;以及-对减谱得到的结果应用于时间域的一个变换,以构建去了噪声的语音信号(s↑[3])。

【技术特征摘要】
FR 1997-9-18 97/116421.一种采用相继帧处理的数字语音信号(s)的去噪声方法,其中-对语音信号进行谐波分析,以对具有声音活动性的每一帧估计出语音信号的基波频率(fp);-对于每一帧,计算语音信号的频谱分量(Sn,f,Sn,i);-对于每一帧,计算含杂在语音信号中的噪声的频谱分量的估计;-进行减谱,其中至少有一步是对于一帧从所述帧的语音信号的每个频谱分量(Sn,f)中减去由一些参量所决定的一个量值,在述及的参量中,至少有述及的帧的噪声所对应的频率分量的估计和估计得到的基波频率的值;以及-对减谱得到的结果应用于时间域的一个变换,以构建去了噪声的语音信号(s3)。2.根据权利要求1的方法,其中,将一个估计得到的基波频率的值(fp)用来在要计算语音信号的频谱分量选择受保护的频率,且在这个方法中对于从语音信号中的给定的频谱分量(Sn,f)减去的量值,如果述及的频谱分量对应于要保护的频率,则所采用的量值就小于述及的频谱分量不对应于要保护的频率时所采用的量值。3.根据权利要求2的方法,其中,选择要保护的频率,使得对应于受保护的频率的语音信号的频谱分量超过根据对应的噪声的频率分量的估计所确定的噪声音级。4.根据权利要求2或3的方法,其中,每个受保护的频率是在计算语音信号的频谱分量的频率集合中最接近估计得到的基波频率(fp)的一个整倍数的频率。5.根据权利要求2或3的方法,其中,每个受保护的频率是在计算语音信号的频谱分量的那些频率的集合中最接近于形式为[η×fp-η×δfp/2,η×fp+η×δfp/2]的间隔的一个频率,其中fp表示估计得到的基波频率,δfp为基波频率的估计的频率分辨能力,而η表示一个整数,且在这个方法中,6.根据权利要求2至5中任意一项的方法,其中,从语音信号频谱分量(Sn,f)中减去的量值在受保护频率处基本上为零。7.根据权利要求1至6中任意一项的方法,其中,在对一帧中的语音信号的基波频率(fp)估计之后,通过对估计的基波频率的整倍数的附加取样频率(fe)进行附加取样,来限定这帧的语音信号,并对于这帧,在给定的信号(s′)的基础上计算语音信号的频谱分量(Sn,f),用来从中减去述及的量值。8.根据权利要求7的方法,其中,将由N个样本的组所给出的信号(s′)变换到频域上,计算语音信号的频谱分量(Sn,f),而且,在这个方法中,附加取样频率(fe)和估计得到的基波频率的比(p)是整数N。9.根据权利要求7或8的方法,其中,根据在给定的信号的基础上计算的频谱分量的自相关的熵(H),由这个计算估计这一帧的语音信号的噪声音级(χ)。10.根据权利要求9的方法,其中,述及的计算自相关(H)的频谱分量(S2n,f)都是在减去述及的量值之后,在给定的信号(s′)基础上计算的那些频谱分量。11.根据权利要求9或10的方法,其中,述及的噪声音级(χ)的测量是根据下面形式的归一化的熵(H)进行的H=Σk=0N/2-1A(k).log[A(k)]log(N/2)]]>此处,N是用于在给定的信号(s′)的基础上计算各频谱分量(Sn,f)的样本数,而A(k)是归一化的自相关,由下式定义A(k)=Σf=0N/2-1Sn,f2·Sn,f+k2Σf=0N/2-1Σf′=0N/2-1Sn,f2·Sn,f+f′2]]>S2n,f表示在给定的信号基础上计算的顺序(rang)为f的频谱分量。12.根据前面各权利要求中的任意一项的方法,其中,在每一帧的处理之后,在由这个处理所提供的去噪声的语音信号的所有样本中,保留的样本的数目(M)等于取样频率(Fe)和估计得到的基波频率(fp)的比(Tp)的整数倍。13. ...

【专利技术属性】
技术研发人员:菲利普洛克伍德斯特凡鲁比阿兹
申请(专利权)人:伊兹安全防卫网络公司
类型:发明
国别省市:FR[法国]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利