当前位置: 首页 > 专利查询>四川大学专利>正文

语音信号中冲激性噪声的去除方法技术

技术编号:21895735 阅读:25 留言:0更新日期:2019-08-17 16:02
本发明专利技术公开了语音信号中冲激性噪声的去除方法,通过检测语音时域序列中的离群点来判断脉冲干扰点存在的位置,再通过比较中位数与脉冲干扰点的能量值大小来判定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的左临近值代替中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值。发明专利技术人通过对比处理前后该语音段的波形图发现,原始带噪语音含有很多尖峰脉冲,即冲激性噪声,经由步骤一至步骤七处理后,明显的波形图更加平滑了,尖峰脉冲被平滑掉了,从而得知经本方法滤波后,有效的去除了该语音段中的冲激性噪声,得到新的语音时域序列。

Elimination of Impulsive Noise in Speech Signal

【技术实现步骤摘要】
语音信号中冲激性噪声的去除方法
本专利技术涉及语音去噪技术,具体涉及语音信号中冲激性噪声的去除方法。
技术介绍
无线电电磁频谱管控是经济生产及安全防范中的重要内容,由于无线电广播技术自身的开放性,所有有发射需求的用户,只需要占据特定的频段,即可通过发射信号进行广播。因此,时常有出于不同目的用户,在批准发射的频率之外,擅自占据频段进行广播发射,俗称“黑广播”。黑广播主要以售卖假冒伪劣产品居多,严重扰乱经济秩序;或者是扰乱正常电子通讯的运转;某些情况下甚至会干扰关键性通讯设备,引发严重的安全隐患。因此,进行有效的无线电电磁频谱管控,是一件意义重大的课题。传统的无线电电磁频谱管控,主要是基于人工收听并识别的方法,具有成本高、效率低、操作人员疲劳易引发失误等缺点;随着人工智能的发展,采用人工智能技术来识别黑广播的方法也开始进入研究,但是,由于广播通常对音质没有过高要求,所以广播录音通常噪声很大,比如电流杂音、外界环境声音、说话者语气词等。对广播录音进行关键词的识别得到的结果准确率很低、误识率较高。在去除录音信号中的冲激性噪声方面,传统的中值滤波的做法是在滑动窗口内对中心值和周围的其他所有值进行排序,得到一个中间值,以该中位数直接来替换掉原中心值,它是一种非线性的图像平滑法,它对脉冲干扰级椒盐噪声的抑制效果好,在抑制随机噪声的同时能有效保护边缘少受模糊。但是如果语音中某一段内出现高密度脉冲干扰,这样在该区域滑动窗口内的中位数会受到污染,进而导致滤波不够彻底,导致广播录音信号中的冲激性噪声不能被彻底的去除。
技术实现思路
本专利技术目的在于解决语音中某一段内出现高密度脉冲干扰时,传统中值滤波法滤波过程中滑动窗口内的中位数会受到污染,进而导致滤波不够彻底的问题,提供了语音信号中冲激性噪声的去除方法,通过先检测用来替换的中位数是否受到污染,如受到污染用左临近值代替受脉冲干扰污染后中位数的方法;可以更有效的去除语音段中的冲激性噪声。本专利技术通过下述技术方案实现:语音信号中冲激性噪声的去除方法,包括以下步骤:步骤一、对含有普通话的待处理语音段进行分帧,得到分帧后的语音时域序列Yi(n),i=0,1,2,…N-1,N表示帧数;步骤二、根据步骤一中分帧后的待处理语音段建立滑动窗口S(z),z=0、1、2…、Z,Z为窗口大小;步骤三、将该滑动窗口S(z)沿步骤一得到的语音时域序列Yi(n)方向进行滑动;初始时z值为0,每移动一次滑动窗口S(z),z值加1;步骤四、每次移动后,定义当前窗口内的语音时域序列段为Yi,j(n),对窗口内语音时域序列段Yi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个采样点;步骤五、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out;步骤六、分别对含有离群点窗口中的各个离群点gi,out进行排序,找出各自窗口中离群点gi,out的绝对值最大的点max{gi,out},用各自窗口中的绝对值最大离群点max{gi,out}与原语音时域序列Yi(n)对应位置相加即可求出其对应窗口中该点的语音时域序列值Yi,maxout(n),即语音冲激值;步骤七、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值Yi,out(n)并进行排序,求各自窗口内语音时域序列值Yi,out(n)的中位数Yi,med(n),在各自窗口内比较冲激值Yi,maxout(n)与中位数Yi,med(n)的大小;若语音冲激值Yi,maxout(n)大于中位数Yi,med(n)则中位数Yi,med(n)可靠,用该中位数Yi,med(n)替换该窗口内的中心值;若语音冲激值Yi,maxout(n)小于中位数Yi,med(n)则中位数Yi,med(n)不可靠,用中位数Yi,med(n)的左临近值Yi,medleft(n)替换该窗口内的中心值;得到新的语音时域序列Yi(n)'。在去除录音信号中的冲激性噪声方面,传统的中值滤波的做法是在滑动窗口内对中心值和周围的其他所有值进行排序,得到一个中间值(中位数),以该中位数直接来替换掉原中心值,它是一种非线性的平滑法,对脉冲干扰级椒盐噪声的抑制效果好,在抑制随机噪声的同时能有效保护边缘少受模糊。但是如果语音中某一段内出现高密度脉冲干扰,这样在该区域滑动窗口内的中位数会受到污染,进而导致滤波不够彻底,导致广播录音信号中的冲激性噪声不能被彻底的去除。专利技术人根据传统的中值滤波法所存在的缺点出发,针对上述问题提出了一种新的去除冲激性噪声的方法:主要是通过检测语音差分序列的离群点来判断脉冲干扰点存在的位置,再通过比较中位数与脉冲干扰点的能量值大小来判定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的左临近值代替中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值。因为对于一段广播录音,由于其具有不同的状态,含中文普通话、各种噪声、背景音乐等几种不同声音类别,所以不能一概而论,要在去噪前要先对其进行分段处理,再判定语音段是否含有普通话;由于我们去噪的目的是进行后续的关键词识别,因此我们只需要对含普通话语音段做去噪处理,不含普通话语音段则不做处理;由于分段后一段语音信号整体上看不是平稳的,但是在局部上可以看作是平稳的,在后期的语音处理中需要输入的是平稳信号,所以要对整段语音信号分帧,也就是将含普通话语音段切分成很多的小段,每个小段中的信号可以看成是平稳的,对每个小段进行一定频率的采样,通常为8jHz、16jHz等,再将该小段中的所有采样点集合成一个观测单位,称为帧,语音去噪的单位就是帧,这里定义该小段中采样点的个数为N;通常情况下N的值为256或512,涵盖的时间约为20-30ns,所以不同的程序中一帧的长度不一样。由于分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大,加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征,加窗的目的就是一次仅处理窗中的数据,因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理,故而在语音信号处理中采用了加汉明窗的方式,因为加上汉明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以在移窗时,移动1/3或1/2窗,这样被前一帧或二帧丢失的数据又重新得到了体现;在进行完上述准备工作之后便着手于去除冲激性噪声了,在传统的中值滤波法的基础上,增加了步骤五、步骤六和步骤七,通过检测语音时域序列Yi(n)中的离群点来判断脉冲干扰点存在的位置,再通过比较中位数与脉冲干扰点的能量值大小来判定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的左临近值代替中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值。专利技术人通过对比处理前后该语音段的波形图发现,原始带噪语音含有很多尖峰脉冲,即冲激性噪声,经由步骤一至步骤七处理后,波形图更加平滑了,尖峰脉冲被平滑掉了,语音质量有了较大提升,语音信噪比也大大提高,从而得知经本方法滤波后,有效的去除了该语音段中的冲激性噪声。进一步的,步骤五中通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out的具体步骤如下:本文档来自技高网...

【技术保护点】
1.语音信号中冲激性噪声的去除方法,其特征在于,包括以下步骤:步骤一、对含有普通话的待处理语音段进行分帧,得到分帧后的语音时域序列Yi(n),i=0,1,2,…N‑1,N表示帧数;步骤二、根据步骤一中分帧后的待处理语音段建立滑动窗口S(z),z=0、1、2…、Z,Z为窗口大小;步骤三、将该滑动窗口S(z)沿步骤一得到的语音时域序列Yi(n)方向进行滑动;初始时z值为0,每移动一次滑动窗口S(z),z值加1;步骤四、每次移动后,定义当前窗口内的语音时域序列段为Yi,j(n),对窗口内语音时域序列段Yi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个采样点;步骤五、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out;步骤六、分别对含有离群点窗口中的各个离群点gi,out进行排序,找出各自窗口中离群点gi,out的绝对值最大的点max{gi,out},用各自窗口中的绝对值最大离群点max{gi,out}与原语音时域序列Yi(n)对应位置相加即可求出其对应窗口中该点的语音时域序列值Yi,max out(n),即语音冲激值;步骤七、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值Yi,out(n)并进行排序,求各自窗口内语音时域序列值Yi,out(n)的中位数Yi,med(n),在各自窗口内比较冲激值Yi,max out(n)与中位数Yi,med(n)的大小;若语音冲激值Yi,max out(n)大于中位数Yi,med(n)则中位数Yi,med(n)可靠,用该中位数Yi,med(n)替换该窗口内的中心值;若语音冲激值Yi,max out(n)小于中位数Yi,med(n)则中位数Yi,med(n)不可靠,用中位数Yi,med(n)的左临近值Yi,med left(n)替换该窗口内的中心值;得到新的语音时域序列Yi(n)'。...

【技术特征摘要】
1.语音信号中冲激性噪声的去除方法,其特征在于,包括以下步骤:步骤一、对含有普通话的待处理语音段进行分帧,得到分帧后的语音时域序列Yi(n),i=0,1,2,…N-1,N表示帧数;步骤二、根据步骤一中分帧后的待处理语音段建立滑动窗口S(z),z=0、1、2…、Z,Z为窗口大小;步骤三、将该滑动窗口S(z)沿步骤一得到的语音时域序列Yi(n)方向进行滑动;初始时z值为0,每移动一次滑动窗口S(z),z值加1;步骤四、每次移动后,定义当前窗口内的语音时域序列段为Yi,j(n),对窗口内语音时域序列段Yi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个采样点;步骤五、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out;步骤六、分别对含有离群点窗口中的各个离群点gi,out进行排序,找出各自窗口中离群点gi,out的绝对值最大的点max{gi,out},用各自窗口中的绝对值最大离群点max{gi,out}与原语音时域序列Yi(n)对应位置相加即可求出其对应窗口中该点的语音时域序列值Yi,maxout(n),即语音冲激值;步骤七、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值Yi,out(n)并进行排序,求各自窗口内语音时域序列值Yi,out(n)的中位数Yi,med(n),在各自窗口内比较冲激值Yi,maxout(n)与中位数Yi,med(n)的大小;若语音冲激值Yi,maxout(n)大于中位数Yi,med(n)则中位数Yi,med(n)可靠,用该中位数Yi,med(n)替换该窗口内的中心值;若语音冲激值Yi,maxout(n)小于中位数Yi,med(n)则中位数Yi,med(n)不可靠...

【专利技术属性】
技术研发人员:雒瑞森王琛费绍敏冯谦郑海元龚晓峰
申请(专利权)人:四川大学成都大公博创信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1