基于心理声学模型的语音后置感知滤波器制造技术

技术编号:10092660 阅读:261 留言:0更新日期:2014-05-28 16:26
本发明专利技术涉及基于心理声学模型的语音后置感知滤波器,首先,该感知滤波器不需要融合在各个算法中,因而不会影响算法的复杂度,但是却获得了同样增强听觉感知度的效果。其次,它只是针对增强语音的再次处理的过程,使得增强语音的听觉感知度进一步的提高,即使噪声存在,信噪比没有提高的情况下,利用这个后置的感知滤波器,也能达到提高听觉感知度的目的;该后置感知滤波器是建立在语音信号失真最小的情况下使残留噪声尽可能不被人耳听到的条件下,且滤波器的增益是由在该条件下构建含有掩蔽阈值的代价函数获得,并由掩蔽阈值构建的感知归一化因子进一步优化,目的是避免了过度的削弱信号,保证了增强后语音感知失真最小。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及基于心理声学模型的语音后置感知滤波器,首先,该感知滤波器不需要融合在各个算法中,因而不会影响算法的复杂度,但是却获得了同样增强听觉感知度的效果。其次,它只是针对增强语音的再次处理的过程,使得增强语音的听觉感知度进一步的提高,即使噪声存在,信噪比没有提高的情况下,利用这个后置的感知滤波器,也能达到提高听觉感知度的目的;该后置感知滤波器是建立在语音信号失真最小的情况下使残留噪声尽可能不被人耳听到的条件下,且滤波器的增益是由在该条件下构建含有掩蔽阈值的代价函数获得,并由掩蔽阈值构建的感知归一化因子进一步优化,目的是避免了过度的削弱信号,保证了增强后语音感知失真最小。【专利说明】基于心理声学模型的语音后置感知滤波器
本专利技术涉及基于心理声学模型的语音后置感知滤波器。
技术介绍
目前,语音增强的各种算法都能不同程度地去除噪声,但是或多或少还存在残留噪声和音乐噪声,影响了语音的质量,所以需要进一步消除它;再加上对语音的评价最终依赖于人的听觉感受,因而对语音增强的研究应结合运用人类听觉系统对语音的感知特性,即人耳的掩蔽效应,对不需要的噪声有特殊抑制功能,使增强后的语音尽可能地降低听觉疲劳度、改善听觉感受性,起到提高语音质量的效能。所以,结合人耳听觉特性中的掩蔽效应对语音增强的性能有着非常重要的作用。近年来,有许多专家学者对基于人耳掩蔽效应的语音增强作了研究,并取得了一定的效果。但这些算法都是建立在同别的算法进行融合的基础上,使原本的算法因为加入了掩蔽模型的计算更加复杂,甚至不能实时实现。针对这个问题,本章提出了一种基于掩蔽效应的后置感知滤波器,并把它运用在语音增强中。
技术实现思路
本专利技术针对增强后的语音存在残留噪声,导致听觉感知度差的问题,提出一种基于心理声学模型的后置感知滤波器,并把它运用在语音增强中。首先,该感知滤波器不需要融合在各个算法中,因而不会影响算法的复杂度,但是却获得了同样增强听觉感知度的效果。其次,它只是针对增强语音的再次处理的过程,使得增强语音的听觉感知度进一步的提高,即使噪声存在,信噪比没有提高的情况下,利用这个后置的感知滤波器,也能达到提高听觉感知度的目的;该后置感知滤波器是建立在语音信号失真最小的情况下使残留噪声尽可能不被人耳听到的条件下,且滤波器的增益是由在该条件下构建含有掩蔽阈值的代价函数获得,并由掩蔽阈值构建的感`知归一化因子进一步优化,目的是避免了过度的削弱信号,保证了增强后语音感知失真最小。如图1所示,具体方案为:I)带噪语音经过谱减法(这个方法可以改变)增强后,根据心理声学模型分帧计算每帧的掩蔽阈值。2)用第一步求解的掩蔽阈值构建代价函数,目的是保证语音信号失真最小的条件下、使残留噪声尽可能不被人耳听到。J = Ρ( ε 3) + μ (P( ε r)_E) = G~112E2+μ (IG12E)其中,Es = Sk(G-1)为语音失真,ε ^ = NkG为残留噪声。因为语音和噪声不相关,所以E(NkSk) = 0,语音失真的功率P(es)、残留噪声的功率P(e J。3)通过使代价函数最下,求解感知滤波器的增益。4)为了避免过度的削弱信号,再用感知归一化因子对感知滤波器进行修正,避免了过度的削弱信号,保证了增强后语音感知失真最小。感知归一化因子为【权利要求】1.基于心理声学模型的语音后置感知滤波器,其特征在于: 在所述滤波器中, 1)带噪语音经过连续可导的谱减法增强后,根据心理声学模型分帧计算每帧的掩蔽阈值; 2)用第一步求解的掩蔽阈值构建代价函数: 【文档编号】G10L21/0208GK103824562SQ201410046572【公开日】2014年5月28日 申请日期:2014年2月10日 优先权日:2014年2月10日 【专利技术者】贾海蓉, 李鸿燕, 武奕峰, 张雪英 申请人:太原理工大学本文档来自技高网
...

【技术保护点】
基于心理声学模型的语音后置感知滤波器,其特征在于:在所述滤波器中,1)带噪语音经过连续可导的谱减法增强后,根据心理声学模型分帧计算每帧的掩蔽阈值;2)用第一步求解的掩蔽阈值构建代价函数:J=P(εs)+μ(P(εr)‑E[Tk])=|G‑1|2E[|Sk|2]+μ(|G|2E[|Nk|2]‑E[Tk])其中,εs=Sk(G‑1)为语音失真,εr=NkG为残留噪声;E(NkSk)=0,语音失真的功率P(εs)、残留噪声的功率P(εr);3)通过使代价函数最下,求解感知滤波器的增益;4)再用感知归一化因子对感知滤波器进行修正,感知归一化因子为:其中,Tmin(l)为第1帧中的最小值,Tmax(l)为第1帧中的最大值,得到最终的感知滤波器的增益Gk为:Gk=1/max(θ*|Nk|2Tk,1)=1/max(θ*|Nk|Tk,1)]]>5)最后得到增强的语音。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾海蓉李鸿燕武奕峰张雪英
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1