基于改进的Mel频率尺度和相位修正的耳语音增强算法制造技术

技术编号:21037395 阅读:53 留言:0更新日期:2019-05-04 06:48
本发明专利技术公开了基于改进的Mel频率尺度和相位修正的耳语音增强算法:根据耳语音的特点,对正常语音的标准Mel频带进行了重新划分,在研究耳语音的共振峰频率和能量以及耳语音听觉模型的基础上,提出了一种其改进的Mel频率尺度(称为Mel_m尺度),在此基础上,对Mel_m尺度进行了改进并针对耳语音提出了一种新的尺度划分方法,称为Mel_improved尺度;本发明专利技术将谱减后的耳语音频谱与改变后的相位谱相结合来合成新的增强后的耳语音信号。补偿相位中的噪声估计值是通过使用补偿相位来获得初级增强耳语音信号,然后从含噪的耳语音频谱中减去噪声估计值来获得新的噪声估计谱。语谱图、客观评价和主观听力测试的实验结果表明,提出的耳语音增强算法优于同类可比较的其他耳语音增强算法。

【技术实现步骤摘要】
基于改进的Mel频率尺度和相位修正的耳语音增强算法
本专利技术涉及Mel频率尺度与耳语音增强算法领域,特别涉及基于改进的Mel频率尺度和相位修正的耳语音增强算法。
技术介绍
耳语音是人类交流过程中一种自然但又特殊的语言形式。耳语被定义为轻声说话但声带不振动以避免被偷听到的讲话方式。在许多公共场所,用耳语音进行交流是非常有必要的,如图书馆或会议厅等。耳语音的发声机制与正常语音不同。第一个不同之处在于,当耳语音发音时,声带没有振动,这点与噪声激励有点相似。第二个区别是气管和声道由于声带打开而耦合。正是由于这两个特点,尤其在嘈杂的环境中耳语音比正常语音更难检测。与正常语音相比,耳语音的第一共振峰频率向更高频率移动。同时,根据Sahar和John的研究表明,人耳对耳语音的敏感区域在第二共振峰频率附近,而不是在第一共振峰频率附近。目前,耳语音在国内外是比较新的研究课题,还处于研究初期。考虑到耳语音和正常语音之间声学特性的差异,常规的语音增强方法并不适用于耳语音增强。但是,在一定程度上,可以在语音增强算法的基础上对耳语音增强有一定的理论帮助。众所周知,人耳感知的灵敏度在频谱中是呈非线性变化的。从Fletcher的实验研究中可以得出结论,外围听觉系统的行为好像包含一组带通滤波器,具有重叠的通带。人耳基底膜上的每个位置对有限的频率范围做出响应,因此每个不同点对应于具有不同中心频率的滤波器。因此,临界频带的概念对于描述听觉感知具有重要意义。虽然Mel频率映射函数在正常语音增强中是有效的,但是它并不适合于耳语音增强。从以下方面可以看出(如图1):(1)由于正常语音的第一共振峰在能量集中区域附近,所以Mel频带划分时,特别关注正常语音第一共振峰区域,并且给予了较大的权重。然而对于耳语音而言,其第一共振峰比正常语音向上偏移1.3倍,这可能导致在非共振峰频段中的权重更大而在共振峰频段中的权重较小,从而影响耳语音增强性能。(2)对于正常语音而言,人耳的敏感区域在第一共振峰附近,并且第一共振峰的位置也是能量集中的区域,所以Mel频率尺度频带的划分加重了F1区域的权重。然而,耳语音并非如此。根据徐柏龄等人的研究,耳语音中的第二共振峰的能量有时会大于第一共振峰。同时,根据Sahar和John的实验结果,人耳对耳语音敏感区域在第二共振峰附近。因此,通过普通传统的正常语音Mel频率尺度划分加重第一共振峰的方法与实际人耳的听觉模型不一致。(3)由于对数曲线的特性,当线性频率f转换为Mel频率Mel(f)时,随着线性频率f的增加,Mel(f)在低频部分增长较快,放置的频段较多,权值较大,而高频部分增长较慢,频段较少,权值较小。对于耳语音,由于它没有基频,并且第一共振峰向上偏移,所以低于500Hz的耳语音能量较小。这些低频滤波器得到的功率谱主要是噪声信号的频谱,这将会影响耳语音增强的效果。所以需要基于改进的Mel频率尺度多带谱减法与修正相位谱结合产生修正后的复频谱来增强语音。为了评估提出算法的性能,采用客观评价和主观评价,来评价增强后耳语音的质量。
技术实现思路
为了解决上述问题,本专利技术提供了基于改进的Mel频率尺度和相位修正的耳语音增强算法,根据耳语音的特点,对正常语音的标准Mel频带进行了重新划分,该算法针对耳语音共振峰特征,在多带谱减法中引入了改进的Mel频率尺度,并对逆短时傅里叶变换(ISTFT)过程中的相位谱进行了修正。为了实现上述目的,本专利技术的技术方案为:基于改进的Mel频率尺度和相位修正的耳语音增强算法:根据耳语音的特点,对正常语音的标准Mel频带进行了重新划分,在研究耳语音的共振峰频率和能量以及耳语音听觉模型的基础上,提出了一种其改进的Mel频率尺度(称为Mel_m尺度),在此基础上,对Mel_m尺度进行了改进并针对耳语音提出了一种新的尺度划分方法,称为Mel_improved尺度;首先,假设线性频率从500Hz开始映射,则Mel_m频率映射可以设置如下:Mel_m(fwhispered)=C·log10(1+fwhispered/q)fwhispered≥500Hz(1)其次,由于耳语音的第一共振峰比正常语音向上偏移1.3倍,因此可以认为在第一共振峰F1附近存在以下公式:fwhispered=1.3·fnormal(2)结合公式(1),公式(2)和可以得到以下结果:因此,线性频率与Mel_m频率之间的映射关系如下:Mel_m(fwhispered)=2932·log10(1+fwhispered/910)fwhispered≥500Hz(4)与正常语音的标准Mel频率映射相比,Mel_m尺度有少量的修改,其更适合于处理正常语音。对本专利技术进一步的描述:Mel_m尺度可以解决耳语音中第一共振峰F1偏移的问题,但是仍存在人耳敏感区从F1向F2偏移的问题,这是由公式(1)引起的,因为它仍是一个对数函数,对数曲线的特点是低频权重大,高频权重小,根据耳语音的感知特性,需要使用频率映射函数来抑制高、低频,增强中间频率,通常,考虑到耳语音的第二共振峰的频率范围约为1500-2500Hz,则两者频率的映射如下:最后,为了满足映射函数的连续性及对第二共振峰频率权值的加重,Mel_improved尺度的频率映射公式是:与标准Mel频率尺度相比,Mel_m尺度提高了第一共振峰偏移的权重,并且改进的Mel_improved尺度映射对第二共振峰权值的加重明显优于前两种类型。对本专利技术进一步的描述:在计算补偿相位谱时,第一步是利用加性的实数与频率相关的补偿函数对含噪耳语音的复频谱进行补偿:YΓ(n,k)=Y(n,k)+Γ(n,k)(7)其中,相位谱补偿函数Γ(n,k)由以下给出:其中,Γ(n,k)应是关于F/2(采样率的一半)的反对称函数,以此来实现消除效果,λ是一个实数,其是由经验所确定的常数,φ(k)是反对称函数。对本专利技术进一步的描述:时不变反对称函数由下式给出:其中,对应于DSTF的非共轭向量的值是零加权的,由于噪声幅度估计是对称的,所以乘以时不变的反对称函数φ(k)得到一个反对称函数。与现有技术相比,本专利技术的有益效果:通过改进Mel频率尺度,将谱减后的耳语音频谱与改变后的相位谱相结合来合成新的增强后的耳语音信号。其中,补偿相位中的噪声估计值是通过使用补偿相位来获得初级增强耳语音信号,然后从含噪的耳语音频谱中减去噪声估计值来获得新的噪声估计谱。语谱图、客观评价和主观听力测试的实验结果表明,提出的耳语音增强算法优于同类可比较的其他耳语音增强算法。附图说明图1是本专利技术的线性频率与标准Mel频率尺度的映射关系图。图2是本专利技术的Mel频率尺度与线性频率的三种映射关系。图3是本专利技术在修正相位过程中改进的噪声估计的流程图。图4是本专利技术提出算法的结构框图。图5是本专利技术的语谱图。图6是本专利技术的不同噪声类型和输入信噪比。图7是本专利技术的残余噪声的独立测试。图8是本专利技术的耳语音失真的独立测试。具体实施方式下面将对本专利技术实施例中的技术方案结合附图进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:如图2所示,根据本文档来自技高网
...

【技术保护点】
1.基于改进的Mel频率尺度和相位修正的耳语音增强算法,其特征在于:根据耳语音的特点,对正常语音的标准Mel频带进行了重新划分,在研究耳语音的共振峰频率和能量以及耳语音听觉模型的基础上,提出了一种其改进的Mel频率尺度(称为Mel_m尺度),在此基础上,对Mel_m尺度进行了改进并针对耳语音提出了一种新的尺度划分方法,称为Mel_improved尺度;首先,假设线性频率从500Hz开始映射,则Mel_m频率映射可以设置如下:Mel_m(f

【技术特征摘要】
1.基于改进的Mel频率尺度和相位修正的耳语音增强算法,其特征在于:根据耳语音的特点,对正常语音的标准Mel频带进行了重新划分,在研究耳语音的共振峰频率和能量以及耳语音听觉模型的基础上,提出了一种其改进的Mel频率尺度(称为Mel_m尺度),在此基础上,对Mel_m尺度进行了改进并针对耳语音提出了一种新的尺度划分方法,称为Mel_improved尺度;首先,假设线性频率从500Hz开始映射,则Mel_m频率映射可以设置如下:Mel_m(fwhispered)=C·log10(1+fwhispered/q)fwhispered≥500Hz(1)其次,由于耳语音的第一共振峰比正常语音向上偏移1.3倍,因此可以认为在第一共振峰F1附近存在以下公式:fwhispered=1.3·fnormal(2)结合公式(1),公式(2)和可以得到以下结果:因此,线性频率与Mel_m频率之间的映射关系如下:Mel_m(fwhispered)=2932·log10(1+fwhispered/910)fwhispered≥500Hz(4)与正常语音的标准Mel频率映射相比,Mel_m尺度有少量的修改,其更适合于处理正常语音。2.根据权利要求1所述的基于改进的Mel频率尺度和相位修正的耳语音增强算法,其特征在于:Mel_m尺度可以解决耳语音中第一共振峰F1偏移的问题,但是仍存在人耳敏感区从F1...

【专利技术属性】
技术研发人员:李晨韦怡曾毓敏李天峰
申请(专利权)人:南京师范大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1