噪声抑制、提取特征、训练模型及语音识别的方法和装置制造方法及图纸

技术编号:3044991 阅读:215 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法及训练语音模型的方法和装置。本发明专利技术的噪声抑制方法通过最小均方误差估计进行,其中采用分段线性函数来近似合流超几何函数,从而能够极大的减少计算量,同时保持抑制噪声性能。此外,本发明专利技术为了避免产生能量极低的语音谱成分,在最小均方误差估计之后利用几何数列权重对语音谱在时间轴和频率轴进行平滑。此外,本发明专利技术通过调整先验SNR来控制噪声抑制和语音失真之间的平衡。

【技术实现步骤摘要】

本专利技术涉及语音识别技术,以及语音谱的噪声抑制技术和语音谱平滑技术。
技术介绍
目前流行的语音识别系统对纯净语音能够获得非常高的识别精度,但由于噪声带来声学模型和声学特征之间的失配,在噪声环境下现有的语音识别系统的性能会急剧下降。在噪声稳健性方面的工作主要集中在前端设计,目的是减少噪声带来的在语音特征空间的失配。最小均方误差(Minimum Mean-Square Error,MMSE)估计是一种语音增强算法,其能够有效地抑制背景噪声,从而提高输入信号的信噪比(Signal-to-Noise Ratio,SNR)。对于最小均方误差估计,在Y.Ephraim和D.Malah的文献″Speech enhancement using aminimum mean-square error short-time spectral amplitude estimator″,IEEE Trans.Acoustic,Speech,and Signal Processing,Vol.ASSP-32,PP.1109-1121,1984中进行了详细的描述。在该文献中,利用MMSE估计对短时谱幅度(Short-Time Spectral Amplitude,STSA)进行了估计,并提出了利用MMSE STSA估计的系统,以及将该系统与广泛使用的基于Wiener滤波和减谱算法(Spectral Subtraction Algorithm)的系统进行了比较。以上文献的全部内容以引用方式包含于此,以供参考。在前端采用MMSE增强对提高稳健性是有积极作用,但在此框架中,有三个问题必须解决 1.对合流超几何函数的计算(通过泰勒级数求和计算)会导致巨大的计算量。2.由于对噪声的过渡抑制,在某些频段存在的极低能量会造成识别性能的下降。3.在MMSE估计中的策略对语音识别来说并不是最优的。
技术实现思路
为了解决上述现有技术中存在的问题,本专利技术提供了噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,平滑语音谱的装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本专利技术的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。根据本专利技术的另一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及调整所述先验信噪比以获得合适的噪声抑制。根据本专利技术的另一个方面,提供了一种用于平滑语音谱的方法,包括利用几何数列权重计算上述语音谱中每个谱分量及其相邻谱分量的能量的加权平均;以及用上述计算出的加权平均修正该谱分量的能量。根据本专利技术的另一个方面,提供了一种用于提取语音特征的方法,包括将含噪声语音变换成含噪声语音谱;利用上面所述的噪声抑制方法,降低所述含噪声语音谱的噪音;以及从所述噪声降低的语音谱提取语音特征。根据本专利技术的另一个方面,提供了一种用于提取语音特征的方法,包括将语音变换成语音谱;利用上面所述的平滑语音谱的方法,平滑所述语音谱;以及从所述平滑的语音谱提取语音特征。根据本专利技术的另一个方面,提供了一种语音识别方法,包括利用上面所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,识别语音。根据本专利技术的另一个方面,提供了一种训练语音模型的方法,包括利用上面所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,训练所述语音模型。根据本专利技术的另一个方面,提供了一种语音识别方法,包括将含噪声语音变换成含噪声语音谱;利用上面所述的噪声抑制方法,降低所述含噪声语音谱的噪音;从所述噪声降低的语音谱提取所述语音特征;根据所述提取出的语音特征,识别所述含噪声语音;以及根据语音识别的结果确定所述先验信噪比的最优值。根据本专利技术的另一个方面,提供了一种用于含噪声语音谱的噪声抑制装置,包括估计单元(estimation unit),根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,所述估计单元使用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。根据本专利技术的另一个方面,提供了一种用于含噪声语音谱的噪声抑制装置,包括估计单元(estimation unit),根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及调整单元(adjusting unit),用于调整所述先验信噪比以获得合适的噪声抑制。根据本专利技术的另一个方面,提供了一种用于平滑语音谱的装置,包括加权平均单元(weight-averaging unit),利用几何数列权重计算语音谱中多个相邻谱分量的能量的加权平均;以及平滑修正单元(smooth-correctingunit),对语音谱中每个谱分量的能量,利用所述加权平均单元计算出的该谱分量及其相邻谱分量的能量的加权平均来进行修正。根据本专利技术的另一个方面,提供了一种用于提取语音特征的装置,包括变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;以及提取单元(extracting unit),从所述噪声降低的语音谱提取所述语音特征。根据本专利技术的另一个方面,提供了一种用于提取语音特征的装置,包括变换单元(transforming unit),将语音变换成语音谱;上面所述的平滑语音谱的装置,用于平滑所述语音谱;以及提取单元(extracting unit),从所述平滑的语音谱提取所述语音特征。根据本专利技术的另一个方面,提供了一种语音识别装置,包括上面所述的提取语音特征的装置,用于提取语音特征;以及语音识别单元(speechrecognition unit),根据所述提取出的语音特征,识别语音。根据本专利技术的另一个方面,提供了一种训练语音模型的装置,包括上面所述的提取语音特征的装置,用于提取语音特征;以及模型训练单元(model-training unit),根据所述提取出的语音特征,训练所述语音模型。根据本专利技术的另一个方面,提供了一种语音识别装置,包括变换单元(transforming unit),将含噪声语音变换成含噪声语音谱;上面所述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;提取单元(extractingunit),从所述噪声降低的语音谱提取所述语音特征;语音识别单元(speechrecognition unit),根据所述提取出的语音特征,识别所述含噪声语音;以及确定装置(determination unit),根据语音识别的结果来确定所述先验信噪比的最优值。附图说明相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更好地了解本专利技术上述的特点、优点和目的。图1是根据本专利技术的一个实施例的噪声抑制方法的流程图;图2A-2D示出了设置分段线性函数的分割点的过程的一个实例,其中图2A示出了一个合流超几何函数的曲线,图2B示出了合流超几何函数的导数的曲线,本文档来自技高网
...

【技术保护点】
一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。

【技术特征摘要】
1.一种用于含噪声语音谱的噪声抑制方法,包括根据噪声估计谱,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。2.根据权利要求1所述的噪声抑制方法,其中,利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数,进行所述最小均方误差估计。3.根据权利要求2所述的噪声抑制方法,其中,所述分段线性函数的所述预先设定的分割点通过以下步骤获得计算所述合流超几何函数的导数;设定所述分段线性函数的初始分割点;计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述合流超几何函数之间的差别;如果所述差别大于一阈值,在所述两个连续分割点之间插入一个新的分割点;以及重复所述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。4.根据权利要求1-3中的任意一项所述的噪声抑制方法,其中,所述最小均方误差估计通过以下公式进行A^k=CυkγkL(υk)Rk,]]>其中υk=ξk1+ξkγk,]]>其中 表示所述噪声降低的语音谱,Rk表示所述含噪声语音谱,C是常数,ξk是根据所述噪声估计谱获得的先验信噪比,γk是根据所述噪声估计谱和所述含噪声语音谱获得的后验信噪比,L(υk)是所述分段线性函数,以及k表示第k个谱分量。5.一种用于含噪声语音谱的噪声抑制方法,包括根据先验信噪比,对所述含噪声语音谱进行最小均方误差估计,以降低所述含噪声语音谱的噪声;以及调整所述先验信噪比以获得合适的噪声抑制。6.根据权利要求5所述的噪声抑制方法,其中,所述先验信噪比根据噪声估计谱获得。7.根据权利要求5或6所述的噪声抑制方法,其中所述调整步骤增加所述先验信噪比以减小所述噪声抑制,或减小所述先验信噪比以增加所述噪声抑制。8.根据权利要求5-7中的任意一项所述的噪声抑制方法,其中用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。9.根据权利要求8所述的噪声抑制方法,其中,利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数,进行所述最小均方误差估计。10.根据权利要求9所述的噪声抑制方法,其中,所述分段线性函数的所述预先设定的分割点通过以下步骤获得计算所述合流超几何函数的导数;设定所述分段线性函数的初始分割点;计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述合流超几何函数之间的差别;如果所述差别大于一阈值,在所述两个连续分割点之间插入一个新的分割点;以及重复所述计算差别的步骤及其之后的步骤,直到没有所述差别大于所述阈值。11.根据权利要求8-10中的任意一项所述的噪声抑制方法,其中,所述最小均方误差估计通过以下公式进行A^k=CυkγkL(υk)Rk,]]>其中υk=ξk1+ξkγk,]]>其中 表示所述噪声降低的语音谱,Rk表示所述含噪声语音谱,C是常数,ξk是根据所述噪声估计谱获得的先验信噪比,γk是根据所述噪声估计谱和所述含噪声语音谱获得的后验信噪比,L(υk)是所述分段线性函数,以及k表示第k个谱分量。12.一种用于平滑语音谱的方法,包括利用几何数列权重计算上述语音谱中每个谱分量及其相邻谱分量的能量的加权平均;以及用上述计算出的加权平均修正该谱分量的能量。13.根据权利要求12所述的平滑语音谱的方法,其中,所述几何数列权重在所述谱分量处最大,在远离所述谱分量的方向上以几何数列递减。14.根据权利要求12或13所述的平滑语音谱的方法,其中上述计算加权平均的步骤包括计算该谱分量和其时间上相邻的同一频率的谱分量的能量的加权平均。15.根据权利要求12或13所述的平滑语音谱的方法,其中上述计算加权平均的步骤包括计算该谱分量和其频率上相邻的同一帧内的谱分量的能量的加权平均。16.根据权利要求12或13所述的平滑语音谱的方法,其中上述计算加权平均的步骤包括计算该谱分量、其时间上相邻的同一频率的谱分量以及其频率上相邻的同一帧内的谱分量的能量的加权平均。17.根据权利要求12-16中的任意一项所述的平滑语音谱的方法,还包括,在上述计算加权平均的步骤之前,利用上述权利要求1-11中的任意一项所述的噪声抑制方法对所述语音谱进行噪声抑制。18.一种用于提取语音特征的方法,包括将含噪声语音变换成含噪声语音谱;利用上述权利要求1-11中的任意一项所述的噪声抑制方法,降低所述含噪声语音谱的噪音;以及从所述噪声降低的语音谱提取语音特征。19.根据权利要求18所述的提取语音特征的方法,其中,所述变换步骤包括快速傅立叶变换。20.一种用于提取语音特征的方法,包括将语音变换成语音谱;利用上述权利要求12-17中的任意一项所述的平滑语音谱的方法,平滑所述语音谱;以及从所述平滑的语音谱提取语音特征。21.根据权利要求20所述的提取语音特征的方法,其中,所述变换步骤包括快速傅立叶变换。22.一种语音识别方法,包括利用上述权利要求18-21的任意一项所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,识别语音。23.一种训练语音模型的方法,包括利用上述权利要求18-21的任意一项所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,训练所述语音模型。24.一种语音识别方法,包括将含噪声语音变换成含噪声语音谱;利用上述权利要求5-11中的任意一项所述的噪声抑制方法,降低所述含噪声语音谱的噪音;从所述噪声降低的语音谱提取所述语音特征;根据所述提取出的语音特征,识别所述含噪声语音;以及根据语音识别的结果确定所述先验信噪比的最优值。25.一种用于含噪声语音谱的噪声抑制装置,包括估计单元(estimation ...

【专利技术属性】
技术研发人员:丁沛何磊郝杰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利