噪声抑制、提取特征、训练模型及语音识别的方法和装置制造方法及图纸

技术编号：3044991 阅读：215 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了噪声抑制方法，平滑语音谱的方法，提取语音特征的方法，语音识别方法及训练语音模型的方法和装置。本发明专利技术的噪声抑制方法通过最小均方误差估计进行，其中采用分段线性函数来近似合流超几何函数，从而能够极大的减少计算量，同时保持抑制噪声性能。此外，本发明专利技术为了避免产生能量极低的语音谱成分，在最小均方误差估计之后利用几何数列权重对语音谱在时间轴和频率轴进行平滑。此外，本发明专利技术通过调整先验ＳＮＲ来控制噪声抑制和语音失真之间的平衡。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别技术，以及语音谱的噪声抑制技术和语音谱平滑技术。
技术介绍
目前流行的语音识别系统对纯净语音能够获得非常高的识别精度，但由于噪声带来声学模型和声学特征之间的失配，在噪声环境下现有的语音识别系统的性能会急剧下降。在噪声稳健性方面的工作主要集中在前端设计，目的是减少噪声带来的在语音特征空间的失配。最小均方误差(Minimum Mean-Square Error，MMSE)估计是一种语音增强算法，其能够有效地抑制背景噪声，从而提高输入信号的信噪比(Signal-to-Noise Ratio，SNR)。对于最小均方误差估计，在Y.Ephraim和D.Malah的文献″Speech enhancement using aminimum mean-square error short-time spectral amplitude estimator″，IEEE Trans.Acoustic，Speech，and Signal Processing，Vol.ASSP-32，PP.1109-1121，1984中进行了详细的描述。在该文献中，利用MMSE估计对短时谱幅度(Short-Time Spectral Amplitude，STSA)进行了估计，并提出了利用MMSE STSA估计的系统，以及将该系统与广泛使用的基于Wiener滤波和减谱算法(Spectral Subtraction Algorithm)的系统进行了比较。以上文献的全部内容以引用方式包含于此，以供参考。在前端采用MMSE增强对提高稳健性是有积极作用，但在此框架中，有三个问题必...

【技术保护点】
一种用于含噪声语音谱的噪声抑制方法，包括：根据噪声估计谱，对所述含噪声语音谱进行最小均方误差估计，以降低所述含噪声语音谱的噪声；其中，用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。

【技术特征摘要】
1.一种用于含噪声语音谱的噪声抑制方法，包括根据噪声估计谱，对所述含噪声语音谱进行最小均方误差估计，以降低所述含噪声语音谱的噪声；其中，用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。2.根据权利要求1所述的噪声抑制方法，其中，利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数，进行所述最小均方误差估计。3.根据权利要求2所述的噪声抑制方法，其中，所述分段线性函数的所述预先设定的分割点通过以下步骤获得计算所述合流超几何函数的导数；设定所述分段线性函数的初始分割点；计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述合流超几何函数之间的差别；如果所述差别大于一阈值，在所述两个连续分割点之间插入一个新的分割点；以及重复所述计算差别的步骤及其之后的步骤，直到没有所述差别大于所述阈值。4.根据权利要求1-3中的任意一项所述的噪声抑制方法，其中，所述最小均方误差估计通过以下公式进行A^k=C&upsi;kγkL(&upsi;k)Rk,]]>其中&upsi;k=ξk1+ξkγk,]]>其中表示所述噪声降低的语音谱，Rk表示所述含噪声语音谱，C是常数，ξk是根据所述噪声估计谱获得的先验信噪比，γk是根据所述噪声估计谱和所述含噪声语音谱获得的后验信噪比，L(υk)是所述分段线性函数，以及k表示第k个谱分量。5.一种用于含噪声语音谱的噪声抑制方法，包括根据先验信噪比，对所述含噪声语音谱进行最小均方误差估计，以降低所述含噪声语音谱的噪声；以及调整所述先验信噪比以获得合适的噪声抑制。6.根据权利要求5所述的噪声抑制方法，其中，所述先验信噪比根据噪声估计谱获得。7.根据权利要求5或6所述的噪声抑制方法，其中所述调整步骤增加所述先验信噪比以减小所述噪声抑制，或减小所述先验信噪比以增加所述噪声抑制。8.根据权利要求5-7中的任意一项所述的噪声抑制方法，其中用分段线性函数代替合流超几何函数来进行所述最小均方误差估计。9.根据权利要求8所述的噪声抑制方法，其中，利用预先设定的分割点将所述合流超几何函数变换为所述分段线性函数，进行所述最小均方误差估计。10.根据权利要求9所述的噪声抑制方法，其中，所述分段线性函数的所述预先设定的分割点通过以下步骤获得计算所述合流超几何函数的导数；设定所述分段线性函数的初始分割点；计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数和所述合流超几何函数之间的差别；如果所述差别大于一阈值，在所述两个连续分割点之间插入一个新的分割点；以及重复所述计算差别的步骤及其之后的步骤，直到没有所述差别大于所述阈值。11.根据权利要求8-10中的任意一项所述的噪声抑制方法，其中，所述最小均方误差估计通过以下公式进行A^k=C&upsi;kγkL(&upsi;k)Rk,]]>其中&upsi;k=ξk1+ξkγk,]]>其中表示所述噪声降低的语音谱，Rk表示所述含噪声语音谱，C是常数，ξk是根据所述噪声估计谱获得的先验信噪比，γk是根据所述噪声估计谱和所述含噪声语音谱获得的后验信噪比，L(υk)是所述分段线性函数，以及k表示第k个谱分量。12.一种用于平滑语音谱的方法，包括利用几何数列权重计算上述语音谱中每个谱分量及其相邻谱分量的能量的加权平均；以及用上述计算出的加权平均修正该谱分量的能量。13.根据权利要求12所述的平滑语音谱的方法，其中，所述几何数列权重在所述谱分量处最大，在远离所述谱分量的方向上以几何数列递减。14.根据权利要求12或13所述的平滑语音谱的方法，其中上述计算加权平均的步骤包括计算该谱分量和其时间上相邻的同一频率的谱分量的能量的加权平均。15.根据权利要求12或13所述的平滑语音谱的方法，其中上述计算加权平均的步骤包括计算该谱分量和其频率上相邻的同一帧内的谱分量的能量的加权平均。16.根据权利要求12或13所述的平滑语音谱的方法，其中上述计算加权平均的步骤包括计算该谱分量、其时间上相邻的同一频率的谱分量以及其频率上相邻的同一帧内的谱分量的能量的加权平均。17.根据权利要求12-16中的任意一项所述的平滑语音谱的方法，还包括，在上述计算加权平均的步骤之前，利用上述权利要求1-11中的任意一项所述的噪声抑制方法对所述语音谱进行噪声抑制。18.一种用于提取语音特征的方法，包括将含噪声语音变换成含噪声语音谱；利用上述权利要求1-11中的任意一项所述的噪声抑制方法，降低所述含噪声语音谱的噪音；以及从所述噪声降低的语音谱提取语音特征。19.根据权利要求18所述的提取语音特征的方法，其中，所述变换步骤包括快速傅立叶变换。20.一种用于提取语音特征的方法，包括将语音变换成语音谱；利用上述权利要求12-17中的任意一项所述的平滑语音谱的方法，平滑所述语音谱；以及从所述平滑的语音谱提取语音特征。21.根据权利要求20所述的提取语音特征的方法，其中，所述变换步骤包括快速傅立叶变换。22.一种语音识别方法，包括利用上述权利要求18-21的任意一项所述的提取语音特征的方法，提取语音特征；以及根据所述提取出的语音特征，识别语音。23.一种训练语音模型的方法，包括利用上述权利要求18-21的任意一项所述的提取语音特征的方法，提取语音特征；以及根据所述提取出的语音特征，训练所述语音模型。24.一种语音识别方法，包括将含噪声语音变换成含噪声语音谱；利用上述权利要求5-11中的任意一项所述的噪声抑制方法，降低所述含噪声语音谱的噪音；从所述噪声降低的语音谱提取所述语音特征；根据所述提取出的语音特征，识别所述含噪声语音；以及根据语音识别的结果确定所述先验信噪比的最优值。25.一种用于含噪声语音谱的噪声抑制装置，包括估计单元(estimation ...

【专利技术属性】
技术研发人员：丁沛，何磊，郝杰，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人