Sphinx语速识别中背景降噪的优化方法技术

技术编号：16130719 阅读：20 留言：0更新日期：2017-09-01 21:46

本发明专利技术涉及一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，利用后继音频中的静音，重复噪声频谱提取算法，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。本发明专利技术Sphinx语速识别中背景降噪的优化方法，对使用的噪声频谱做及时修正，修正噪声频谱的方法是使用后继音频中的静音，重复噪声频谱提取算法，得到新的噪声频谱，并将之用于修正降噪所用的噪声频谱，可以从返回指定时间解析出的音素个数来实现语速识别的业务，提高降噪效果。

全部详细技术资料下载

【技术实现步骤摘要】
Sphinx语速识别中背景降噪的优化方法
本专利技术涉及一种音频噪音处理方法，具体的说，是涉及一种Sphinx语速识别中背景降噪的优化方法。
技术介绍
语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。一般一个连续语音识别系统大致可分为四个部分：特征提取，声学模型训练，语言模型训练和解码器。以下为连续语音识别步骤如下：(1)预处理模块对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。(2)特征提取去除语音信号中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理。目前的较常用的提取特征的方法还是比较多的，不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC:MelFrequencyCepstralCoefficient)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用快速傅里叶变换(FFT:FastFourierTransform)将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换(DCT:DiscreteCosineTransform)，取前N个系数。在sph...
Sphinx语速识别中背景降噪的优化方法

【技术保护点】
一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，其特征在于，利用后继音频中的静音，重复噪声频谱提取算法，得到修正后的噪声频谱，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。

【技术特征摘要】
1.一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，其特征在于，利用后继音频中的静音，重复噪声频谱提取算法，得到修正后的噪声频谱，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。2.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法，其特征在于：sphinx的接口传入的PCM音频数据所代表的时长是固定值。3.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法，其特征在于：第一次传给sphinx的PCM数据，背景降噪取样会把其提取PCM音频数据，直接计算出频...

【专利技术属性】
技术研发人员：沈卫忠，陈靖，
申请(专利权)人：北京大生在线科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人