Sphinx语速识别中背景降噪的优化方法技术

技术编号:16130719 阅读:20 留言:0更新日期:2017-09-01 21:46
本发明专利技术涉及一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,利用后继音频中的静音,重复噪声频谱提取算法,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。本发明专利技术Sphinx语速识别中背景降噪的优化方法,对使用的噪声频谱做及时修正,修正噪声频谱的方法是使用后继音频中的静音,重复噪声频谱提取算法,得到新的噪声频谱,并将之用于修正降噪所用的噪声频谱,可以从返回指定时间解析出的音素个数来实现语速识别的业务,提高降噪效果。

【技术实现步骤摘要】
Sphinx语速识别中背景降噪的优化方法
本专利技术涉及一种音频噪音处理方法,具体的说,是涉及一种Sphinx语速识别中背景降噪的优化方法。
技术介绍
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。一般一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,语言模型训练和解码器。以下为连续语音识别步骤如下:(1)预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。(2)特征提取去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC:MelFrequencyCepstralCoefficient)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用快速傅里叶变换(FFT:FastFourierTransform)将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换(DCT:DiscreteCosineTransform),取前N个系数。在sphinx中,用帧(frames)去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。(3)声学模型训练根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型(HMM:HiddenMarkovModel)进行声学模型建模。声学模型的建模单元,可以是音素,音节,词等各个层次。对于小词汇量的语音识别系统,可以直接采用音节进行建模。而对于词汇量偏大的识别系统,一般选取音素,即声母,韵母进行建模。识别规模越大,识别单元选取的越小。HMM是对语音信号的时间序列结构建立统计模型,将其看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含(马尔可夫模型的内部状态外界不可见)的随机过程,另一个是与Markov链的每一个状态相关联的外界可见的观测序列(通常就是从各个帧计算而得的声学特征)的随机过程。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流(发出的声音)。HMM合理地模仿了这一过程,是较为理想的一种语音模型。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM(4)语言模型训练语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下,预测下一个即将出现的词语的内容。换一个说法,即语言模型是用来约束单词搜索的。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。语言模型分为三个层次:字典知识,语法知识,句法知识。对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。语言建模方法主要有基于规则模型和基于统计模型两种方法。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N元语法(N-Gram)模型简单有效,被广泛使用。它包含了单词序列的统计。N-Gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。Sphinx中是采用二元语法和三元语法的统计语言概率模型,也就是通过前一个或两个单词来判定当前单词出现的概率P(w2|w1),P(w3|w2,w1)。(5)语音解码和搜索算法解码器,即指语音技术中的识别过程。针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法:是指在解码端通过搜索技术寻找最优词串的方法。连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。当今的主流解码技术都是基于维特比(Viterbi)搜索算法的,Sphinx也是。基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法本质上是一种动态规划算法,该算法遍历HMM状态网络并保留每一帧语音在某个状态的最优路径得分。连续语音识别系统的识别结果是一个词序列。解码实际上是对词表的所有词反复搜索。词表中词的排列方式会影响搜索的速度,而词的排列方式就是字典的表示形式。Sphinx系统中采用音素作为声学训练单元,通常字典就用来记录每个单词由哪些个音素组成,也可以理解为对每个词的发音进行标注。N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源(如声学模型、语言模型和音标词典),产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源(如4阶或5阶的N-Gram、4阶或更高的上下文相关模型)的第二遍搜索得到最佳路径。Sphinx是一套开源的语音识别解决方案,是针对大词汇量、非特定人、连续英语语音识别系统。应用连续不断的向sphinx输入PCM数据,sphinx是先通过背景噪声取样来提取背景噪声,最终计算出背景噪声频谱。使用这一方法获取噪声频谱的前提是假设音频起始处的一小段语音是背景噪声。得到噪声的频谱后,背景降噪的过程,就是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中,从而得到降噪后的语音数据。降噪后的语音数据,又经过端点检测(VAD:VoiceActivityDetectio本文档来自技高网...
Sphinx语速识别中背景降噪的优化方法

【技术保护点】
一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,其特征在于,利用后继音频中的静音,重复噪声频谱提取算法,得到修正后的噪声频谱,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。

【技术特征摘要】
1.一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,其特征在于,利用后继音频中的静音,重复噪声频谱提取算法,得到修正后的噪声频谱,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。2.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法,其特征在于:sphinx的接口传入的PCM音频数据所代表的时长是固定值。3.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法,其特征在于:第一次传给sphinx的PCM数据,背景降噪取样会把其提取PCM音频数据,直接计算出频...

【专利技术属性】
技术研发人员:沈卫忠陈靖
申请(专利权)人:北京大生在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1