当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于声学模型阵列的鲁棒语音识别方法技术

技术编号:11116698 阅读:108 留言:0更新日期:2015-03-06 13:54
本发明专利技术公开一种基于声学模型阵列的鲁棒语音识别方法,包括训练阶段和测试阶段。在训练阶段,根据语音的最高频率为训练语音设定多个上限频率,提取多组特征向量,并进行模型训练,得到声学模型阵列。在测试阶段,首先根据测试环境下的少量自适应语音,估计测试语音的上限频率;然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型,并对其参数进行调整,得到测试环境声学模型;最后根据测试语音上限频率进行特征提取,得到含噪测试语音的特征向量,并用测试环境声学模型对其进行声学解码,得到识别结果。本发明专利技术可以提高噪声环境中语音识别系统的性能,提高系统的鲁棒性。

【技术实现步骤摘要】
-种基于声学模型阵列的鲁棒语音识别方法
本专利技术属于语音识别
,具体涉及到根据多个语音上限频率,提取多组不 同频率范围的特征向量,构建声学模型阵列,并对与测试语音上限频率相匹配的声学模型 进行补偿,提高语音识别系统鲁棒性的模型自适应方法。
技术介绍
在语音识别系统的实际应用中,由于环境噪声等语音变异性的影响,预先训练的 声学模型往往与测试环境下提取的特征参数不匹配,这会导致语音识别系统性能的严重下 降。因此,有必要对环境失配进行补偿,提高语音识别系统的识别性能。 在语音信号处理中,语音被分成一系列前后有部分采样值重叠的帧。对于大部分 帧来说,语音信号的基音及各次谐波只存在于频谱的低频部分;高频部分只含有少量语音 成分。因而,可以将语音信号的频谱划分为低频谐波部分和高频非周期部分。高频非周期部 分对安静环境下的语音识别有一定作用,因此被包含在特征参数中。然而,语音频谱的高频 部分能量较小,在噪声环境下,容易被噪声覆盖,因此在含噪测试环境下,含噪语音频谱的 高频部分为噪声成分,不仅不能给语音识别提供有效作用,而且会给后端的模型自适应带 来不利影响。因此,在噪声环境下,有必要估计含噪语音频谱中有效语音成分的上限频率, 然后根据该上限频率,去处高频部分,保留低频周期部分,用于语音识别。 一般来说,由于不同语音音节的发音强弱不同,即使在同一种含噪测试环境下,不 同帧的语音上限频率也是不同的。而语音识别系统一般采用隐马尔可夫模型(HMM:Hidden MarkovModel)作为声学模型,用于训练生成HMM的特征向量的频率范围或向量维数必须 相同。因此,在测试阶段的含噪语音上限频率估计中,必须采用一个平均值作为整个发音的 语音上限频率。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于声学模型阵列的鲁 棒语音识别方法。在训练阶段,首先根据语音的最高频率为训练语音设定N个上限频率;然 后分别以这N个频率为语音频谱的最高频率,提取特征向量,并进行模型训练,得到声学模 型阵列。在测试阶段,首先根据测试环境下的少量自适应语音,估计当前测试环境下语音的 上限频率;然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型,并对其参数 进行调整,得到测试环境声学模型;最后根据测试语音上限频率进行特征提取,得到含噪测 试语音的特征向量,并用测试环境声学模型对其进行声学解码,得到识别结果。 技术方案:,包括训练阶段和测试阶 段两部分,其中: 训练阶段的具体步骤包括: (1)根据语音的最高频率为训练语音设定N个上限频率,这N个上限频率在Mel频 域等间距分布; (2)分别以N个上限频率为语音频谱的最高频率,提取N组不同上限频率的特征向 量:特征1、特征2,…,特征N; (3)分别用特征1、特征2,…,特征N进行模型训练,得到N组不同的声学模型: 声学模型1、声学模型2,…,声学模型N,组成声学模型序列;声学模型序列中的每组声学 模型除了包括全部语音单元的声学模型外,还包括其特征对应的上限频率,用于后端的声 学模型选取; 测试阶段的具体步骤包括: (4)根据测试环境下的自适应语音估计当前测试环境下含噪语音的上限频率; (5)根据估得的测试语音上限频率,从声学模型阵列中选取与测试语音上限频率 匹配的声学模型; (6)根据自适应语音,对选取的声学模型的参数进行调整,使之与当前测试环境相 匹配,得到测试环境声学模型; (7)根据估得的测试语音上限频率,为含噪测试语音提取特征向量,并用模型自适 应得到的测试环境声学模型对其进行声学解码,得到识别结果。 有益效果:与现有技术相比,本专利技术根据多个语音上限频率,提取多组不同频率范 围的特征向量,构建声学模型阵列,并对与测试语音上限频率相匹配的声学模型进行补偿, 得到测试环境声学模型。用对应多个语音上限频率的声学模型阵列取代单一频率范围的声 学模型,预测实际环境下测试语音频谱的频率范围;在含噪测试环境下的语音识别中,只保 留含噪语音频谱的低频周期成分,去除语音上限频率以上的高频噪声部分,减小高频噪声 对模型自适应的影响,从而提高模型自适应的精度,得到与测试环境更加匹配的声学模型。 与传统的全频带模型自适应技术相比,本专利技术可以提高低信噪比环境下语音识别系统的性 能,增强系统的鲁棒性。 【附图说明】 图1为本专利技术实施例的方法流程图,方法包括训练阶段和测试阶段两个部分;训 练部分包括N路不同上限频率的特征提取及模型训练;测试部分包括语音上限频率估计、 模型选择、模型自适应、特征提取和声学解码5个模块。 【具体实施方式】 下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术 而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。 如图1所示,基于声学模型阵列的鲁棒语音识别方法,包括如下步骤: 1、训练语音上限频率设定: 设训练语音库中语音的最高频率为f_,首先将其转换到Mel频域:本文档来自技高网
...
一种基于声学模型阵列的鲁棒语音识别方法

【技术保护点】
一种基于声学模型阵列的鲁棒语音识别方法,其特征在于:包括训练阶段和测试阶段两部分;在训练阶段,首先根据语音的最高频率为训练语音设定N个上限频率;然后分别以这N个频率为语音频谱的最高频率,提取特征向量,并进行模型训练,得到声学模型阵列;在测试阶段,首先根据测试环境下的少量自适应语音,估计当前测试环境下语音的上限频率;然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型,并对其参数进行调整,得到测试环境声学模型;最后根据测试语音上限频率进行特征提取,得到含噪测试语音的特征向量,并用测试环境声学模型对其进行声学解码,得到识别结果。

【技术特征摘要】
1. 一种基于声学模型阵列的鲁棒语音识别方法,其特征在于:包括训练阶段和测试阶 段两部分;在训练阶段,首先根据语音的最高频率为训练语音设定N个上限频率;然后分 别以这N个频率为语音频谱的最高频率,提取特征向量,并进行模型训练,得到声学模型阵 列;在测试阶段,首先根据测试环境下的少量自适应语音,估计当前测试环境下语音的上限 频率;然后从声学模型阵列中选取与测试语音上限频率匹配的声学模型,并对其参数进行 调整,得到测试环境声学模型;最后根据测试语音上限频率进行特征提取,得到含噪测试语 音的特征向量,并用测试环境声学模型对其进行声学解码,得到识别结果。2. 根据权利要求1所述的基于声学模型阵列的鲁棒语音识别方法,其特征在于:训练 阶段 (1) 根据语音的最高频率为训练语音设定N个上限频率,这N个上限频率在Mel频域等 间距分布; (2) 分别以N个上限频率为语音频谱的最高频率,提取N组不同上限频率的特征向量: 特征1、特征2,…,特征N ; (3) 分别用特征1、特征2,…,特征N进行模型训练,得到N组不同的声学模型:声学 模型1、声学模型2,…,声学模型N,组成声学模型序列;声学模型序列中的每组声学模型 除了包括全部语音单元的声学模型外,还包括其特征对应的上限频率,用于后端的声学模 型选取。3. 根据权利要求2所述的基于声学模型阵列的鲁棒语音识别方法,其特征在于:测试 阶段 (4) 根据测试环境下的自适应语音估计当前测试环境...

【专利技术属性】
技术研发人员:吕勇
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1