当前位置: 首页 > 专利查询>河海大学专利>正文

一种用于语音识别系统的中心子带模型自适应方法技术方案

技术编号:11100167 阅读:72 留言:0更新日期:2015-03-04 11:58
本发明专利技术公开一种用于语音识别系统的中心子带模型自适应方法,通过Mel滤波器组的每个通道与其相邻的通道共享自适应数据,进一步增加参数估计的数据量,解决数据稀疏问题;同时,每个Mel通道保留各自的环境变换关系,以每个Mel通道为中心通道,与其前后各若干个Mel通道共享自适应数据,估计变换参数,估得的变换参数仅用于当前中心Mel通道。在参数估计中,将Mel滤波器组全部通道的环境变换关系划分为Nm类,每一类的变换参数通过对Mel滤波器组通道的一次子带划分及其子带自适应得到。本发明专利技术可以提高非平稳环境下自适应数据稀疏时语音识别系统的性能,提高系统的鲁棒性。

【技术实现步骤摘要】

本专利技术属于语音识别
,具体涉及到用测试环境下的少量自适应语音调整 训练环境下得到的声学模型的参数,使之与实际环境相匹配,提高语音识别系统鲁棒性的 模型自适应方法。
技术介绍
由于环境噪声、说话人的改变等因素的存在,实际环境与训练环境往往存在较大 的差异,这会导致语音识别系统的性能急剧下降。鲁棒语音识别的目的就是减小环境失配 的影响,提高语音识别系统在实际应用中的识别性能。 -般来说,鲁棒语音识别算法可以划分为两类:前端特征域方法和后端模型域方 法。在前端特征补偿中,对测试环境下提取的特征参数进行补偿,使之与预先训练的声学模 型相匹配。在后端,对预先训练的声学模型的参数进行调整,使之与当前环境下的特征参数 相匹配,这类方法称为模型自适应。相对于前端特征补偿,模型自适应能同时减小语音变异 性和环境噪声的影响,因而可以得到更好的补偿效果。 为了解决数据稀疏问题,最大似然线性回归(MLLR:MaximumLikelihoodLinear Regression)算法假设环境失配只影响声学模型每个高斯单元的均值向量,因而只需要将 训练环境声学模型的每个均值向量变换到测试环境,即可得到与当前环境匹配的测试环境 均值向量。在MLLR算法中,属于多个高斯单元的自适应数据被用于估计同一组变换参数, 因而可以提高数据稀疏时参数估计的准确性。 在子带算法中,Mel滤波器组的全部通道被划分为几个子带,假设同一个子带内的 所有通道共享同一个环境变换函数,因此可以进一步增加参数估计的数据量,提高模型自 适应的精度。然而,这种子带假设也会给模型变换带来不利影响,因为不同通道的环境变换 关系实际上是不同的。尤其当一个子带包含较多Mel通道时,第一个和最后一个通道的频 域距离较远,因而它们的环境变换关系可能存在较大的差异,假设它们符合同一个环境变 换函数,有可能导致不准确的参数估计和模型变换。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术提供了一种用于语音识别系统的 中心子带模型自适应方法,在该方法中,假设Mel滤波器组的每个通道与其相邻的通道共 享自适应数据,以增加参数估计的数据量;同时,估得的变换参数仅用于当前中心通道,不 用于其他通道,每个通道有各自的环境变换关系。在中心子带自适应模块中,利用测试环 境下的少量自适应语音对训练环境下生成的声学模型进行参数变换,得到测试环境声学模 型,然后直接对测试语音进行声学解码,得到识别结果。 技术方案:,包括: (l)IDCT:对训练环境声学模型每个高斯单元的倒谱均值进行逆离散余弦变换 (IDCT:InverseDiscreteCosineTransform),得到训练环境对数谱域均值向量。 (2)Mel通道分类:将Mel滤波器组全部通道上的环境变换参数划分为Nm类,每一 类包括若干个通道上的变换参数。 (3)子带参数估计:对每一类参数,通过对Mel滤波器组全部通道的一次子带划分 及其子带自适应估得。Nm类参数估计可以通过并行计算,提高计算速度。 (4)对数谱域模型变换:经过Nm次子带自适应,得到变换参数后,即可对训练环境 对数谱域均值向量进行变换,得到测试环境对数谱域均值向量。 (5)DCT:对测试环境对数谱域均值向量进行离散余弦变换(DCT:DiscreteCosine Transform),得到测试环境倒谱均值向量,从而得到测试环境声学模型。 有益效果:与现有技术相比,本专利技术通过Mel滤波器组的每个通道与其相邻的通 道共享自适应数据,增加参数估计的数据量;同时,估得的变换参数仅用于当前中心通道, 不用于其相邻通道。每个通道都与各自的相邻通道共享自适应数据,得到各自的环境变换 参数。本专利技术可以提高非平稳环境下自适应数据稀疏时语音识别系统的性能,提高系统的 鲁棒性。 【附图说明】 图1为声学识别过程框架图; 图2为本专利技术实施例的方法流程图。 【具体实施方式】 下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术 而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。 如图1所示,中心子带自适应模块是本专利技术方法的核心模块,如图2所示,本专利技术 的中心子带自适应方法主要包括倒谱均值向量的逆离散余弦变换(IDCT)、对数谱均值分量 的Mel通道分类、子带变换参数估计、对数谱域模型变换和对数谱均值向量的离散余弦变 换(DCT)。下面详细说明中心子带自适应方法的具体实施方案。 1、中心子带变换 本专利技术用连续密度隐马尔可夫模型(HMM:HiddenMarkovModel)作为语音识别系 统每个语音单元的声学模型,HMM的第i个状态的概率密度函数可以表示为:本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/21/201410695733.html" title="一种用于语音识别系统的中心子带模型自适应方法原文来自X技术">用于语音识别系统的中心子带模型自适应方法</a>

【技术保护点】
一种用于语音识别系统的中心子带模型自适应方法,其特征在于,具体包括:(1)为了解决模型自适应的数据稀疏问题,进一步增加参数估计的数据量,对频域上相邻Mel通道的自适应数据进行合并,估计同一组变换参数;(2)每个Mel通道保留各自的环境变换关系,以每个Mel通道为中心通道,与其前后各若干个Mel通道共享自适应数据,估计变换参数,估得的变换参数仅用于当前中心Mel通道,其他Mel通道的变换参数需要重新估计;(3)第一个Mel通道仅与其后面的若干个通道共享自适应数据,最后一个Mel通道仅与其前面若干个通道共享自适应数据;(4)Mel滤波器组每个通道的变换参数不需要一一估计,而是将其划分为Nm类,每一类的变换参数通过对Mel滤波器组全部通道的一次子带划分及其子带自适应得到。

【技术特征摘要】
1. 一种用于语音识别系统的中心子带模型自适应方法,其特征在于,具体包括: (1) 为了解决模型自适应的数据稀疏问题,进一步增加参数估计的数据量,对频域上相 邻Mel通道的自适应数据进行合并,估计同一组变换参数; (2) 每个Mel通道保留各自的环境变换关系,以每个Mel通道为中心通道,与其前后各 若干个Mel通道共享自适应数据,估计变换参数,估得的变换参数仅用于当前中心Mel通 道,其他Mel通道的变换参数需要重新估计; (3) 第一个Mel通道仅与其后面的若干个通道共享自适应数据,最后一个Mel通道仅与 其前面若干个通道共享自适应数据; (4) Mel滤波器组每个通道的变换参数不需要一...

【专利技术属性】
技术研发人员:吕勇
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1