一种基于声学空间非线性流形结构的声学模型构建方法技术

技术编号:11779223 阅读:195 留言:0更新日期:2015-07-26 23:15
本发明专利技术涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明专利技术通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在该非线性低维流形结构上,估计其观测概率模型;每个状态模型由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部坐标矢量所决定;通过迭代过程,分别估计混合因子分析模型参数和各上下文相关状态模型参数。本发明专利技术所构建的声学模型的非线性假设条件更为合理,具有直观的物理意义,且声学模型中大量的参数是状态无关的,特别适用于训练数据量较少时的连续语音识别声学建模。

【技术实现步骤摘要】

本专利技术涉及,属于连续语 音识别

技术介绍
在连续语音识别中,为了反映同一音素在不同上下文环境中发音的不同,通常采 用上下文相关音素建模方法,即对每一个音素的不同音位变体,分别用一个隐马尔可夫模 型(HiddenMarkovModel,HMM)进行建模,其中每一个隐含状态的观测概率分布用高斯混 合模型(GaussianMixtureModel,GMM)或神经网络进行逼近。这种上下文相关模型的参 数数量庞大,即使采用状态绑定等方法来减少状态个数,典型的连续语音识别系统参数数 量仍然在百万级以上。为了训练得到一个性能良好的识别系统,需要大量的训练数据,而实 际中训练数据往往是十分有限的。因此,为了减少模型对训练数据量的要求,需要进一步降 低模型的复杂度,提高参数估计的稳健性。 针对传统的"隐马尔可夫模型(HiddenMarkovModeI,HMM)-高斯混合模型 (GaussianMixtureModel,GMM)"声学模型,目前常用的解决方案有:结构化协方差矩阵/ 精度矩阵建模方法,即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1的) 基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子 (Eigentriphone)建模方法,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在 一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到 更为精确的参数估计;子空间高斯混合模型(SubspaceGaussianMixtureModel,SGMM) 将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若 干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混 合模型(GaussianMixtureModel,GMM)相比,SGMM声学模型大大压缩了模型尺寸,并且可 以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识 别。 前述几种方法可以归结为一大类基于基展开(BasisExpand)的声学建模方法。近 年来,基于压缩感知与稀疏表达的方法受到众多学者的青睐,已被成功应用于语音去噪、稳 健性语音识别、声学模型正则化等方面。2012年,Saon等将压缩感知技术直接应用于连续 语音识别声学建模中,将表示方法与马尔可夫链相结合,提出了一种贝叶斯感知隐马尔可 夫模型(BayesianSensingHMMs,BSHMMs),取得了不错的效果。BS-HMMs的有效性可以归 结为其在声学特征层次上应用压缩感知技术来建立状态模型,并利用最大后验估计得到了 稳健的模型参数。然而,与SGMM声学模型不同,其各状态模型之间的参数估计是相互独立 的,需要训练多个状态相关字典,因此对训练数据量的要求仍较高。2013年,Zhang等提出 稀疏精度矩阵建模方法,即对协方差矩阵的逆矩阵直接施加稀疏约束,从而间接减少模型 参数数量。 上述基展开方法本质上都是寻找模型参数的线性子空间,事实上,众多研宄表明 语音信号存在一个低维的非线性流形结构,因此现有方法采用线性子空间来对模型参数的 相关性进行建模是不精确的,只是一种近似方法。
技术实现思路
本专利技术的目的是提供,以 解决目前采用线性子空间来对模型参数的相关性进行建模所导致模型不精确的问题。 本专利技术为解决上述技术问题而提供一种基于声学空间非线性流形结构的声学模 型构建方法,该构建方法包括以下步骤: 1)采用含有I个高斯混元的高斯混合模型(GaussianMixtureModel,GMM)作为 声学特征空间的统一背景模型(UniversalBackgroundModel,UBM); 2)对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各 局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型 (MixtureofFactorAnalyzers,MFA),作为其低维非线性流形结构的近似模型; 3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文 相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状 态的观测概率模型,即构成了基于MFA的上下文相关状态模型; 4)对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为 所要构建的声学模型。 所述步骤1)中背景模型UBM的生成过程如下: A.利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线 系统; B.对基线系统中所有状态的高斯混元进行两两合并,计算合并前后的似然得分的 损失值; C.将损失值最小的两个高斯混元合并为一个新的高斯混元,直至得到新的高斯混 元数达到设定值。 所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个 局部区域,计算观测数据落入其中每个区域的概率,并对每个局部区域分别用一个因子分 析模型近似得到。 所述步骤2)中第i个局部区域的潜在维数Di的确定过程如下: A)将UBM中的各协方差矩阵氣中的特征值按照从大到小排序为Ail,Ai2,… ,入iD,其中D为特征矢量维数;【主权项】1. ,其特征在于,该构建方法 包括W下步骤: 1) 采用含有I个高斯混元的高斯混合模型(GaussianMix化reModel,GMM)作为声学 特征空间的统一背景模型(UniversalBackgroundModel,UBM); 2) 对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各局部区 域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型(Mix化re ofFactorAnalyzers,MFA),作为其低维非线性流形结构的近似模型; 3) 使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文相关 状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状态的 观测概率模型,即构成了基于MFA的上下文相关状态模型; 4) 对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为所要 构建的声学模型。2. 根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤1)中背景模型UBM的生成过程如下: A. 利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线系统; B. 对基线系统中所有状态的高斯混元进行两两合并,计算合并前后的似然得分的损失 值; C. 将损失值最小的两个高斯混元合并为一个新的高斯混元,直至得到新的高斯混元数 达到设定值。3. 根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个局部 区域,计算观测数据落入其中每个区域的概率,并对每个局部区域分别用一个因子分析模 型近似得到。4. 根据权利要求2所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤2)中第i个局部区域的潜在维数町的确定过程如下: A) 将UBM中的各协方差矩阵中的特征值按照从大到小排序为A。,A。,…,A。,其本文档来自技高网
...

【技术保护点】
一种基于声学空间非线性流形结构的声学模型构建方法,其特征在于,该构建方法包括以下步骤:1)采用含有I个高斯混元的高斯混合模型(Gaussian Mixture Model,GMM)作为声学特征空间的统一背景模型(Universal Background Model,UBM);2)对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型(Mixture of Factor Analyzers,MFA),作为其低维非线性流形结构的近似模型;3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状态的观测概率模型,即构成了基于MFA的上下文相关状态模型;4)对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为所要构建的声学模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:张文林屈丹李真闫红刚牛铜
申请(专利权)人:中国人民解放军信息工程大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1