一种基于声学空间非线性流形结构的声学模型构建方法技术

技术编号：11779223 阅读：195 留言：0更新日期：2015-07-26 23:15

本发明专利技术涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明专利技术通过将特征空间划分为多个局部区域，对每个局部区域用一个低维的线性因子分析模型进行近似，得到声学特征空间的混合因子分析模型；将上下文相关状态的观测矢量限定在该非线性低维流形结构上，估计其观测概率模型；每个状态模型由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部坐标矢量所决定；通过迭代过程，分别估计混合因子分析模型参数和各上下文相关状态模型参数。本发明专利技术所构建的声学模型的非线性假设条件更为合理，具有直观的物理意义，且声学模型中大量的参数是状态无关的，特别适用于训练数据量较少时的连续语音识别声学建模。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及，属于连续语音识别

技术介绍
在连续语音识别中，为了反映同一音素在不同上下文环境中发音的不同，通常采用上下文相关音素建模方法，即对每一个音素的不同音位变体，分别用一个隐马尔可夫模型（HiddenMarkovModel，HMM)进行建模，其中每一个隐含状态的观测概率分布用高斯混合模型（GaussianMixtureModel，GMM)或神经网络进行逼近。这种上下文相关模型的参数数量庞大，即使采用状态绑定等方法来减少状态个数，典型的连续语音识别系统参数数量仍然在百万级以上。为了训练得到一个性能良好的识别系统，需要大量的训练数据，而实际中训练数据往往是十分有限的。因此，为了减少模型对训练数据量的要求，需要进一步降低模型的复杂度，提高参数估计的稳健性。针对传统的"隐马尔可夫模型（HiddenMarkovModeI，HMM)-高斯混合模型 (GaussianMixtureModel，GMM)"声学模型，目前常用的解决方案有：结构化协方差矩阵/ 精度矩阵建模方法，即假设不同协方差矩阵或其精度矩阵由若干个低秩（通常是秩为1的）基矩阵的线性叠加得到，各高斯混元通过某种方式共享一组相同的基矩阵；本征三音子 (Eigentriphone)建模方法，将上下文相关状态进行聚类，将每一类状态的均值矢量限定在一个线性子空间中，通过估计子空间中的低维坐标矢量来重构状态的均值矢量，从而得到更为精确的参数估计；子空间高斯混合模型（SubspaceGaussianMixtureModel，SGMM) 将高斯混元的均值和权重限制在一...

【技术保护点】
一种基于声学空间非线性流形结构的声学模型构建方法，其特征在于，该构建方法包括以下步骤：1)采用含有I个高斯混元的高斯混合模型(Gaussian Mixture Model,GMM)作为声学特征空间的统一背景模型(Universal Background Model,UBM)；2)对UBM中每个高斯混元的协方差矩阵进行特征值分析，确定声学特征空间各局部区域的潜在维数Di及因子分析模型参数，得到声学特征空间中的混合因子分析模型(Mixture of Factor Analyzers,MFA)，作为其低维非线性流形结构的近似模型；3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系，将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上，估计上下文相关状态的观测概率模型，即构成了基于MFA的上下文相关状态模型；4)对基于MFA的上下文相关状态模型的参数进行迭代估计，最终所得到模型即为所要构建的声学模型。

【技术特征摘要】

【专利技术属性】
技术研发人员：张文林，屈丹，李真，闫红刚，牛铜，
申请(专利权)人：中国人民解放军信息工程大学，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人