声学模型训练构造方法、及声学模型和语音识别系统技术方案

技术编号:15128183 阅读:98 留言:0更新日期:2017-04-10 07:22
本发明专利技术提供一种声学模型的训练构造方法和基于训练方法的隐马尔科夫声学模型和语音识别系统,所述训练方法为:(1)基于训练数据和预先给定的状态聚类,计算得到每类的帧数统计量和类内散度矩阵。(2)对于模型中表示非语音的状态类,当其对应的帧数统计量远大于状态类的平均统计量时,对其进行统计量抑制平滑。(3)对于模型中表示语音的状态类,当其对应的帧数统计量远小于状态类的平均统计量时,对其进行统计量抑制平滑。(4)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵。(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的稳定声学模型。本发明专利技术最终提高声学模型的识别性能。

【技术实现步骤摘要】

本专利技术属于语音识别领域,具体地说,涉及一种异方差线性判别分析的平滑方法,可用于语种识别中高维特征矢量的快速降维和去相关处理。
技术介绍
在大词汇连续语音识别中,异方差线性判别分析(HLDA,HeteroscedasticLinearDiscriminantAnalysis)通过去除特征间的相关性提升了模型的识别性能,从而被广泛应用于声学建模中(N.Kumar.InvestigationofsiliconauditorymodelsandgeneralizationoflinearDiscriminantanalysisforimprovedspeechrecognition.PhDthesis,JohnsHopkinsUniversity,Baltimore,Maryland,1997.)。其算法的核心是将语音按照状态分成不同的类,通过寻找到最合适的特征映射方向将原始特征降维,使降维后的特征最利于不同状态类之间的区分。相比传统的线性判别式分析(LinearDiscriminantAnalysis),异方差线性判别分析容许各个状态类之间拥有各自独立的协方差矩阵,其更符合语音分布的实际情况。异方差线性判别分析是一种数据驱动的算法,计算所需要的高斯核的均值和协方差矩阵等模型参数都从训练数据中估计出来,其最终得到的降维矩阵与训练数据的分布情况直接相关(陈思宝,胡郁,王仁华.一种结构受限的异方差线性判别分析,《中文信息学报》,2008,第22卷(第4期))。然而,在实际应用中发现,一方面用于语音识别时描述静音的状态类通常所占据的统计量很大,远远超过描述语音的单个状态类,这使得基于统计量进行计算的异方差线性判别分析,过分偏向静音,在一定程度上抑制了对语音部分的区分性;另一方面,由于训练数据有限,某些语音的状态分布相对稀疏,相应的训练数据并不能反映其真实统计分布情况,由此导致计算异方差线性判别分析时的统计信息也相应受到影响。
技术实现思路
本专利技术的目的在于,为克服已有异方差线性判别分析的不足,提出一种对语音状态类区分更为合理的异方差线性判别分析方法,即本专利技术提供声学模型训练构造方法、及声学模型和语音识别系统。为了实现上述目的,本专利技术提供一种声学模型的训练构造方法,所述方法包含:步骤101)基于训练数据和预先给定的状态类,计算得到每类均值和类内散度矩阵;其中,状态类包含非语音状态类和语音状态类;步骤102)当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时,对非语音状态统计量进行抑制平滑;其中,所述的非语音状态类包含:句间静音状态、词间停顿状态或噪声状态;或当语音状态类的帧数的统计量低于所有状态类的平均统计量10倍或者以上时,对语音状态类的统计量进行抑制平滑;步骤103)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵;步骤104)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的声学模型。可选的,上述步骤101)进一步包含:步骤101-1)模型训练状态类别数为N类,训练数据为{xi本文档来自技高网
...

【技术保护点】
一种声学模型的训练构造方法,所述方法包含:步骤101)基于训练数据和预先给定的状态类,计算得到每类均值和类内散度矩阵;其中,状态类包含非语音状态类和语音状态类;步骤102)当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时,对非语音状态统计量进行抑制平滑;其中,所述的非语音状态类包含:句间静音状态、词间停顿状态或噪声状态;或当语音状态类的帧数的统计量低于所有状态类的平均统计量10倍或者以上时,对语音状态类的统计量进行抑制平滑;步骤103)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵;步骤104)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的声学模型。

【技术特征摘要】
1.一种声学模型的训练构造方法,所述方法包含:
步骤101)基于训练数据和预先给定的状态类,计算得到每类均值和类内散度矩
阵;其中,状态类包含非语音状态类和语音状态类;
步骤102)
当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时,对
非语音状态统计量进行抑制平滑;其中,所述的非语音状态类包含:句间静音状态、
词间停顿状态或噪声状态;或
当语音状态类的帧数的统计量低于所有状态类的平...

【专利技术属性】
技术研发人员:张晴晴潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1