声学模型训练构造方法、及声学模型和语音识别系统技术方案

技术编号：15128183 阅读：98 留言：0更新日期：2017-04-10 07:22

本发明专利技术提供一种声学模型的训练构造方法和基于训练方法的隐马尔科夫声学模型和语音识别系统，所述训练方法为：(1)基于训练数据和预先给定的状态聚类，计算得到每类的帧数统计量和类内散度矩阵。(2)对于模型中表示非语音的状态类，当其对应的帧数统计量远大于状态类的平均统计量时，对其进行统计量抑制平滑。(3)对于模型中表示语音的状态类，当其对应的帧数统计量远小于状态类的平均统计量时，对其进行统计量抑制平滑。(4)基于类内散度矩阵和平滑后的类统计量，计算异方差线性判别分析矩阵。(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的稳定声学模型。本发明专利技术最终提高声学模型的识别性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别领域，具体地说，涉及一种异方差线性判别分析的平滑方法，可用于语种识别中高维特征矢量的快速降维和去相关处理。
技术介绍
在大词汇连续语音识别中，异方差线性判别分析(HLDA，HeteroscedasticLinearDiscriminantAnalysis)通过去除特征间的相关性提升了模型的识别性能，从而被广泛应用于声学建模中(N.Kumar.InvestigationofsiliconauditorymodelsandgeneralizationoflinearDiscriminantanalysisforimprovedspeechrecognition.PhDthesis,JohnsHopkinsUniversity,Baltimore,Maryland,1997.)。其算法的核心是将语音按照状态分成不同的类，通过寻找到最合适的特征映射方向将原始特征降维，使降维后的特征最利于不同状态类之间的区分。相比传统的线性判别式分析(LinearDiscriminantAnalysis),异方差线性判别分析容许各个状态类之间拥有各自独立的协方差矩阵，其更符合语音分布的实际情况。异方差线性判别分析是一种数据驱动的算法，计算所需要的高斯核的均值和协方差矩阵等模型参数都从训练数据中估计出来，其最终得到的降维矩阵与训练数据的分布情况直接相关(陈思宝,胡郁,王仁华.一种结构受限的异方差线性判别分析，《中文信息学报》，2008,第22...

【技术保护点】
一种声学模型的训练构造方法，所述方法包含：步骤101)基于训练数据和预先给定的状态类，计算得到每类均值和类内散度矩阵；其中，状态类包含非语音状态类和语音状态类；步骤102)当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时，对非语音状态统计量进行抑制平滑；其中，所述的非语音状态类包含：句间静音状态、词间停顿状态或噪声状态；或当语音状态类的帧数的统计量低于所有状态类的平均统计量10倍或者以上时，对语音状态类的统计量进行抑制平滑；步骤103)基于类内散度矩阵和平滑后的类统计量，计算异方差线性判别分析矩阵；步骤104)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维，并重新迭代得到降维后的声学模型。

【技术特征摘要】
1.一种声学模型的训练构造方法，所述方法包含：
步骤101)基于训练数据和预先给定的状态类，计算得到每类均值和类内散度矩
阵；其中，状态类包含非语音状态类和语音状态类；
步骤102)
当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时，对
非语音状态统计量进行抑制平滑；其中，所述的非语音状态类包含：句间静音状态、
词间停顿状态或噪声状态；或
当语音状态类的帧数的统计量低于所有状态类的平...

【专利技术属性】
技术研发人员：张晴晴，潘接林，颜永红，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人