一种基于CTC的声学模型训练方法技术

技术编号：18427971 阅读：489 留言：0更新日期：2018-07-12 02:22

本发明专利技术提供一种基于CTC的声学模型训练的方法，该方法包括：步骤1、训练一个初始的GMM模型，用该GMM模型对训练数据的文本标注进行时间点强制对齐，得到每个音素所对应的时间区域；步骤2、在每个音素后插入一个与该音素相关的“空白”符号，每个音素拥有一个特有的“空白”符号；步骤3、采用有限状态机，对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图；步骤4、根据时间对齐结果，对每个音素出现的时间范围进行限制，并对该搜索路径图进行剪枝，将音素位置超出时间限制的路径减掉，得到最终CTC计算网络误差时所需的搜索路径图；步骤5、采用延时神经网络(Time‑delay Neural Network,TDNN)结构结合CTC方法进行声学模型训练，得到最终的TDNN‑CTC声学模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CTC的声学模型训练方法
本专利技术涉及语音识别
，特别涉及一种基于CTC的声学模型训练的方法。
技术介绍
近年来，在语音识别系统中，引入深度神经网络(DeepNeuralNetwork，DNN)进行声学模型建模已经取得了巨大的成功。由于DNN出色的分类能力，使其能够取代传统隐马尔可夫模型(HiddenMarkovModel)架构中的混合高斯模型(GaussianMixtureModel,GMM)用于产生后验概率。然而，这种新的HMM/DNN模型架构训练起来非常复杂。因此，研究人员们开始探索一种端到端的学习方法，即输入一句语音特征序列，直接得到其文本序列。在这种情况下，连接时序分类准则(ConnectionistTemporalClassification,CTC)结合循环神经网络的方法(RecurrentNeuralNetwork,RNN)越来越受到研究人员的关注。CTC与传统的利用交叉熵(Cross-entropy，CE)训练神经网络的方法主要有两方面的不同：第一，一个额外的输出结点在被加到了网络的输出中，用于表示“空白”符号。在语音识别中，神经网络的每个输出结点代表一个声学建模因子，根据建模粒度的不同，其可以是单音素因子，也可以是三音素因子。而每个时刻网络的输出则代表了该时刻每个音素因子的后验概率。加入“空白”符号的原因是用其代表网络输出不确定时的状态，即当输入为表征噪声等不可辨识的特征或者输入为介于两个不同音素的临界状态时，网络可输出“空白”符号而避免输出一个确定的音素；第二，CTC训练方法是对网络输入的整句话进行优化，目的是最大化整...

【技术保护点】
1.一种基于CTC的声学模型训练的方法，其特征在于，该方法包括：步骤1、训练一个初始的GMM模型，用该GMM模型对训练数据的文本标注进行时间点强制对齐，得到训练数据的音素标注序列中的每个音素所对应的时间区域；步骤2、在训练数据的音素标注序列中，在每个音素后都插入一个与该音素相关的“空白”符号，则每个音素拥有一个特有的“空白”符号，即“空白”符号的数量与训练数据的音素标注序列中的音素数量相同；步骤3、采用有限状态机，对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图；步骤4、根据步骤1中的时间对齐结果，对每个音素出现的时间范围进行限制，规定每个音素出现的时间在对齐结果中，设置“时间容忍度”参数，即设定每个音素出现时间，并根据这个限制对步骤3中构建的搜索路径图进行剪枝，将音素位置超出时间限制的路径减掉，得到最终CTC计算网络误差时所需的搜索路径图；步骤5、采用延时神经网络结构TDNN，再结合CTC方法进行声学模型训练，得到最终的TDNN‑CTC声学模型，TDNN中采用ReLU作为激活函数；所述ReLU激活函数公式为：g(y)＝max(0，y)其中，g(y)表示经过激活函...

【技术特征摘要】
1.一种基于CTC的声学模型训练的方法，其特征在于，该方法包括：步骤1、训练一个初始的GMM模型，用该GMM模型对训练数据的文本标注进行时间点强制对齐，得到训练数据的音素标注序列中的每个音素所对应的时间区域；步骤2、在训练数据的音素标注序列中，在每个音素后都插入一个与该音素相关的“空白”符号，则每个音素拥有一个特有的“空白”符号，即“空白”符号的数量与训练数据的音素标注序列中的音素数量相同；步骤3、采用有限状态机，对加入“空白”符号后的音素标注序列构建一个CTC前后向计算的搜索路径图；步骤4、根据步骤1中的时间对齐结果，对每个音素出现的时间范围进行限制，规定每个音素出现的时间在对齐结果中，设置“时间容忍度”参数，即设定每个音素出现时间，并根据这个限制对步骤3中构建的搜索路径图进行剪枝，将...

【专利技术属性】
技术研发人员：张鹏远，王智超，潘接林，颜永红，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人