训练神经网络声学模型的方法和装置及语音识别方法和装置制造方法及图纸

技术编号:16271412 阅读:39 留言:0更新日期:2017-09-22 22:59
本发明专利技术提供训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。

Method and device for training acoustic model of neural network and speech recognition method and apparatus

The invention provides a method for training an acoustic model of a neural network, a device for training an acoustic model of a neural network, a speech recognition method, and a speech recognition device. According to one embodiment of the device, neural network training acoustic models: computing unit, the training data includes training speech and annotation based on phoneme state, phoneme and phoneme state of different calculation conditions of the annotation of the score; aggregation unit, the state will be divided into phonemes greater than a predetermined threshold and the annotation phoneme state aggregation; sharing unit, the state probability phoneme phoneme state the aggregation share this annotation; and the training unit, the training speech and the aggregation of phonemes based on neural network training acoustic models.

【技术实现步骤摘要】
训练神经网络声学模型的方法和装置及语音识别方法和装置
本专利技术涉及语音识别系统,具体涉及训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。
技术介绍
语音识别系统一般包含声学模型(AM)和语言模型(LM)两个部分。声学模型是统计语音特征对音素单元概率分布的模型,语言模型是统计词序列(词汇上下文)出现概率的模型,语音识别过程是根据两个模型的概率得分的加权和得到得分最高的结果。近几年,神经网络声学模型(NNAM)作为一种新方法被引入语音识别系统,极大地提高了识别性能。在神经网络声学模型的训练中,传统的技术是使用强制对齐的方法得到每个语音特征样本的输出目标并将其概率设置为1,然后基于交叉熵训练声学模型。后来也有通过使用所有输出目标的概率分布作为目标输出,基于KL距离(Kullback-LeiblerDivergence,又称为KL散度)训练声学模型,KL距离是和交叉熵等价的。
技术实现思路
本专利技术者们发现,在传统的神经网络声学模型的训练中,单一目标的训练和所有输出目标的训练都没有合理的使用训练目标之间的相似性,缺乏对训练目标的选择和筛选。对于单一目标的训练,在给定训练样本的情况下,输出状态目标的概率为1,其他输出状态目标为0,而这样的训练忽略了输出状态目标和其他状态目标的之间的相似性,破坏了输出状态目标的真实的概率分布。例如一些和输出状态目标非常相似的其他状态也应该有一个合理的概率分布值。对于所有输出目标的训练,也没有合理的使用训练目标之间的相似性,缺乏对训练目标的选择和筛选。另外,在传统的神经网络声学模型训练中,对于具有多个输出状态目标的神经网络声学模型训练来说,使用交叉熵作为训练准则进行训练不够灵活,不能够从多角度学习输出目标的真实的概率分布。为了进一步改进神经网络声学模型的训练方法,提高语音识别的精度,本专利技术提出了使用聚集的音素状态来训练神经网络声学模型的方法和装置,并进一步提供了语音识别方法和语音识别装置。在本专利技术的一个实施方式中,将与标注的音素状态相似度高或距离近的音素状态聚集,聚集的音素状态和标注的音素状态一起分享输出概率。具体地,提供了以下技术方案。[1]一种训练神经网络声学模型的方法,包括:基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;将得分大于预定阈值的音素状态和上述标注的音素状态聚集;使上述聚集的音素状态分享上述标注的音素状态的概率;和基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。通过上述方案[1]的训练神经网络声学模型的方法,将得分高的音素状态与标注的音素状态聚集,聚集的音素状态分享标注的音素状态的概率,能够真实平滑地训练神经网络声学模型。[2]根据上述方案[1]所述的训练神经网络声学模型的方法,其中,计算上述音素状态的得分的步骤包括:基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的得分。通过上述方案[2]的训练神经网络声学模型的方法,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分,能够将与标注的音素状态相似度高或距离近的音素状态聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。[3]根据上述方案[1]所述的训练神经网络声学模型的方法,其中,计算上述音素状态的得分的步骤包括:基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。[4]根据上述方案[3]所述的训练神经网络声学模型的方法,其中,计算上述音素状态的得分的步骤包括:通过向前传播,得到上述音素状态的得分。通过上述方案[3]或[4]的训练神经网络声学模型的方法,基于训练数据和训练好的神经网络声学模型,计算音素状态的得分,能够基于训练好的的神经网络声学模型选择音素状态进行聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。[5]根据上述方案[1]至[4]的任一方案所述的训练神经网络声学模型的方法,其中,将得分大于预定阈值的音素状态和上述标注的音素状态聚集的步骤包括:利用上述音素状态的决策树,对上述音素状态进行过滤。[6]根据上述方案[5]所述的训练神经网络声学模型的方法,其中,将与上述标注的音素状态不在同一决策树上的音素状态过滤。通过上述方案[5]或[6]的训练神经网络声学模型的方法,将与标注的音素状态不在同一决策树上的音素状态过滤,能够更加真实平滑地训练神经网络声学模型。[7]根据上述方案[1]至[6]的任一方案所述的训练神经网络声学模型的方法,其中,使上述聚集的音素状态分享上述标注的音素状态的概率的步骤包括:基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注的音素状态的概率。[8]根据上述方案[1]至[7]的任一方案所述的训练神经网络声学模型的方法,其中,训练神经网络声学模型的步骤包括:使用交叉熵训练准则,训练神经网络声学模型。[9]根据上述方案[8]所述的训练神经网络声学模型的方法,其中,上述交叉熵训练准则包括带权重的交叉熵训练准则。[10]根据上述方案[9]所述的训练神经网络声学模型的方法,其中,上述带权重的交叉熵训练准则为:上述带权重的交叉熵训练准则为:通过上述方案[10]的训练神经网络声学模型的方法,通过调节带权重的交叉熵训练准则的权重因子和距离因子,能够提高训练的灵活度,能够从多角度学习输出目标的真实的概率分布。[11]一种语音识别方法,包括:输入待识别的语音;利用由上述方案[1]至[10]的任一方案所述的方法训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。通过上述方案[11]的语音识别方法,能够提高语音识别的精度。[12]一种训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。通过上述方案[12]的训练神经网络声学模型的装置,将得分高的音素状态与标注的音素状态聚集,聚集的音素状态分享标注的音素状态的概率,能够真实平滑地训练神经网络声学模型。[13]根据上述方案[12]所述的训练神经网络声学模型的装置,其中,上述计算单元,基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的得分。通过上述方案[13]的训练神经网络声学模型的装置,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分,能够将与标注的音素状态相似度高或距离近的音素状态聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。[14]根据上述方案[12]所述的训练神经网络声学模型的装置,其中,上述计算单元,基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。[15]根据上述方案[14]所述的训练神经网络本文档来自技高网...
训练神经网络声学模型的方法和装置及语音识别方法和装置

【技术保护点】
一种训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。

【技术特征摘要】
1.一种训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。2.根据权利要求1所述的训练神经网络声学模型的装置,其中,上述计算单元,基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的得分。3.根据权利要求1所述的训练神经网络声学模型的装置,其中,上述计算单元,基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。4.根据权利要求1至3的任一项所述的训练神经网络声学模型的装置,其中,上述聚集单元,将与上述标注的音素状态不在同一决策树上的音素状态过滤。5.根据权利要求1至3的任一项所述的训练神经网络声学模型的装置,其中,上述分享单元,基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注...

【专利技术属性】
技术研发人员:朱会峰邓妍丁沛雍坤郝杰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1