The invention provides a method for training an acoustic model of a neural network, a device for training an acoustic model of a neural network, a speech recognition method, and a speech recognition device. According to one embodiment of the device, neural network training acoustic models: computing unit, the training data includes training speech and annotation based on phoneme state, phoneme and phoneme state of different calculation conditions of the annotation of the score; aggregation unit, the state will be divided into phonemes greater than a predetermined threshold and the annotation phoneme state aggregation; sharing unit, the state probability phoneme phoneme state the aggregation share this annotation; and the training unit, the training speech and the aggregation of phonemes based on neural network training acoustic models.
【技术实现步骤摘要】
训练神经网络声学模型的方法和装置及语音识别方法和装置
本专利技术涉及语音识别系统,具体涉及训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。
技术介绍
语音识别系统一般包含声学模型(AM)和语言模型(LM)两个部分。声学模型是统计语音特征对音素单元概率分布的模型,语言模型是统计词序列(词汇上下文)出现概率的模型,语音识别过程是根据两个模型的概率得分的加权和得到得分最高的结果。近几年,神经网络声学模型(NNAM)作为一种新方法被引入语音识别系统,极大地提高了识别性能。在神经网络声学模型的训练中,传统的技术是使用强制对齐的方法得到每个语音特征样本的输出目标并将其概率设置为1,然后基于交叉熵训练声学模型。后来也有通过使用所有输出目标的概率分布作为目标输出,基于KL距离(Kullback-LeiblerDivergence,又称为KL散度)训练声学模型,KL距离是和交叉熵等价的。
技术实现思路
本专利技术者们发现,在传统的神经网络声学模型的训练中,单一目标的训练和所有输出目标的训练都没有合理的使用训练目标之间的相似性,缺乏对训练目标的选择和筛选。对于单一目标的训练,在给定训练样本的情况下,输出状态目标的概率为1,其他输出状态目标为0,而这样的训练忽略了输出状态目标和其他状态目标的之间的相似性,破坏了输出状态目标的真实的概率分布。例如一些和输出状态目标非常相似的其他状态也应该有一个合理的概率分布值。对于所有输出目标的训练,也没有合理的使用训练目标之间的相似性,缺乏对训练目标的选择和筛选。另外,在传统的神经网络声学模型训练中,对于具有多 ...
【技术保护点】
一种训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
【技术特征摘要】
1.一种训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。2.根据权利要求1所述的训练神经网络声学模型的装置,其中,上述计算单元,基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的得分。3.根据权利要求1所述的训练神经网络声学模型的装置,其中,上述计算单元,基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。4.根据权利要求1至3的任一项所述的训练神经网络声学模型的装置,其中,上述聚集单元,将与上述标注的音素状态不在同一决策树上的音素状态过滤。5.根据权利要求1至3的任一项所述的训练神经网络声学模型的装置,其中,上述分享单元,基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注...
【专利技术属性】
技术研发人员:朱会峰,邓妍,丁沛,雍坤,郝杰,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。