基于分布式神经网络的语言模型训练方法及其系统技术方案

技术编号：10075928 阅读：465 留言：0更新日期：2014-05-24 07:08

本发明专利技术是有关于一种基于分布式神经网络的语言模型训练方法及其系统，该方法包括：将大词表拆分为多个小词表；将每个小词表对应一个神经网络语言模型，每个神经网络语言模型的输入维数相同且独立进行第一次训练；将各神经网络语言模型的输出向量合并并进行第二次训练；得到归一化的神经网络语言模型。该系统包括：输入模块、第一次训练模块、第二次训练模块和输出模块。本发明专利技术通过多个神经网络训练学习不同词表，充分利用神经网络的学习能力，大大降低对大词表学习训练的时间，同时将大词表的输出进行归一化，实现多个神经网络的归一和共享，使得NNLM尽可能学习更多的信息，从而提高大规模语音识别和机器翻译等相关应用任务中的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语言模型，特别是涉及一种基于分布式神经网络的语言模型训练方法及其系统。
技术介绍
语言模型在自然语言处理中有着非常重要的作用，特别是在大规模语音识别和机器翻译中。当前主流的语言模型为基于概率的统计语言模型，特别是基于n-gram的统计模型。随着神经网络的兴起，越来越多的人利用神经网络生成统计语言模型。统计语言模型被广泛应用于各种自然语言处理问题，如语言识别、分词、机器翻译、词性标注等。简单的说，统计语言模型就是用来计算一个句子的概率的模型，即p(w1，w2，…，wk)已知一个句子（词语序列）s=w1，w2，…，wk，他们的概率可以表示为：p(s)=p(w1，w2，…，wk)=p(w1)p(w2|w1)…p(wk|w1，w2，…，wk-1)举个简单的例子，输入拼音串为nixianzaiganshenme，对应的输出可以有多种形式，如“你现在干什么”、“你西安再赶什么”，等等。那么到底哪个才是正确的转换结果呢？利用语言模型，我们知道前者的概率大于后者，因此转换成前者在多数情况下比较合理。目前使用比较多的统计语言模型是n-gram语言模型，就是将上式中条件概率部分p(wk|w1，w2，…，wk-1)简化为p(wk|w1，w2，…，wn-1)。实际应用中n一般取为n=3或n=4,即三元和四元的n-gram语言模型。基于神经网络的语言模型最早由Bengio等人在20...

【技术保护点】
一种基于分布式神经网络的语言模型训练方法，其特征在于包括以下步骤：将大词表拆分为多个小词表；将每个小词表对应一个小神经网络语言模型，每个小神经网络语言模型的输入维数相同且独立进行第一次训练；将各小神经网络语言模型的输出向量合并并进行第二次训练；得到归一化的神经网络语言模型。

【技术特征摘要】
1.一种基于分布式神经网络的语言模型训练方法，其特征在于包括以
下步骤：
将大词表拆分为多个小词表；
将每个小词表对应一个小神经网络语言模型，每个小神经网络语言模
型的输入维数相同且独立进行第一次训练；
将各小神经网络语言模型的输出向量合并并进行第二次训练；
得到归一化的神经网络语言模型。
2.根据权利要求1所述的基于分布式神经网络的语言模型训练方法，
其特征在于所述的第二次训练神经网络的输出概率计算公式为：
其中，softmax(x)=exp(xi)/(Σr(exp(xr)))，
P1(o)T，P2(o)T，…，Pm(o)T为每个小神经网络语言模型的输出，
x为第二次训练神经网络的输入，M是映射层到隐藏层的系数矩阵，b
为隐藏层节点的偏移量，V为隐藏层到输出层的系数矩阵，d为输出层节点
的偏移量。
3.根据权利要求1所述的基于分布式神经网络的语言模型训练方法，<...

【专利技术属性】
技术研发人员：刘荣，王东，郑方，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人