一种基于字的神经网络的训练方法和装置制造方法及图纸

技术编号：12787703 阅读：173 留言：0更新日期：2016-01-28 16:15

本申请提供了一种基于字的神经网络的训练方法和装置，包括：将每个训练语句按字获取每个字的字向量；将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量；将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。因此本申请解决了基于词的神经网络语言模型中训练效率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理领域，特别是涉及一种基于字的神经网络的训练方法和装置。
技术介绍
在自然语言处理和语音识别等领域，语言模型用于描述语言内部的词语搭配关系。一个高质量的语言模型对连续语音识别和机器翻译等都具有重要意义。当前主流的语言模型是基于概率的统计语言模型（n-gram)，该统计语言模型显著缺陷是：对于新词或者低频词难W得到有效的概率统计。基于此人们专利技术了各种平滑算法，如discount,back-off,inte巧olation等。上述方法在一定程度上改善了n-gram在低频词上的性能，但是由于统计语言模型本身的缺陷，始终无法从根本上解决。为了解决统计语言模型中存在的问题，提出了基于词的神经网络语言模型统计低频词的概率。目前基于词的神经网络语言模型存在W下缺陷： 1、现有的汉字可W组成数W万计的词表，基于词的神经网络模型需要对组成的数 W万计的词表进行训练，导致神经网络语言模型训练时间长，训练效率低。当词表增大到超过10万W上时，训练时间变得难W接受。 2、中文是动态语言，新词不断涌现。目前基于词的神经网络语言模型无法处理送些新词，同时不断增加的新词使得神经网络语言模型的训练越来越复杂，即使要重新训练神经网络语言模型也极为困难。因此，基于词的神经网络语言模型中存在训练时间长，进而导致训练效率低的问题。
技术实现思路
本申请提供一种基于字的神经网络的训练方法和装置，W解决基于词的神经网络语言模型中训练效率低的问题。为了解决上述问题，本申请公开了一种基于字的神经网络的训练方法，包括：将每个训练语句按字...

【技术保护点】
一种基于字的神经网络的训练方法，其特征在于，包括：将每个训练语句按字获取每个字的字向量；将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练，获得预训练结果，其中，所述结果包括字向量的上文特征向量和字向量下文的特征向量；将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中，训练所述第二神经网络。

【技术特征摘要】

【专利技术属性】
技术研发人员：王东，游世学，刘荣，乔亚飞，
申请(专利权)人：清华大学，北京中科汇联信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人