基于神经机器翻译系统的单词预测方法及系统技术方案

技术编号:15639290 阅读:94 留言:0更新日期:2017-06-15 22:36
本发明专利技术涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。

【技术实现步骤摘要】
基于神经机器翻译系统的单词预测方法及系统
本专利技术涉及自然语言处理
,更具体地,涉及一种基于神经机器翻译系统的单词预测方法及系统。
技术介绍
机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。神经机器翻译是近些年来出现的最新的机器翻译方法,在翻译质量上,较原有的统计机器翻译方法有了一个显著的提升。相比于之前的统计机器翻译方法,神经机器翻译所需的工程设计更少,翻译效果也更好。当其首次被提出时,便在中等规模的公共基准数据集上就达到了可与统计方法媲美的准确度。自那以后,研究者已经提出了很多改进神经机器翻译的技术,如今在翻译质量上已经大大超越了统计方法,包括Google翻译和百度翻译在内的诸多业内公司都在近期将自己的翻译系统从基于统计的方法更新为基于神经网络的方法,并广受好评。然而,机器翻译还远未得到完全解决。神经机器翻译虽然表现卓著,但仍然会做出一些人类翻译者永远不出做出的重大错误,例如:漏词、重复翻译、错误翻译、将句子单独进行翻译而不考虑其段落的上下文等等;而统计机器翻译在上述很多方面的表现是要优于神经机器翻译的,例如在忠实度和可解释性等方面。事实上,目前已经有研究人员注意到这方面的问题,并利用统计方法的信息和特征去对神经网络方法进行改进,但这些方法在利用统计方法的信息的广度和深度上仍然不够充分。例如目前这类方法利用最多的仍然是单词的翻译表,因为神经网络方法在生成句子时,是以单词作为最小的生成单位,利用单词翻译概率的翻译概率相对比较容易,但是单词的翻译表进行神经机器翻译并不能确保每个词组、短语均被准确翻译,使得通过神经翻译模型得到的单词预测概率相对较差,忠实度和可解释性不高。因此,如何充分利用统计机器翻译中蕴含的这些思想和信息去解决神经翻译模型得到的单词预测概率相对较差的问题是一个非常值得研究的课题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决神经翻译模型得到的单词预测概率相对较差的问题,本专利技术提供了一种基于神经机器翻译系统的单词预测方法及系统。为解决上述技术问题,本专利技术提供了如下方案:一种基于神经机器翻译系统的单词预测方法,所述单词预测方法包括:利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。可选的,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。可选的,所述获得需要鼓励的目标单词集的方法包括:步骤S41:从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;步骤S42:从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;步骤S43:判断所述目标短语前缀与所述译文后缀是否匹配,如果匹配则执行步骤S44,否则执行步骤S45;步骤S44:选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词;步骤S45:选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。可选的,所述确定所述目标单词集中各所述目标单词的鼓励值的方法包括:步骤S51:基于各所述目标单词,从所述目标短语翻译候选集中抽取所述目标单词所在的各目标语言短语的翻译概率,以及各目标语言短语对应的当前源语言短语;步骤S52:基于各所述目标单词及所述神经机器翻译系统所得的注意力概率确定当前源语言短语的注意力概率;步骤S53:根据各目标语言短语的翻译概率及当前源语言短语的注意力概率确定各所述目标单词的鼓励值。可选的,根据以下公式确定当前源语言短语的注意力概率:其中,aij为目标单词yi和所述目标单词yi对应的源语言句子中的源端单词xj之间注意力概率,i表示目标单词yi的序号,j表示源端单词xj的序号,|fp|为当前源语言短语中所包含单词的个数,为目标端单词yi和当前源语言短语fp之间注意力概率。可选的,根据以下公式确定各所述目标单词的鼓励值:Rw(yi)=a(i,fp)pphrase(yi);其中,yi为目标单词,为目标端单词yi和当前源语言短语fp之间注意力概率,pphrase(yi)为目标单词yi所在目标语言短语的翻译概率,Rw(yi)为目标单词yi的鼓励值。可选的,根据以下公式获得各所述目标单词的预测概率其中,i表示目标单词yi的序号,ci为源语言的编码向量,为神经机器翻译系统翻译所得的部分译文,为目标单词yi的词向量,为神经机器翻译系统翻译的输出向量,为神经机器翻译系统对目标单词yi的打分,bs为标准softmax层的偏置向量。根据本专利技术的实施例,本专利技术公开了以下技术效果:本专利技术基于神经机器翻译系统的单词预测方法通过引入短语翻译表,获取目标短语翻译候选集及目标单词集,进而确定目标单词的鼓励值,将所述鼓励值添加到神经翻译模型中,从而可准确获得各所述目标单词的预测概率。为解决上述技术问题,本专利技术还提供了如下方案:一种基于神经机器翻译系统的单词预测系统,所述单词预测系统包括:抽取单元,用于利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;搜索单元,用于基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;选集单元,用于基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;选词单元,用于根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;计算单元,用于根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;预测单元,用于根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。可选的,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。可选的,所述选词单元包括:第一确定模块,用于从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;第二确定模块,用于从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;判断模块,用于判断所述目标短语前缀与所述译文后缀是否匹配;筛选模块,与所述判断模块连接,用于在所述判断模块的判断结果为是时,本文档来自技高网
...
基于神经机器翻译系统的单词预测方法及系统

【技术保护点】
一种基于神经机器翻译系统的单词预测方法,其特征在于,所述单词预测方法包括:利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。

【技术特征摘要】
1.一种基于神经机器翻译系统的单词预测方法,其特征在于,所述单词预测方法包括:利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。2.根据权利要求1所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。3.根据权利要求2所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述获得需要鼓励的目标单词集的方法包括:步骤S41:从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;步骤S42:从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;步骤S43:判断所述目标短语前缀与所述译文后缀是否匹配,如果匹配则执行步骤S44,否则执行步骤S45;步骤S44:选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词;步骤S45:选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。4.根据权利要求2所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述确定所述目标单词集中各所述目标单词的鼓励值的方法包括:步骤S51:基于各所述目标单词,从所述目标短语翻译候选集中抽取所述目标单词所在的各目标语言短语的翻译概率,以及各目标语言短语对应的当前源语言短语;步骤S52:基于各所述目标单词及所述神经机器翻译系统所得的注意力概率确定当前源语言短语的注意力概率;步骤S53:根据各目标语言短语的翻译概率及当前源语言短语的注意力概率确定各所述目标单词的鼓励值。5.根据权利要求4所述的基于神经机器翻译系统的单词预测方法,其特征在于,根据以下公式确定当前源语言短语的注意力概率:其中,aij为目标单词yi和所述目标单词yi对应的源语言句子中的源端单词xj之间注意力概率,i表示目标单词yi的序号,j表示源端单词xj的序号,|fp|为当前源语言短语中所包含单词的个数,为目标端单词yi和当前源语言短语fp之间...

【专利技术属性】
技术研发人员:张家俊赵阳王亦宁宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1